员工机器学习基础设施工程师

旧金山 17天前全职 网络
面议
员工 / 领导机器学习基础设施工程师 旧金山,加州 - 现场工作 薪资 - 超过市场平均水平 + 股权 我们正在构建全球领先的生成视频和多模态人工智能平台之一,现寻求一位高级基础设施工程师来推动这一切的实现。此角色非常适合来自顶尖科技公司的工程师,他们曾构建过云规模系统、高性能计算平台,以及支持复杂机器学习工作负载的经过实战检验的 CI/CD 管道。 您将负责: 核心机器学习平台架构:设计和演进支持大规模生成视频和多模态模型训练、评估和部署的基础设施。 高吞吐量计算系统:构建和优化 GPU/TPU 集群、分布式训练系统以及针对视频重型管道定制的编排层。 生成模型的生产可靠性:创建所需的工具和服务,以安全地频繁推送模型更新,同时处理大量计算负载和长时间运行的作业。 机器学习的端到端 CI/CD:领导模型训练、验证、工件管理和生产发布的自动化管道开发。 多模态数据基础设施:构建系统以高可靠性摄取、版本控制、转换和服务大规模视频、音频和文本数据集。 内部开发者体验:与研究、产品和应用机器学习团队合作,构建直观的内部工具来跟踪实验、模型沿袭和资源调度。 技术领导:指导工程师,设定平台标准,并影响长期架构方向。 您所做的: 在云服务提供商、超大规模公司或领先的人工智能公司架构和运营大规模基础设施的经验。 构建或拥有关键的 CI/CD 系统、高容量计算平台或支持机器学习团队的数据基础设施。 在 GPU/加速器、Kubernetes 和云基础设施(AWS/GCP/Azure)上的分布式计算方面有深厚的经验。 在 Python、Go 或同等语言方面具有扎实的工程基础。 以前接触过机器学习训练管道,特别是处理重视频、多模态或高维数据的系统。 展现出领导复杂跨组织项目和推动技术战略的能力。 附加优势: 具备视频处理系统、大规模媒体管道或流媒体架构的经验。 熟悉现代多模态或视频生成框架(PyTorch、JAX、扩散模型、自定义加速器)。 具备 Ray、Triton、CUDA 优化或专门为机器学习工作负载调度的经验。 在高成长的人工智能初创公司或研究集中的环境中工作过的背景。 考虑生成或处理用户内容的模型的安全性和合规性。 加入我们的理由: 塑造全球最先进生成视频系统的基础平台。 通过构建直接加速研究和产品突破的基础设施,影响多模态人工智能的未来。 与来自顶尖科技公司的经验丰富的创始工程师、研究人员和平台构建者密切合作。 在旧金山享受具有竞争力的薪酬、重要的股权和强大的面对面工程文化。