资深机器学习基础设施工程师

旧金山 2天前全职 网络
面议
资深机器学习基础设施工程师 旧金山,加州 - 现场工作 薪资 - 超过市场平均水平 + 股权 加入我们,构建全球领先的生成视频和多模态人工智能平台之一!我们正在寻找一位经验丰富的基础设施工程师,他对创建云规模系统充满热情,这些系统为高性能计算和复杂机器学习工作负载的强大 CI/CD 管道提供支持。 您将实现的目标: • 核心机器学习平台架构:设计和增强大规模生成视频和多模态模型训练、评估和部署的基础设施。 • 高吞吐量计算系统:开发和优化针对视频密集工作负载的 GPU/TPU 集群和分布式训练系统。 • 生成模型的生产可靠性:创建必要的工具和服务,以支持频繁的模型更新,同时管理显著的计算需求和长期任务。 • 机器学习的端到端 CI/CD:领导自动化管道的开发,用于模型训练、验证、工件管理和部署。 • 多模态数据基础设施:构建系统以处理大规模数据集的摄取、版本控制、转换和服务,包括视频、音频和文本,确保高可靠性。 • 内部开发者体验:与研究、产品和应用机器学习团队合作,创建用户友好的内部工具,用于实验跟踪、模型来源和资源管理。 • 技术领导力:指导其他工程师,建立平台标准,并影响未来的架构决策。 您带来的条件: • 在云环境、超大规模计算平台或顶级人工智能公司设计和管理大规模基础设施的证明经验。 • 对 CI/CD 系统、高容量计算平台或为机器学习团队服务的数据基础设施的拥有历史。 • 在 GPU/加速器、Kubernetes 和云平台(AWS/GCP/Azure)方面的分布式计算专家知识。 • 在 Python 或 Go 等语言方面扎实的工程技能。 • 先前接触机器学习训练管道,特别是涉及大量视频、多模态或高维数据的经验。 • 能够跨多个团队领导复杂的项目并制定技术战略。 优先经验: • 具有视频处理、大规模媒体管道或流媒体架构的经验。 • 熟悉现代多模态或视频生成框架,如 PyTorch、JAX 或 diffusers。 • 在 Ray、Triton、CUDA 优化或机器学习工作负载的专业调度方面的背景。 • 在快速增长的人工智能初创公司或研究导向的环境中工作的历史。 • 理解与用户生成内容相关的安全和合规问题。 加入我们的理由: • 影响尖端生成视频系统的基础。 • 通过开发加速研究和产品创新的基础设施,推动多模态 AI 的未来。 • 与来自顶级科技公司的资深创始工程师、研究人员和平台开发人员合作。 • 获得具有竞争力的薪酬、丰厚的股权,并参与旧金山强大的面对面工程文化。