地点:剑桥,马萨诸塞州(东部时间/UTC -4)提供搬迁补贴
开始日期:尽快
语言:英语(必需)
关于该职位
Pragmatike 正在为一家快速发展的 AI 初创公司招聘,该公司由 MIT CSAIL 研究人员创立,被 GTM Capital 评为十大 GenAI 公司之一。
我们正在寻找一名高级/首席 ML Ops 工程师,负责领导公司的 ML 基础设施和生产 AI 系统的设计、实施和扩展。这是一个高影响力、定义架构的角色,您将在整个模型生命周期中工作——训练、评估、部署、可观测性和持续优化。
您将与 AI 研究人员、GPU 系统工程师、后端团队和产品利益相关者密切合作,以确保公司的大规模 AI 系统稳健、高效、自动化且达到生产级别。此职位非常适合那些已经在大规模构建和拥有 ML 平台,并能够推动战略和实践执行的人。
您的工作内容
- 构建和扩展端到端的 ML Ops 管道,包括训练、微调、评估、发布和监控。
- 设计可靠的基础设施,用于模型部署、版本控制、可重现性和跨云及本地 GPU 集群的编排。
- 优化分布式系统中的计算使用(Kubernetes、自动扩展、缓存、GPU 分配、检查点工作流)。
- 领导 ML 系统的可观测性实施(监控漂移、性能、吞吐量、可靠性、成本)。
- 构建数据集策划、标注、特征管道、评估和 ML 模型的 CI/CD 的自动化工作流。
- 与研究人员合作,将模型投入生产并加速训练/推理管道。
- 建立 ML Ops 最佳实践、内部标准和跨团队工具。
- 指导工程师并影响整个 AI 平台的架构方向。
我们在寻找
- 拥有设计和操作大规模生产 ML 系统的深厚实践经验(期望高级/首席级别)。
- 在 ML Ops、分布式系统和云基础设施(AWS、GCP 或 Azure)方面有强大的背景。
- 精通 Python,并熟悉 TypeScript 或 Go 进行平台集成。
- 精通 ML 框架:PyTorch、Transformers、vLLM、Llama-factory、Megatron-LM、CUDA/GPU 加速(实际理解)
- 在容器化和编排方面有丰富经验(Docker、Kubernetes、Helm、自动扩展)。
- 深刻理解 ML 生命周期工作流:训练、微调、评估、推理、模型注册。
- 能够领导技术战略,跨职能合作,并在快节奏环境中工作。
加分项
- 有在企业规模上部署和操作 LLM 和生成模型的经验。
- 熟悉 DevOps、CI/CD、自动化部署管道和基础设施即代码。
- 有优化 GPU 集群、调度和分布式训练框架的经验。
- 有初创公司经验或在不确定性和高责任感下工作的舒适度。
- 有与数据工程、特征管道或实时 ML 系统合作的经验。
为什么这个职位会推动您的职业生涯
- 研究背景:MIT CSAIL 创始人因突破性 AI 和系统贡献而获得认可。
- 客户影响:部署 AI 解决方案,为财富 500 强客户提供支持。
- 行业动向:实验室校友领导了高价值收购(MosaicML Databricks、Run:AI Nvidia、W&B CoreWeave)。
- 资金与增长:超额认购的种子轮融资,下一轮融资在 2026 年。
- 职业成长与影响:领导 AI 项目,优化管道,并直接影响大规模生产 AI 系统。
- 文化与自主:在与世界级工程师合作的同时掌控关键系统。
- 理想影响:解决少数工程师曾面临的 AI 性能挑战。
福利
- 具有竞争力的薪水和股票期权
- 签约奖金
- 健康、牙科和视力保险
- 401k
Pragmatike 是一个机会均等的雇主,致力于为所有申请者提供平等的就业机会,不存在歧视。我们代表客户招聘,禁止基于种族、肤色、宗教、年龄、性别、国籍、残疾状况、遗传信息、受保护的退伍军人身份、性取向、性别认同或表达或任何其他受联邦、州或地方法律保护的特征的歧视和骚扰。本政策适用于所有就业条款和条件,包括招聘、雇用、安置、晋升、解雇、裁员、召回、调动、休假、薪酬和培训。我们致力于一个公平和包容的招聘过程。我们仅为招聘目的处理您的个人数据,遵循适用的隐私法律,并保持合理的保护措施以保护您的信息。您的数据可能会与我们的客户共享以供招聘考虑,但不会在招聘过程之外披露给第三方。