大规模训练韧性工程师

旧金山 1个月前全职 网络
113.6万 - 163.3万 / 年
关于这个职位 Together.ai 处于人工智能基础设施开发的前沿,创建强大的平台和框架,以支持最先进的大规模机器学习训练。我们专注于提供韧性强、高性能的系统,推动人工智能研究和部署的突破。 我们正在寻找一位大规模训练韧性工程师,以确保我们大规模训练基础设施的可靠性、容错性和可扩展性。如果您热衷于解决复杂的分布式系统问题并构建高度可用的人工智能训练管道,那么这个职位就是为您而设。 职责 • 韧性与容错设计: • 开发系统以识别、隔离和恢复大规模分布式训练工作负载中的故障。 • 实施主动错误检测机制,包括滞后检测和故障预测算法。 • 分布式系统优化: • 确保分布式训练集群(例如,GPU/TPU 集群)的稳定性和一致性。 • 在硬件或软件故障的情况下优化恢复时间和吞吐量。 • 监控与可观察性: • 设计和维护可观察性系统,以监控集群健康、训练性能和故障模式。 • 利用遥测数据改善事件响应并自动化缓解策略。 • 自动化与工具: • 构建以韧性为重点的工具,例如作业健康监控器、分布式检查点系统和自动恢复工作流程。 • 增强分布式训练作业的调试和诊断框架。 • 合作与文档: • 与平台工程师、研究人员和机器学习从业者合作,识别痛点和韧性需求。 • 记录并传达容错人工智能训练的最佳实践。 要求 必须具备: • 经验: • 5年以上分布式系统、云基础设施或大规模机器学习训练的经验。 • 技术技能: • 精通分布式计算框架(例如,PyTorch DDP、TensorFlow、Horovod)。 • 对分布式系统中的韧性策略(例如,领导者选举、一致性、重试机制)有深入了解。 • 具有可观察性工具的实践经验(例如,Prometheus、Grafana、ELK 堆栈)。 • 编程: • 精通 Python、Go 或类似编程语言。 • 基础设施: • 具有使用云平台(例如,AWS、GCP、Azure)和 Kubernetes 进行工作负载编排的经验。 • 软技能: • 强大的分析、解决问题和调试技能。 • 优秀的合作与沟通能力。 加分项: • 熟悉 GPU/TPU 集群管理和调度。 • 具有高可用性数据库系统或消息队列的经验。 • 具有开源贡献或社区参与的经验。 关于 Together AI Together AI 是一家以研究驱动的人工智能公司。我们相信开放和透明的人工智能系统将推动创新并为社会创造最佳成果,我们共同的使命是通过共同设计软件、硬件、算法和模型来显著降低现代人工智能系统的成本。我们为推动人工智能前沿做出了贡献,参与了领先的开源研究、模型和数据集,我们的团队在 FlashAttention、Hyena、FlexGen 和 RedPajama 等技术进步中发挥了重要作用。我们邀请您加入我们充满激情的研究团队,共同构建下一代人工智能基础设施。 薪酬 我们提供具有竞争力的薪酬、初创公司股权、健康保险和其他竞争性福利。该全职职位在美国的基本薪资范围为:160,000 - 230,000 美元 + 股权 + 福利。我们的薪资范围由地点、级别和角色决定。个人薪酬将根据经验、技能和与工作相关的知识确定。 平等机会 Together AI 是一个平等机会雇主,荣幸地为所有人提供平等就业机会,无论种族、肤色、祖籍、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾、性别认同、退伍军人身份等。 请查看我们的隐私政策,网址为 https://www.together.ai/privacy