关于这个职位
Together.ai 处于人工智能基础设施开发的前沿,创建强大的平台和框架,以支持最先进的大规模机器学习训练。我们专注于提供弹性、高性能的系统,推动人工智能研究和部署的突破。
我们正在寻找一名大规模训练弹性工程师,以确保我们的大规模训练基础设施的可靠性、容错性和可扩展性。如果您热衷于解决复杂的分布式系统问题并构建高可用的人工智能训练管道,那么这个职位适合您。
职责
• 弹性和容错设计:
• 开发系统以识别、隔离和从大规模分布式训练工作负载中的故障中恢复。
• 实施主动错误检测机制,包括滞后检测和故障预测算法。
• 分布式系统优化:
• 确保分布式训练集群(例如,GPU/TPU 集群)之间的稳定性和一致性。
• 在硬件或软件故障面前优化恢复时间和吞吐量。
• 监控和可观察性:
• 设计和维护可观察性系统,以监控集群健康、训练性能和故障模式。
• 利用遥测数据改善事件响应并自动化缓解策略。
• 自动化和工具:
• 构建以弹性为重点的工具,例如作业健康监控器、分布式检查点系统和自动恢复工作流。
• 增强分布式训练作业的调试和诊断框架。
• 协作与文档:
• 与平台工程师、研究人员和机器学习从业者合作,识别痛点和弹性需求。
• 记录并传达容错人工智能训练的最佳实践。
要求
必须具备:
• 经验:
• 5 年以上分布式系统、云基础设施或大规模机器学习训练的经验。
• 技术技能:
• 精通分布式计算框架(例如,PyTorch DDP、TensorFlow、Horovod)。
• 对分布式系统中的弹性策略(例如,领导者选举、一致性、重试机制)有深入了解。
• 具有可观察性工具的实践经验(例如,Prometheus、Grafana、ELK 堆栈)。
• 编程:
• 精通 Python、Go 或类似的编程语言。
• 基础设施:
• 有使用云平台(例如,AWS、GCP、Azure)和 Kubernetes 进行工作负载编排的经验。
• 软技能:
• 较强的分析、问题解决和调试能力。
• 优秀的协作和沟通能力。
加分项:
• 熟悉 GPU/TPU 集群管理和调度。
• 具有高可用性数据库系统或消息队列的经验。
• 有开源贡献或社区参与的经验。
关于 Together AI
Together AI 是一家以研究为驱动的人工智能公司。我们相信开放和透明的人工智能系统将推动创新,并为社会创造最佳结果,我们的使命是通过共同设计软件、硬件、算法和模型,显著降低现代人工智能系统的成本。我们为推动人工智能前沿做出了开创性的开源研究、模型和数据集贡献,我们的团队参与了 FlashAttention、Hyena、FlexGen 和 RedPajama 等技术进步。我们邀请您加入我们充满激情的研究团队,共同构建下一代人工智能基础设施。
薪酬
我们提供具有竞争力的薪酬、初创企业股权、健康保险和其他竞争性福利。该全职职位在美国的基本薪资范围为:$160,000 - $230,000 + 股权 + 福利。我们的薪资范围由地点、级别和角色决定。个人薪酬将根据经验、技能和与工作相关的知识确定。
平等机会
Together AI 是一家平等机会雇主,骄傲地为每个人提供平等的就业机会,无论种族、肤色、祖籍、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾、性别认同、退伍军人身份等。
请查看我们的隐私政策,网址为 https://www.together.ai/privacy