关于这个职位
在 Together.ai,我们正在构建尖端基础设施,以实现大型语言模型(LLMs)的高效和可扩展训练。我们专注于优化训练框架、算法和基础设施,以推动人工智能性能、可扩展性和成本效率的边界。
我们正在寻找一名大型语言模型训练框架与优化工程师,负责推动分布式训练框架的开发和优化创新。在这个角色中,您将确保我们的 LLM 训练管道坚固、高效,并能够处理大规模分布式系统的复杂性。
职责
• 框架开发与优化:
• 设计、实施和优化针对大型语言模型的分布式训练框架。
• 开发自定义模块、插件和功能,以增强框架的可扩展性和性能。
• 算法和系统优化:
• 优化分布式训练中的通信模式(例如,梯度同步、全归约)。
• 实施混合精度、张量并行、管道并行和分片训练等技术。
• 性能调优:
• 对训练作业进行深入分析和调试,以识别和解决瓶颈。
• 与硬件团队合作,优化 GPU、TPU 和其他加速器的性能。
• 可扩展性与弹性:
• 确保训练系统能够高效扩展到数千个节点和 PB 级数据。
• 为容错和检查点训练管道开发弹性机制。
• 协作与支持:
• 与研究人员、数据工程师和平台团队密切合作,以确保训练框架满足模型和工作负载的要求。
• 提供指导和工具,以改善 LLM 开发生命周期的整体效率。
要求
必须具备:
• 经验:
• 5年以上深度学习框架、分布式系统或机器学习基础设施的经验。
• 技术技能:
• 精通分布式训练框架(例如,PyTorch DDP、DeepSpeed、Megatron-LM、TensorFlow XLA)。
• 对并行技术(例如,数据、张量、管道和基于 ZeRO 的并行)有深入理解。
• 熟悉 GPU/TPU 硬件和深度学习性能优化。
• 编程:
• 精通 Python 和 C++ 或 CUDA,用于高性能计算。
• 优化技术:
• 具备内存优化技术的经验(例如,激活检查点、梯度分片)。
• 了解大规模 LLM 的训练动态,包括超参数调优和优化。
• 软技能:
• 具备分析问题解决能力,专注于性能提升。
• 具备良好的团队协作和沟通能力。
优先考虑:
• 熟悉图优化和编译器级性能调优。
• 对开源深度学习或分布式训练项目的贡献。
• 具备低级硬件优化经验(例如,内核融合、自定义 CUDA 内核)。
关于 Together AI
Together AI 是一家以研究为驱动的人工智能公司。我们相信开放和透明的人工智能系统将推动创新,为社会创造最佳成果,我们共同的使命是通过共同设计软件、硬件、算法和模型,显著降低现代人工智能系统的成本。我们为推动人工智能前沿作出了贡献,参与了领先的开源研究、模型和数据集,我们的团队在 FlashAttention、Hyena、FlexGen 和 RedPajama 等技术进步背后发挥了重要作用。我们邀请您加入我们热情的研究团队,共同建设下一代人工智能基础设施。
薪酬
我们提供有竞争力的薪酬、初创公司股权、健康保险和其他竞争性福利。该全职职位在美国的基本薪资范围为:$160,000 - $230,000 + 股权 + 福利。我们的薪资范围由地点、级别和角色决定。个人薪酬将根据经验、技能和与工作相关的知识确定。
平等机会
Together AI 是一个平等机会雇主,为所有人提供平等的就业机会,无论种族、肤色、祖籍、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾、性别认同、退伍军人身份等。
请查看我们的隐私政策: https://www.together.ai/privacy