大型语言模型训练框架与优化工程师

旧金山 1个月前全职 网络
113.9万 - 163.7万 / 年
关于这个职位 在 Together.ai,我们正在构建尖端基础设施,以实现大型语言模型(LLMs)的高效和可扩展训练。我们专注于优化训练框架、算法和基础设施,以推动人工智能性能、可扩展性和成本效率的边界。 我们正在寻找一名大型语言模型训练框架与优化工程师,负责推动分布式训练框架的开发和优化创新。在这个角色中,您将确保我们的 LLM 训练管道坚固、高效,并能够处理大规模分布式系统的复杂性。 职责 • 框架开发与优化: • 设计、实施和优化针对大型语言模型的分布式训练框架。 • 开发自定义模块、插件和功能,以增强框架的可扩展性和性能。 • 算法和系统优化: • 优化分布式训练中的通信模式(例如,梯度同步、全归约)。 • 实施混合精度、张量并行、管道并行和分片训练等技术。 • 性能调优: • 对训练作业进行深入分析和调试,以识别和解决瓶颈。 • 与硬件团队合作,优化 GPU、TPU 和其他加速器的性能。 • 可扩展性与弹性: • 确保训练系统能够高效扩展到数千个节点和 PB 级数据。 • 为容错和检查点训练管道开发弹性机制。 • 协作与支持: • 与研究人员、数据工程师和平台团队密切合作,以确保训练框架满足模型和工作负载的要求。 • 提供指导和工具,以改善 LLM 开发生命周期的整体效率。 要求 必须具备: • 经验: • 5年以上深度学习框架、分布式系统或机器学习基础设施的经验。 • 技术技能: • 精通分布式训练框架(例如,PyTorch DDP、DeepSpeed、Megatron-LM、TensorFlow XLA)。 • 对并行技术(例如,数据、张量、管道和基于 ZeRO 的并行)有深入理解。 • 熟悉 GPU/TPU 硬件和深度学习性能优化。 • 编程: • 精通 Python 和 C++ 或 CUDA,用于高性能计算。 • 优化技术: • 具备内存优化技术的经验(例如,激活检查点、梯度分片)。 • 了解大规模 LLM 的训练动态,包括超参数调优和优化。 • 软技能: • 具备分析问题解决能力,专注于性能提升。 • 具备良好的团队协作和沟通能力。 优先考虑: • 熟悉图优化和编译器级性能调优。 • 对开源深度学习或分布式训练项目的贡献。 • 具备低级硬件优化经验(例如,内核融合、自定义 CUDA 内核)。 关于 Together AI Together AI 是一家以研究为驱动的人工智能公司。我们相信开放和透明的人工智能系统将推动创新,为社会创造最佳成果,我们共同的使命是通过共同设计软件、硬件、算法和模型,显著降低现代人工智能系统的成本。我们为推动人工智能前沿作出了贡献,参与了领先的开源研究、模型和数据集,我们的团队在 FlashAttention、Hyena、FlexGen 和 RedPajama 等技术进步背后发挥了重要作用。我们邀请您加入我们热情的研究团队,共同建设下一代人工智能基础设施。 薪酬 我们提供有竞争力的薪酬、初创公司股权、健康保险和其他竞争性福利。该全职职位在美国的基本薪资范围为:$160,000 - $230,000 + 股权 + 福利。我们的薪资范围由地点、级别和角色决定。个人薪酬将根据经验、技能和与工作相关的知识确定。 平等机会 Together AI 是一个平等机会雇主,为所有人提供平等的就业机会,无论种族、肤色、祖籍、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾、性别认同、退伍军人身份等。 请查看我们的隐私政策: https://www.together.ai/privacy