关于这个职位在 Together.ai，我们正在构建尖端基础设施，以实现大型语言模型（LLMs）的高效和可扩展训练。我们专注于优化训练框架、算法和基础设施，以推动人工智能性能、可扩展性和成本效率的边界。我们正在寻找一名大型语言模型训练框架与优化工程师，负责推动分布式训练框架的开发和优化创新。在这个角色中，您将确保我们的 LLM 训练管道坚固、高效，并能够处理大规模分布式系统的复杂性。职责 • 框架开发与优化： • 设计、实施和优化针对大型语言模型的分布式训练框架。 • 开发自定义模块、插件和功能，以增强框架的可扩展性和性能。 • 算法和系统优化： • 优化分布式训练中的通信模式（例如，梯度同步、全归约）。 • 实施混合精度、张量并行、管道并行和分片训练等技术。 • 性能调优： • 对训练作业进行深入分析和调试，以识别和解决瓶颈。 • 与硬件团队合作，优化 GPU、TPU 和其他加速器的性能。 • 可扩展性与弹性： • 确保训练系统能够高效扩展到数千个节点和 PB 级数据。 • 为容错和检查点训练管道开发弹性机制。 • 协作与支持： • 与研究人员、数据工程师和平台团队密切合作，以确保训练框架满足模型和工作负载的要求。 • 提供指导和工具，以改善 LLM 开发生命周期的整体效率。要求必须具备： • 经验： • 5年以上深度学习框架、分布式系统或机器学习基础设施的经验。 • 技术技能： • 精通分布式训练框架（例如，PyTorch DDP、DeepSpeed、Megatron-LM、TensorFlow XLA）。 • 对并行技术（例如，数据、张量、管道和基于 ZeRO 的并行）有深入理解。 • 熟悉 GPU/TPU 硬件和深度学习性能优化。 • 编程： • 精通 Python 和 C++ 或 CUDA，用于高性能计算。 • 优化技术： • 具备内存优化技术的经验（例如，激活检查点、梯度分片）。 • 了解大规模 LLM 的训练动态，包括超参数调优和优化。 • 软技能： • 具备分析问题解决能力，专注于性能提升。 • 具备良好的团队协作和沟通能力。优先考虑： • 熟悉图优化和编译器级性能调优。 • 对开源深度学习或分布式训练项目的贡献。 • 具备低级硬件优化经验（例如，内核融合、自定义 CUDA 内核）。关于 Together AI Together AI 是一家以研究为驱动的人工智能公司。我们相信开放和透明的人工智能系统将推动创新，为社会创造最佳成果，我们共同的使命是通过共同设计软件、硬件、算法和模型，显著降低现代人工智能系统的成本。我们为推动人工智能前沿作出了贡献，参与了领先的开源研究、模型和数据集，我们的团队在 FlashAttention、Hyena、FlexGen 和 RedPajama 等技术进步背后发挥了重要作用。我们邀请您加入我们热情的研究团队，共同建设下一代人工智能基础设施。薪酬我们提供有竞争力的薪酬、初创公司股权、健康保险和其他竞争性福利。该全职职位在美国的基本薪资范围为：$160,000 - $230,000 + 股权 + 福利。我们的薪资范围由地点、级别和角色决定。个人薪酬将根据经验、技能和与工作相关的知识确定。平等机会 Together AI 是一个平等机会雇主，为所有人提供平等的就业机会，无论种族、肤色、祖籍、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾、性别认同、退伍军人身份等。请查看我们的隐私政策： https://www.together.ai/privacy