角色概述
AI工程师将通过提供预构建的训练配方(TorchTitan、Megatron等)、评估基准和模型指导,建立Firmus AI工厂作为高效、生产级分布式训练的基础。您将与客户和内部团队合作,以优化训练效率、定义基准并记录最佳实践。您的模板和基准是我们超大规模客户训练工作流程的锚点,也是我们模型竞技场的差异化因素。
主要职责
• 使用TorchTitan和Megatron-LM构建生产就绪的训练配方:模型配置、并行策略(FSDP、张量/流水线并行)、检查点模式。
• 记录不同规模的参数调优(例如,“在8xH100s上训练Llama 7B,使用此配置并预期X吞吐量”)。
• 在AI工厂K8s/Slurm集群上创建和验证多节点NCCL通信模式。
• 设计和构建基准测试套件:准确性、延迟、吞吐量(每秒令牌数)、每令牌成本、能源效率、MFU。
• 实施离线评估工具,用于标准化模型比较和排行榜跟踪。
• 进行微调实验(LoRA、QLoRA),在它们改善产品结果时(例如,操作领域数据),记录收益。
• 创建训练效率手册并发布基准测试结果,以便客户优化工作负载。
• 与作业调度和编排工程师合作进行模板集成,并与其他AI工程师和软件工程师合作进行推理和AI应用的模型优化权衡。
技能与经验
• 5-7年分布式机器学习经验(PyTorch/JAX、FSDP、DeepSpeed、10+ GPU的多节点训练)。
• 精通GPU优化:利用率、内存模式、通信瓶颈(NCCL集合)。
• 实际的大规模分布式训练:调试收敛问题、分析瓶颈、优化吞吐量。
• 强大的基准测试方法:设计对照实验、测量噪声、严格地传达结果。
• 熟悉TorchTitan、Megatron-LM或类似的生产训练框架。
• 理解模型并行策略和权衡(FSDP与张量并行与流水线并行等)。
关键能力
• 分布式系统掌握:能解释NCCL、集合通信和扩展效率低下。
• 基准测试严格性:不仅运行基准测试;验证假设,解释差异,传达不确定性。
• 生产思维:理解检查点、恢复、资源限制和成本优化。
• 指导能力:能够指导工程师关于训练最佳实践和调试分布式训练问题。
• 文档编写:创建清晰、可操作的手册,客户可以遵循。
成功指标
• 基准可信度和决策影响增加:基准被信任并用于推动模型/硬件/产品决策。
• 训练效率领导地位:在代表性工作负载上的基准训练效率持续改进。
• 缩短新模型验证时间:模型候选者可以快速且一致地进行端到端评估。
• 模板有效性提高:配方减少配置错误和重复设置失败;减少训练配置升级。
• 竞争差异化增强:模型竞技场输出影响客户采用和内部路线图优先级。
地点与汇报
• 新加坡或澳大利亚(塔斯马尼亚州朗塞斯顿或新南威尔士州悉尼)
• 向AI与应用负责人汇报
就业基础
全职
多样性
在Firmus,我们致力于建立一个多元化和包容性的工作场所。我们鼓励来自各个背景的候选人申请,他们对通过创新工程解决方案创造更可持续的未来充满热情。
加入我们,通过可持续实践和尖端工程来革新AI行业。立即申请,成为塑造可持续AI基础设施未来的一部分。