角色概述 AI工程师将通过提供预构建的训练配方（TorchTitan、Megatron等）、评估基准和模型指导，建立Firmus AI工厂作为高效、生产级分布式训练的基础。您将与客户和内部团队合作，以优化训练效率、定义基准并记录最佳实践。您的模板和基准是我们超大规模客户训练工作流程的锚点，也是我们模型竞技场的差异化因素。主要职责 • 使用TorchTitan和Megatron-LM构建生产就绪的训练配方：模型配置、并行策略（FSDP、张量/流水线并行）、检查点模式。 • 记录不同规模的参数调优（例如，“在8xH100s上训练Llama 7B，使用此配置并预期X吞吐量”）。 • 在AI工厂K8s/Slurm集群上创建和验证多节点NCCL通信模式。 • 设计和构建基准测试套件：准确性、延迟、吞吐量（每秒令牌数）、每令牌成本、能源效率、MFU。 • 实施离线评估工具，用于标准化模型比较和排行榜跟踪。 • 进行微调实验（LoRA、QLoRA），在它们改善产品结果时（例如，操作领域数据），记录收益。 • 创建训练效率手册并发布基准测试结果，以便客户优化工作负载。 • 与作业调度和编排工程师合作进行模板集成，并与其他AI工程师和软件工程师合作进行推理和AI应用的模型优化权衡。技能与经验 • 5-7年分布式机器学习经验（PyTorch/JAX、FSDP、DeepSpeed、10+ GPU的多节点训练）。 • 精通GPU优化：利用率、内存模式、通信瓶颈（NCCL集合）。 • 实际的大规模分布式训练：调试收敛问题、分析瓶颈、优化吞吐量。 • 强大的基准测试方法：设计对照实验、测量噪声、严格地传达结果。 • 熟悉TorchTitan、Megatron-LM或类似的生产训练框架。 • 理解模型并行策略和权衡（FSDP与张量并行与流水线并行等）。关键能力 • 分布式系统掌握：能解释NCCL、集合通信和扩展效率低下。 • 基准测试严格性：不仅运行基准测试；验证假设，解释差异，传达不确定性。 • 生产思维：理解检查点、恢复、资源限制和成本优化。 • 指导能力：能够指导工程师关于训练最佳实践和调试分布式训练问题。 • 文档编写：创建清晰、可操作的手册，客户可以遵循。成功指标 • 基准可信度和决策影响增加：基准被信任并用于推动模型/硬件/产品决策。 • 训练效率领导地位：在代表性工作负载上的基准训练效率持续改进。 • 缩短新模型验证时间：模型候选者可以快速且一致地进行端到端评估。 • 模板有效性提高：配方减少配置错误和重复设置失败；减少训练配置升级。 • 竞争差异化增强：模型竞技场输出影响客户采用和内部路线图优先级。地点与汇报 • 新加坡或澳大利亚（塔斯马尼亚州朗塞斯顿或新南威尔士州悉尼） • 向AI与应用负责人汇报就业基础全职多样性在Firmus，我们致力于建立一个多元化和包容性的工作场所。我们鼓励来自各个背景的候选人申请，他们对通过创新工程解决方案创造更可持续的未来充满热情。加入我们，通过可持续实践和尖端工程来革新AI行业。立即申请，成为塑造可持续AI基础设施未来的一部分。

人工智能工程师，人工智能与应用

Firmus Technologies