人工智能工程师,人工智能与应用

新加坡 9天前全职 网络
面议
角色概述 AI工程师将通过提供预构建的训练配方(TorchTitan、Megatron等)、评估基准和模型指导,建立Firmus AI工厂作为高效、生产级分布式训练的基础。您将与客户和内部团队合作,以优化训练效率、定义基准并记录最佳实践。您的模板和基准是我们超大规模客户训练工作流程的锚点,也是我们模型竞技场的差异化因素。 主要职责 • 使用TorchTitan和Megatron-LM构建生产就绪的训练配方:模型配置、并行策略(FSDP、张量/流水线并行)、检查点模式。 • 记录不同规模的参数调优(例如,“在8xH100s上训练Llama 7B,使用此配置并预期X吞吐量”)。 • 在AI工厂K8s/Slurm集群上创建和验证多节点NCCL通信模式。 • 设计和构建基准测试套件:准确性、延迟、吞吐量(每秒令牌数)、每令牌成本、能源效率、MFU。 • 实施离线评估工具,用于标准化模型比较和排行榜跟踪。 • 进行微调实验(LoRA、QLoRA),在它们改善产品结果时(例如,操作领域数据),记录收益。 • 创建训练效率手册并发布基准测试结果,以便客户优化工作负载。 • 与作业调度和编排工程师合作进行模板集成,并与其他AI工程师和软件工程师合作进行推理和AI应用的模型优化权衡。 技能与经验 • 5-7年分布式机器学习经验(PyTorch/JAX、FSDP、DeepSpeed、10+ GPU的多节点训练)。 • 精通GPU优化:利用率、内存模式、通信瓶颈(NCCL集合)。 • 实际的大规模分布式训练:调试收敛问题、分析瓶颈、优化吞吐量。 • 强大的基准测试方法:设计对照实验、测量噪声、严格地传达结果。 • 熟悉TorchTitan、Megatron-LM或类似的生产训练框架。 • 理解模型并行策略和权衡(FSDP与张量并行与流水线并行等)。 关键能力 • 分布式系统掌握:能解释NCCL、集合通信和扩展效率低下。 • 基准测试严格性:不仅运行基准测试;验证假设,解释差异,传达不确定性。 • 生产思维:理解检查点、恢复、资源限制和成本优化。 • 指导能力:能够指导工程师关于训练最佳实践和调试分布式训练问题。 • 文档编写:创建清晰、可操作的手册,客户可以遵循。 成功指标 • 基准可信度和决策影响增加:基准被信任并用于推动模型/硬件/产品决策。 • 训练效率领导地位:在代表性工作负载上的基准训练效率持续改进。 • 缩短新模型验证时间:模型候选者可以快速且一致地进行端到端评估。 • 模板有效性提高:配方减少配置错误和重复设置失败;减少训练配置升级。 • 竞争差异化增强:模型竞技场输出影响客户采用和内部路线图优先级。 地点与汇报 • 新加坡或澳大利亚(塔斯马尼亚州朗塞斯顿或新南威尔士州悉尼) • 向AI与应用负责人汇报 就业基础 全职 多样性 在Firmus,我们致力于建立一个多元化和包容性的工作场所。我们鼓励来自各个背景的候选人申请,他们对通过创新工程解决方案创造更可持续的未来充满热情。 加入我们,通过可持续实践和尖端工程来革新AI行业。立即申请,成为塑造可持续AI基础设施未来的一部分。