Dice是技术专家在其职业生涯各个阶段的首选职业目的地。我们的客户VortexLink正在寻找以下职位。今天通过Dice申请吧!
高级ML/AI工程师
长期合同
办公室位于加利福尼亚州山景城(考虑100%远程)
角色概述
作为一名ML/AI工程师,您将负责大语言模型(LLMs)和深度学习框架的端到端加速。您不仅要实现模型,还要深入优化其底层内核,并在部署管道中进行集成。这是一个高可见度、面向客户的角色,需要深厚的技术掌握和领导能力的结合。
主要职责
- 框架定制与扩展:增强和扩展开源ML推理引擎,如vLLM、SGLang和PyTorch。
- 特征工程:领导新架构特征的实施,例如增加对新型注意力机制或自定义分页KV缓存逻辑的支持。
- 性能优化与基准测试:对注意力机制(Torch native、Triton、FlashInfer)进行严格的性能分析,以优化延迟、吞吐量和内存效率。
- 内核开发:使用Triton或CUDA编写和优化自定义GPU内核,以融合操作并改善内存局部性。
- 管道调试:识别并解决ML管道中的瓶颈,确保在专有AI硬件上实现零回归和高性能执行。
所需技能与资格
- 经验:3年以上高性能计算或ML的专业经验
- 编程精通:精通C++和Python。
- 推理专业知识:具有定制推理框架和为高性能开源项目做出贡献的实践经验。
- 数学基础:深入理解注意力机制、前缀缓存策略和KV缓存管理。
- 硬件知识:对GPU架构(如Turing/RTX)和内存限制(VRAM)有深入了解。
优先技能
- 专用内核:在FlashInfer、Triton或基于CUDA的专用内存管理方面有丰富经验。
- 战略思维:能够根据客户特定的限制(如延迟要求与VRAM限制)对技术选择提供“最终判决”。