高级应用人工智能软件工程师,分布式推理系统

1个月前全职
106.0万 - 206.2万 / 年 NVIDIA

NVIDIA

location 纽约
unsaved
NVIDIA Dynamo 是一个创新的开源平台,专注于在分布式 GPU 环境中对大型语言和推理模型进行高效、可扩展的推理。通过采用复杂的服务架构、GPU 资源管理和智能请求处理技术,Dynamo 实现了对高需求应用的高性能 AI 推理。我们的团队正在解决分布式 AI 基础设施中最具挑战性的问题,我们正在寻找对构建下一代可扩展 AI 系统充满热情的工程师。作为 Dynamo 项目的高级应用人工智能软件工程师,您将面对一些最复杂且影响深远的分布式推理挑战,包括: • Dynamo k8s 服务平台:构建 Kubernetes 部署和工作负载管理堆栈,以促进大规模推理部署。识别瓶颈并应用优化技术,以充分利用硬件容量。 • 可扩展性与可靠性:开发稳健的生产级推理工作负载管理系统,从少数 GPU 扩展到数千个 GPU,支持多种 LLM 框架(例如,TensorRT-LLM、vLLM、SGLang)。 • 解耦服务:设计和优化在不同 GPU 集群之间分离预填充(上下文摄取)和解码(令牌生成)阶段,以提高吞吐量和资源利用率。为多模态模型(视觉-语言模型、音频语言模型、视频语言模型)贡献解耦嵌入。 • 动态 GPU 调度:开发和完善规划算法,根据波动的工作负载和系统瓶颈实时分配和重新平衡 GPU 资源,确保在规模上达到最佳性能。 • 智能路由:增强智能路由系统,有效地将推理请求指向具有相关 KV 缓存数据的 GPU 工作副本,最小化复杂多步骤推理任务的重新计算和延迟。 • 分布式 KV 缓存管理:在异构内存和存储层次结构中创新管理和传输大型 KV 缓存,使用 NVIDIA 优化传输库(NIXL)实现低延迟、经济高效的数据传输。 您将要做的事情: • 在设计和开发 Dynamo Kubernetes 堆栈方面进行协作。 • 为 Dynamo Python SDK 和 Dynamo Rust Runtime 核心库引入新功能。 • 在 Rust 和 Python 中设计、实现和优化分布式推理组件。 • 为 Dynamo 支持的推理引擎(vLLM、SGLang、TRT-LLM、llama.cpp、mistral.rs)贡献解耦服务的开发。 • 改进智能路由和 KV 缓存管理子系统。 • 为开源代码库做出贡献,参与代码审查,并协助 GitHub 上的问题分类。 • 与社区紧密合作,解决问题,收集反馈,并发展框架的 API 和架构。 • 编写清晰的文档,并为用户和开发者指南做出贡献。 我们需要看到的: • 计算机工程、计算机科学或相关工程的学士/硕士学位或更高学位(或同等经验)。 • 5 年以上相关领域的工作经验。 • 在系统编程(Rust 和/或 C++)方面有很强的能力,并具有 Python 工作流和 API 开发经验。有 Go 语言的 Kubernetes 控制器和操作员开发经验。 • 深入理解分布式系统、并行计算和 GPU 架构。 • 具备云原生部署和容器编排(Kubernetes、Docker)的经验。 • 具有大规模推理服务、LLM 或类似高性能 AI 工作负载的经验。 • 有内存管理、数据传输优化和多节点编排的背景。 • 熟悉开源开发工作流程(GitHub、持续集成和持续部署)。 • 出色的问题解决和沟通能力。 脱颖而出的方式: • 先前对开源 AI 推理框架的贡献(例如,vLLM、TensorRT-LLM、SGLang)。 • 在 GPU 资源调度、缓存管理或高性能网络方面的经验。 • 理解 LLM 特定的推理挑战,例如上下文窗口扩展和多模型代理工作流。 凭借具有竞争力的薪资和全面的福利计划,NVIDIA 被广泛认为是科技界最受欢迎的雇主之一。我们拥有一些世界上最具前瞻性和勤奋的人才,由于出色的增长,我们的特殊工程团队正在快速壮大。如果您是一位具有创造力和自主性的工程师,并对技术充满真正的热情,我们希望听到您的声音! 基础薪资范围为 148,000 美元 - 287,500 美元。您的基础薪资将根据您的地点、经验和类似职位员工的薪资确定。 您还将有资格获得股权和福利。NVIDIA 持续接受申请。 NVIDIA 致力于营造一个多元化的工作环境,并自豪地成为一个平等机会的雇主。由于我们高度重视当前和未来员工的多样性,我们在招聘和晋升实践中不歧视任何受法律保护的特征,包括种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾状态或任何其他受法律保护的特征。