高级应用人工智能软件工程师，分布式推理系统 - NVIDIA招聘

NVIDIA Dynamo 是一个创新的开源平台，专注于在分布式 GPU 环境中对大型语言和推理模型进行高效、可扩展的推理。通过采用复杂的服务架构、GPU 资源管理和智能请求处理技术，Dynamo 实现了对高需求应用的高性能 AI 推理。我们的团队正在解决分布式 AI 基础设施中最具挑战性的问题，我们正在寻找对构建下一代可扩展 AI 系统充满热情的工程师。作为 Dynamo 项目的高级应用人工智能软件工程师，您将面对一些最复杂且影响深远的分布式推理挑战，包括： • Dynamo k8s 服务平台：构建 Kubernetes 部署和工作负载管理堆栈，以促进大规模推理部署。识别瓶颈并应用优化技术，以充分利用硬件容量。 • 可扩展性与可靠性：开发稳健的生产级推理工作负载管理系统，从少数 GPU 扩展到数千个 GPU，支持多种 LLM 框架（例如，TensorRT-LLM、vLLM、SGLang）。 • 解耦服务：设计和优化在不同 GPU 集群之间分离预填充（上下文摄取）和解码（令牌生成）阶段，以提高吞吐量和资源利用率。为多模态模型（视觉-语言模型、音频语言模型、视频语言模型）贡献解耦嵌入。 • 动态 GPU 调度：开发和完善规划算法，根据波动的工作负载和系统瓶颈实时分配和重新平衡 GPU 资源，确保在规模上达到最佳性能。 • 智能路由：增强智能路由系统，有效地将推理请求指向具有相关 KV 缓存数据的 GPU 工作副本，最小化复杂多步骤推理任务的重新计算和延迟。 • 分布式 KV 缓存管理：在异构内存和存储层次结构中创新管理和传输大型 KV 缓存，使用 NVIDIA 优化传输库（NIXL）实现低延迟、经济高效的数据传输。您将要做的事情： • 在设计和开发 Dynamo Kubernetes 堆栈方面进行协作。 • 为 Dynamo Python SDK 和 Dynamo Rust Runtime 核心库引入新功能。 • 在 Rust 和 Python 中设计、实现和优化分布式推理组件。 • 为 Dynamo 支持的推理引擎（vLLM、SGLang、TRT-LLM、llama.cpp、mistral.rs）贡献解耦服务的开发。 • 改进智能路由和 KV 缓存管理子系统。 • 为开源代码库做出贡献，参与代码审查，并协助 GitHub 上的问题分类。 • 与社区紧密合作，解决问题，收集反馈，并发展框架的 API 和架构。 • 编写清晰的文档，并为用户和开发者指南做出贡献。我们需要看到的： • 计算机工程、计算机科学或相关工程的学士/硕士学位或更高学位（或同等经验）。 • 5 年以上相关领域的工作经验。 • 在系统编程（Rust 和/或 C++）方面有很强的能力，并具有 Python 工作流和 API 开发经验。有 Go 语言的 Kubernetes 控制器和操作员开发经验。 • 深入理解分布式系统、并行计算和 GPU 架构。 • 具备云原生部署和容器编排（Kubernetes、Docker）的经验。 • 具有大规模推理服务、LLM 或类似高性能 AI 工作负载的经验。 • 有内存管理、数据传输优化和多节点编排的背景。 • 熟悉开源开发工作流程（GitHub、持续集成和持续部署）。 • 出色的问题解决和沟通能力。脱颖而出的方式： • 先前对开源 AI 推理框架的贡献（例如，vLLM、TensorRT-LLM、SGLang）。 • 在 GPU 资源调度、缓存管理或高性能网络方面的经验。 • 理解 LLM 特定的推理挑战，例如上下文窗口扩展和多模型代理工作流。凭借具有竞争力的薪资和全面的福利计划，NVIDIA 被广泛认为是科技界最受欢迎的雇主之一。我们拥有一些世界上最具前瞻性和勤奋的人才，由于出色的增长，我们的特殊工程团队正在快速壮大。如果您是一位具有创造力和自主性的工程师，并对技术充满真正的热情，我们希望听到您的声音！基础薪资范围为 148,000 美元 - 287,500 美元。您的基础薪资将根据您的地点、经验和类似职位员工的薪资确定。您还将有资格获得股权和福利。NVIDIA 持续接受申请。 NVIDIA 致力于营造一个多元化的工作环境，并自豪地成为一个平等机会的雇主。由于我们高度重视当前和未来员工的多样性，我们在招聘和晋升实践中不歧视任何受法律保护的特征，包括种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾状态或任何其他受法律保护的特征。