NVIDIA处于生成式AI革命的前沿。我们正在寻找一位软件工程师,专注于LLM推理的性能分析和优化,加入我们的性能工程团队。在这个角色中,您将专注于通过编译器和内核级别的分析和优化,提高NVIDIA计算平台上大型语言模型(LLM)推理的效率和可扩展性。您将致力于跨越基于IR的编译器优化、图级转换和预编译内核性能调优的关键组件,以提供创新的推理速度和效率。
作为核心贡献者,您将与热衷于编译器、内核、硬件和框架开发的团队合作。您将分析性能瓶颈,开发新的优化过程,并通过分析和预测工具验证收益。您的工作将直接影响下一代LLM在NVIDIA数据中心和嵌入式平台上的运行时行为和硬件利用率。
您的工作内容包括:
- 使用分析、基准测试和性能分析工具分析在NVIDIA计算平台上运行的LLM的性能。
- 理解并寻找编译器优化管道的机会,包括基于IR的编译器中端优化和内核级转换。
- 设计和开发新的编译器过程和优化技术,以提供一流的、稳健的和可维护的编译器基础设施和工具。
- 与硬件架构、编译器和内核团队合作,了解固件和电路共同设计如何实现高效的LLM推理。
- 与全球分布的编译器、内核、硬件和框架领域的团队合作,调查性能问题并贡献解决方案。
我们需要您具备:
- 计算机科学、计算机工程或相关领域的硕士或博士学位,或同等经验。
- 在C++和Python方面的强大编程专业知识,具备扎实的软件工程基础。
- 对现代深度学习模型(包括transformers和LLM)的基础理解,并对推理性能和优化感兴趣。
- 通过课程、研究、实习或项目接触过编译器概念,如中间表示(IR)、图转换、调度或代码生成。
- 熟悉至少一种深度学习框架或编译器/运行时生态系统(例如,TensorRT-LLM、PyTorch、JAX/XLA、Triton、vLLM或类似)。
- 能够分析性能瓶颈,并推理模型执行、内核和运行时系统中的优化机会。
- 在涉及性能关键系统、编译器或ML基础设施的班级项目、实习、研究或开源贡献方面有经验。
- 较强的沟通能力,能够在快节奏、团队导向的环境中有效合作。
脱颖而出的方式:
- 精通CUDA编程并熟悉GPU加速的深度学习框架和性能调优技术。
- 展示创新的代理AI工具应用,以提高生产力和工作流自动化。
- 积极参与开源LLVM或MLIR社区,以确保与上游工作的更紧密集成和对齐。
NVIDIA被公认为世界上最理想的工程环境之一,由重视技术深度、创新和影响的团队构建。我们与GPU计算、系统软件和AI领域的一些顶尖人才并肩工作。如果您对性能充满热情,喜欢解决复杂问题,并在奖励主动性和技术完美的环境中茁壮成长,我们期待您的加入!
您的基本工资将根据您的所在地、经验和类似职位员工的薪酬确定。基本工资范围为2级124,000美元至195,500美元,3级152,000美元至218,500美元。
您还将有资格获得股权和福利。
此职位的申请将至少接受至2026年1月18日。
此职位发布是为现有空缺职位。
NVIDIA在其招聘过程中使用AI工具。
NVIDIA致力于营造多元化的工作环境,并自豪地成为一个平等机会的雇主。由于我们高度重视当前和未来员工的多样性,我们在招聘和晋升实践中不因种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾状态或任何其他法律保护的特征而歧视。