高级 DGX 云 AI 基础设施软件工程师 - NVIDIA招聘

加入 NVIDIA 的 DGX 云 AI 效率团队意味着为支撑我们创新 AI 研究的基础设施贡献力量。该团队专注于优化 AI 工作负载的效率和弹性，以及开发可扩展的 AI 和数据基础设施工具与服务。我们的目标是为 AI 研究人员提供一个稳定、可扩展的环境，赋予他们所需的资源和规模，以促进创新。我们正在寻找一位 AI 基础设施软件工程师加入我们的团队。您将在设计、构建和维护 AI 基础设施方面发挥重要作用，使其能够进行大规模的 AI 训练和推理。职责包括实施软件和系统工程实践，以确保 AI 系统的高效率和可用性。作为 NVIDIA 的高级 DGX 云 AI 基础设施软件工程师，您将有机会参与推动 AI 和数据科学未来的创新技术，并成为一个重视学习和成长的动态支持团队的一部分。该角色提供了在有意义的项目上工作的自主权，并提供成功所需的支持和指导，促进无责备后期分析、迭代改进和冒险精神的文化。如果您正在寻找一个令人兴奋且有意义的职业生涯，我们邀请您立即申请！您将负责的工作： • 为大规模 AI、LLM 和 GenAI 基础设施开发基础设施软件和工具。 • 开发和优化工具以提高基础设施的效率和弹性。 • 从应用层到硬件层根本原因分析和分类故障。 • 增强支撑 NVIDIA AI 平台的基础设施和产品。 • 共同设计和实施与 NVIDIA 弹性堆栈集成的 API。 • 定义有意义和可操作的可靠性指标，以跟踪和改善系统和服务的可靠性。 • 具备解决问题、根本原因分析和优化的技能。我们希望看到的： • 至少 12 年以上开发大规模 AI 系统软件基础设施的经验。 • 计算机科学或相关技术领域的学士学位或更高学历（或同等经验）。 • 强大的调试技能和分析及分类 AI 应用程序从应用层到硬件层的经验。 • 在构建和扩展大规模分布式系统方面有良好的业绩记录。 • 具备 AI 训练和推理及数据基础设施服务的经验。 • 熟悉用于监控和日志记录的大规模可观察性平台（例如 ELK、Prometheus、Loki）。 • 精通 Python、C/C++、脚本语言等编程语言。 • 优秀的沟通与合作能力，重视多样性、知识好奇心、问题解决和开放文化至关重要。脱颖而出的方式： • 在大规模 AI 集群上工作经验。 • 对 NVIDIA GPU、网络技术（RDMA、IB、NCCL）有深入理解。 • 对 DL 框架内部的 PyTorch、TensorFlow、JAX 和 Ray 有良好理解。 • 具备故障和数据中心规模的根本原因分析经验。 • 具备软件设计和开发的扎实背景。 NVIDIA 在人工智能、高性能计算和可视化领域处于开创性发展的前沿。我们发明的 GPU 作为现代计算机的视觉皮层，是我们产品和服务的核心。我们的工作开启了新的探索宇宙，促进惊人的创造力和发现，并推动曾经的科幻发明，从人工智能到自动驾驶汽车。NVIDIA 正在寻找像您这样的杰出人才，帮助我们加速下一波人工智能的浪潮。基本薪资范围为 224,000 美元 - 425,500 美元。您的基本薪资将根据您的地点、经验和类似职位员工的薪资确定。您还将有资格获得股权和福利。NVIDIA 持续接受申请。 NVIDIA 致力于营造多元化的工作环境，并自豪地成为一个平等机会的雇主。我们高度重视当前和未来员工的多样性，因此在招聘和晋升实践中不对种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾状态或任何其他法律保护的特征进行歧视。