加入 NVIDIA 的 DGX 云 AI 效率团队意味着为支撑我们创新 AI 研究的基础设施贡献力量。该团队专注于优化 AI 工作负载的效率和弹性,以及开发可扩展的 AI 和数据基础设施工具与服务。我们的目标是为 AI 研究人员提供一个稳定、可扩展的环境,赋予他们所需的资源和规模,以促进创新。我们正在寻找一位 AI 基础设施软件工程师加入我们的团队。您将在设计、构建和维护 AI 基础设施方面发挥重要作用,使其能够进行大规模的 AI 训练和推理。职责包括实施软件和系统工程实践,以确保 AI 系统的高效率和可用性。
作为 NVIDIA 的高级 DGX 云 AI 基础设施软件工程师,您将有机会参与推动 AI 和数据科学未来的创新技术,并成为一个重视学习和成长的动态支持团队的一部分。该角色提供了在有意义的项目上工作的自主权,并提供成功所需的支持和指导,促进无责备后期分析、迭代改进和冒险精神的文化。如果您正在寻找一个令人兴奋且有意义的职业生涯,我们邀请您立即申请!
您将负责的工作:
• 为大规模 AI、LLM 和 GenAI 基础设施开发基础设施软件和工具。
• 开发和优化工具以提高基础设施的效率和弹性。
• 从应用层到硬件层根本原因分析和分类故障。
• 增强支撑 NVIDIA AI 平台的基础设施和产品。
• 共同设计和实施与 NVIDIA 弹性堆栈集成的 API。
• 定义有意义和可操作的可靠性指标,以跟踪和改善系统和服务的可靠性。
• 具备解决问题、根本原因分析和优化的技能。
我们希望看到的:
• 至少 12 年以上开发大规模 AI 系统软件基础设施的经验。
• 计算机科学或相关技术领域的学士学位或更高学历(或同等经验)。
• 强大的调试技能和分析及分类 AI 应用程序从应用层到硬件层的经验。
• 在构建和扩展大规模分布式系统方面有良好的业绩记录。
• 具备 AI 训练和推理及数据基础设施服务的经验。
• 熟悉用于监控和日志记录的大规模可观察性平台(例如 ELK、Prometheus、Loki)。
• 精通 Python、C/C++、脚本语言等编程语言。
• 优秀的沟通与合作能力,重视多样性、知识好奇心、问题解决和开放文化至关重要。
脱颖而出的方式:
• 在大规模 AI 集群上工作经验。
• 对 NVIDIA GPU、网络技术(RDMA、IB、NCCL)有深入理解。
• 对 DL 框架内部的 PyTorch、TensorFlow、JAX 和 Ray 有良好理解。
• 具备故障和数据中心规模的根本原因分析经验。
• 具备软件设计和开发的扎实背景。
NVIDIA 在人工智能、高性能计算和可视化领域处于开创性发展的前沿。我们发明的 GPU 作为现代计算机的视觉皮层,是我们产品和服务的核心。我们的工作开启了新的探索宇宙,促进惊人的创造力和发现,并推动曾经的科幻发明,从人工智能到自动驾驶汽车。NVIDIA 正在寻找像您这样的杰出人才,帮助我们加速下一波人工智能的浪潮。
基本薪资范围为 224,000 美元 - 425,500 美元。您的基本薪资将根据您的地点、经验和类似职位员工的薪资确定。
您还将有资格获得股权和福利。NVIDIA 持续接受申请。
NVIDIA 致力于营造多元化的工作环境,并自豪地成为一个平等机会的雇主。我们高度重视当前和未来员工的多样性,因此在招聘和晋升实践中不对种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾状态或任何其他法律保护的特征进行歧视。