NVIDIA 在人工智能、高性能计算和可视化方面处于开创性发展的前沿。我们的发明 GPU 作为现代计算机的视觉皮层,是我们产品和服务的核心。我们的工作开启了探索新宇宙的可能性,激发了惊人的创造力和发现,并推动了曾经属于科幻小说的发明,从人工智能到自动驾驶汽车。
我们是 NVIDIA 的 GPU 通信库和网络团队。我们为深度学习和高性能计算应用提供 NCCL 和 NVSHMEM 等通信运行时。我们正在寻找一位积极进取的合作伙伴赋能工程师,以指导我们的关键合作伙伴和客户使用 NCCL。大多数深度学习/高性能计算应用运行在具有高速网络(如 Infiniband、RoCE、以太网)的大型集群上。这是一个了解 AI 网络栈的绝佳机会。你准备好为开发创新技术做出贡献,帮助实现 NVIDIA 的愿景吗?
你将要做的工作:
• 与我们的合作伙伴和客户沟通,找出 NCCL 报告的功能和性能问题的根本原因。
• 对 NCCL 和深度学习应用在开创性 GPU 集群上的性能进行表征和分析。
• 开发工具和自动化程序,以在新系统和平台(包括云平台如 Azure、AWS、GCP 等)上隔离问题。
• 指导我们的客户和支持团队,提供高性能计算知识和在多节点集群上运行应用的标准方法。
• 为 NCCL 撰写文档并进行培训/网络研讨会。
• 与不同时间区的内部团队在网络、GPU、存储、基础设施和支持方面进行交流。
我们希望看到的:
• 计算机科学/计算机工程学士或硕士学位,或具有 5 年以上相关经验的同等经历。具有并行编程经验和至少一种通信运行时(MPI、NCCL、UCX、NVSHMEM)。
• 出色的 C/C++ 编程技能,包括调试、性能分析、代码优化和测试设计。
• 与支持高性能计算或人工智能的工程或学术研究社区合作的经验。
• 在高性能网络方面的实践经验:Infiniband/RoCE/以太网网络、RDMA、拓扑、拥塞控制。
• 精通 Linux 基础和一种脚本语言,最好是 Python。
• 熟悉容器、云配置和调度工具(Docker、Docker Swarm、Kubernetes、SLURM、Ansible)。
• 适应能力强,对学习新领域和工具充满热情。
• 能够灵活有效地跨不同团队和时区进行工作和沟通。
脱颖而出的方式:
• 具有在高性能计算集群上进行性能基准测试和开发基础设施的经验。之前的系统管理经验,特别是在大型集群方面。调试大规模部署中的网络配置问题的经验。
• 熟悉 CUDA 编程和/或 GPU。对机器学习概念有良好的理解,并具有使用深度学习框架(如 PyTorch、TensorFlow)的经验。
• 对技术有深刻理解,并对所做的工作充满热情。
基本薪资范围为 148,000 美元 - 356,500 美元。你的基本薪资将根据你的地点、经验和类似职位员工的薪资水平而定。
你还将有资格获得股票和福利。NVIDIA 持续接受申请。
NVIDIA 致力于营造多元化的工作环境,并自豪地成为一个平等机会的雇主。我们非常重视当前和未来员工的多样性,不会基于种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾状态或任何其他法律保护的特征进行歧视。