NVIDIA正在领导人工智能、高性能计算和可视化方面的突破性发展。 GPU是我们的发明,它是现代计算机的视觉皮层,是我们产品和服务的核心。我们的工作打开了探索新宇宙的大门,促进了惊人的创造力和发现,并驱动了从人工智能到自动驾驶等曾经是科幻小说发明的技术。
我们是NVIDIA的GPU通信库和网络团队。我们提供像NCCL和NVSHMEM这样的库,用于深度学习和高性能计算应用。我们正在寻找一位积极进取的DevOps和自动化工程师,帮助我们提高执行效率。大多数深度学习和高性能计算应用在具有高速网络(Infiniband、RoCE)的大型集群上运行。这是一个超越传统DevOps角色和职责的绝佳机会。您准备好为创新技术的发展做出贡献,实现NVIDIA的愿景了吗?
您将要做的事情
作为GPU通信组的高级软件工程师,您将利用您在高可用性网络软件方面的知识和专长,创建、增强和维护我们的GPU通信解决方案。您将:
• 维护和改进CI/CD系统(Gitlab、Github、Perforce)
• 开发工具和自动化,以在新系统和平台上部署测试,包括云平台(Azure、AWS、GCP等)
• 维护内部集群服务器和Infiniband/RoCE网络
• 收集大量性能数据;构建工具和基础设施来可视化和分析信息
• 与跨多个时区的非常活跃的团队合作
我们需要看到的
• 计算机科学或相关领域的学士或硕士学位,以及5年以上相关经验
• 出色的C/C++编程和调试技能
• 精通一种脚本语言,最好是Python
• 熟悉Linux基础知识
• 熟悉容器、云供应和调度工具(Docker、Docker Swarm、Kubernetes、SLURM、Ansible)
• 适应性和热情学习新领域和工具
• 灵活性,能够在不同团队和时区之间有效地工作和沟通
脱颖而出的方式
• 在HPC集群上进行性能基准测试和开发基础设施的经验。具有大型集群的系统管理经验
• 对Infiniband/RoCE网络有良好的理解,并有调试网络配置问题的经验
• 熟悉CUDA编程和/或GPU。具有PyTorch、TensorFlow等深度学习框架的经验。对技术有深入的了解,并对自己的工作充满激情
基本工资范围为144,000美元-270,250美元。您的基本工资将根据您的地点、经验和类似职位员工的薪酬确定。
您还将有资格获得股权和福利。NVIDIA接受持续的申请。
NVIDIA致力于营造多元化的工作环境,自豪地成为一个平等机会的雇主。由于我们高度重视当前和未来员工的多样性,我们不会在招聘和晋升过程中以种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾身份或任何法律保护的特征为基础进行歧视。