NVIDIA在人工智能、高性能计算和可视化方面处于领先地位。 GPU作为我们的发明,是现代计算机的视觉皮层,也是我们产品和服务的核心。我们的工作打开了新的探索领域,实现了惊人的创造力和发现力,并驱动了从人工智能到自动驾驶等科幻发明。我们是NVIDIA的GPU通信库和网络团队。我们为深度学习和高性能计算应用提供NCCL和NVSHMEM等库。我们正在寻找一位积极进取的DevOps和自动化工程师,帮助我们提高执行效率。大多数深度学习和高性能计算应用在具有高速网络(Infiniband,RoCE)的大型集群上运行。这是一个超越传统DevOps角色和职责的绝佳机会。您准备好为创新技术的发展做出贡献,实现NVIDIA的愿景了吗?您将要做的事情:作为GPU通信组的高级软件工程师,您将利用您在高可用性网络软件方面的知识和专长,创建、增强和维护我们的GPU通信解决方案。您将:维护和改进CI/CD系统(Gitlab,Github,Perforce)开发工具和自动化,以在新系统和平台上部署测试,包括云平台(Azure,AWS,GCP等)维护内部集群服务器和Infiniband/RoCE网络收集大量性能数据;构建工具和基础设施来可视化和分析信息与多个时区的非常活跃的团队合作我们需要看到的:计算机科学或相关领域的学士或硕士学位,以及5年以上相关经验出色的C/C++编程和调试技能精通脚本语言,最好是Python熟悉Linux基础熟悉容器、云提供和调度工具(Docker,Docker Swarm,Kubernetes,SLURM,Ansible)适应性和对学习新领域和工具的热情灵活性,能够在不同团队和时区有效工作和沟通突出表现的方式:在HPC集群上进行性能基准测试和开发基础设施的经验。以往的系统管理经验,尤其是对于大型集群具有良好的Infiniband/RoCE网络理解,并具有调试网络配置问题的经验熟悉CUDA编程和/或GPU。具有PyTorch,TensorFlow等深度学习框架的经验对技术有深入的理解,并对自己所做的工作充满激情基本薪资范围为144,000美元至270,250美元。您的基本工资将根据您的位置、经验和类似职位的员工的薪资确定。您还将有资格获得股权和福利。NVIDIA随时接受申请。 NVIDIA致力于培养多样化的工作环境,自豪地成为一家机会均等的雇主。由于我们非常重视现有和未来员工的多样性,我们在招聘和晋升实践中不会因种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾身份或任何其他受法律保护的特征而进行歧视。 NVIDIA是一家学习机器 NVIDIA开创了加速计算,以解决其他人无法解决的挑战。我们在人工智能和元宇宙方面的工作正在改变世界上最大的行业,深刻影响社会。了解更多关于NVIDIA的信息