高级DevOps和自动化工程师 - HPC - NVIDIA招聘

NVIDIA正在领导人工智能、高性能计算和可视化方面的突破性发展。 GPU是我们的发明，它是现代计算机的视觉皮层，是我们产品和服务的核心。我们的工作打开了探索新宇宙的大门，促进了惊人的创造力和发现，并驱动了从人工智能到自动驾驶等曾经是科幻小说发明的技术。我们是NVIDIA的GPU通信库和网络团队。我们提供像NCCL和NVSHMEM这样的库，用于深度学习和高性能计算应用。我们正在寻找一位积极进取的DevOps和自动化工程师，帮助我们提高执行效率。大多数深度学习和高性能计算应用在具有高速网络（Infiniband、RoCE）的大型集群上运行。这是一个超越传统DevOps角色和职责的绝佳机会。您准备好为创新技术的发展做出贡献，实现NVIDIA的愿景了吗？您将要做的事情作为GPU通信组的高级软件工程师，您将利用您在高可用性网络软件方面的知识和专长，创建、增强和维护我们的GPU通信解决方案。您将： • 维护和改进CI/CD系统（Gitlab、Github、Perforce） • 开发工具和自动化，以在新系统和平台上部署测试，包括云平台（Azure、AWS、GCP等） • 维护内部集群服务器和Infiniband/RoCE网络 • 收集大量性能数据；构建工具和基础设施来可视化和分析信息 • 与跨多个时区的非常活跃的团队合作我们需要看到的 • 计算机科学或相关领域的学士或硕士学位，以及5年以上相关经验 • 出色的C/C++编程和调试技能 • 精通一种脚本语言，最好是Python • 熟悉Linux基础知识 • 熟悉容器、云供应和调度工具（Docker、Docker Swarm、Kubernetes、SLURM、Ansible） • 适应性和热情学习新领域和工具 • 灵活性，能够在不同团队和时区之间有效地工作和沟通脱颖而出的方式 • 在HPC集群上进行性能基准测试和开发基础设施的经验。具有大型集群的系统管理经验 • 对Infiniband/RoCE网络有良好的理解，并有调试网络配置问题的经验 • 熟悉CUDA编程和/或GPU。具有PyTorch、TensorFlow等深度学习框架的经验。对技术有深入的了解，并对自己的工作充满激情基本工资范围为144,000美元-270,250美元。您的基本工资将根据您的地点、经验和类似职位员工的薪酬确定。您还将有资格获得股权和福利。NVIDIA接受持续的申请。 NVIDIA致力于营造多元化的工作环境，自豪地成为一个平等机会的雇主。由于我们高度重视当前和未来员工的多样性，我们不会在招聘和晋升过程中以种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾身份或任何法律保护的特征为基础进行歧视。