高级DevOps和自动化工程师 - HPC

15个月前全职
144K - 270.3K USD NVIDIA

NVIDIA

location 旧金山
unsaved
NVIDIA正在领导人工智能、高性能计算和可视化方面的突破性发展。 GPU是我们的发明,它是现代计算机的视觉皮层,是我们产品和服务的核心。我们的工作打开了探索新宇宙的大门,促进了惊人的创造力和发现,并驱动了从人工智能到自动驾驶等曾经是科幻小说发明的技术。 我们是NVIDIA的GPU通信库和网络团队。我们提供像NCCL和NVSHMEM这样的库,用于深度学习和高性能计算应用。我们正在寻找一位积极进取的DevOps和自动化工程师,帮助我们提高执行效率。大多数深度学习和高性能计算应用在具有高速网络(Infiniband、RoCE)的大型集群上运行。这是一个超越传统DevOps角色和职责的绝佳机会。您准备好为创新技术的发展做出贡献,实现NVIDIA的愿景了吗? 您将要做的事情 作为GPU通信组的高级软件工程师,您将利用您在高可用性网络软件方面的知识和专长,创建、增强和维护我们的GPU通信解决方案。您将: • 维护和改进CI/CD系统(Gitlab、Github、Perforce) • 开发工具和自动化,以在新系统和平台上部署测试,包括云平台(Azure、AWS、GCP等) • 维护内部集群服务器和Infiniband/RoCE网络 • 收集大量性能数据;构建工具和基础设施来可视化和分析信息 • 与跨多个时区的非常活跃的团队合作 我们需要看到的 • 计算机科学或相关领域的学士或硕士学位,以及5年以上相关经验 • 出色的C/C++编程和调试技能 • 精通一种脚本语言,最好是Python • 熟悉Linux基础知识 • 熟悉容器、云供应和调度工具(Docker、Docker Swarm、Kubernetes、SLURM、Ansible) • 适应性和热情学习新领域和工具 • 灵活性,能够在不同团队和时区之间有效地工作和沟通 脱颖而出的方式 • 在HPC集群上进行性能基准测试和开发基础设施的经验。具有大型集群的系统管理经验 • 对Infiniband/RoCE网络有良好的理解,并有调试网络配置问题的经验 • 熟悉CUDA编程和/或GPU。具有PyTorch、TensorFlow等深度学习框架的经验。对技术有深入的了解,并对自己的工作充满激情 基本工资范围为144,000美元-270,250美元。您的基本工资将根据您的地点、经验和类似职位员工的薪酬确定。 您还将有资格获得股权和福利。NVIDIA接受持续的申请。 NVIDIA致力于营造多元化的工作环境,自豪地成为一个平等机会的雇主。由于我们高度重视当前和未来员工的多样性,我们不会在招聘和晋升过程中以种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾身份或任何法律保护的特征为基础进行歧视。