NVIDIA正在寻找高级网络(ETH/IB)解决方案架构师加入其NVIDIA基础设施专家团队。全球的学术和商业团体正在使用NVIDIA产品革新深度学习和数据分析,并为数据中心提供动力。加入这个团队,建设全球最大和最快的AI/HPC系统之一!我们正在寻找能够在一个动态的以客户为中心的团队中工作的人,这个团队需要优秀的人际交往能力。这个角色将与客户、合作伙伴和内部团队互动,以分析、定义和实施大规模的网络项目。这些工作的范围包括网络、系统设计和自动化的结合,并成为客户的代表!
你的工作内容
• 主要职责包括为新老客户构建AI/HPC基础设施。
• 支持大规模AI集群的运营和可靠性方面,专注于大规模性能、实时监控、日志记录和警报。
• 参与并改善服务的整个生命周期——从创建和设计到部署、运营和改进。
• 通过测量和监控可用性、延迟和整体系统健康状况来维护服务。
• 向内部团队提供反馈,例如报告错误、记录解决方法和提出改进建议。
我们需要看到的
• 计算机科学、电气/计算机工程、物理、数学或相关领域的学士/硕士/博士学位或同等经验。
• 至少5年以上网络基础知识、TCP/IP协议栈和数据中心架构的专业经验。
• 熟练配置、测试、验证和解决LAN和InfiniBand网络中的问题,特别是在中大型HPC/AI环境中。
• 精通EVPN、BGP、OSPF、VXLAN协议。
• 具有Cumulus Linux、SONiC、IOS、JunosOS和EOS等网络交换机/路由器平台的实际操作经验。
• 丰富的使用Ansible、Salt和Python等工具提供自动化网络配置解决方案的经验。
• 能够为网络操作开发CI/CD管道。
• 强烈关注客户需求和满意度。
• 自我激励,具备与客户和内部团队协作的领导能力。
• 强大的英语书面、口头和听力技能是必不可少的。
脱颖而出的方法
• 熟悉云网络(AWS、GCP、Azure)是一个加分项。
• Linux或网络认证。
• 具有高性能计算架构经验。了解作业调度程序(Slurm、PBS)的工作原理。
• 集群管理技术知识(BCM(基础命令管理器)加分)。
• 具有GPU(图形处理单元)相关硬件/软件的经验。
JR2011861