高级解决方案架构师 InfiniBand 和网络以太网

新加坡 5天前全职 网络
49.2万 - 71万 / 年
NVIDIA正在寻找高级网络(ETH/IB)解决方案架构师加入其NVIDIA基础设施专家团队。全球的学术和商业团体正在使用NVIDIA产品来革新深度学习和数据分析,并为数据中心提供动力。加入这个团队,打造世界上最大、最快的AI/HPC系统之一!我们正在寻找能够在一个以客户为中心的动态团队中工作的人员,该团队需要出色的人际交往能力。这个角色将与客户、合作伙伴和内部团队互动,以分析、定义和实施大规模的网络项目。这些工作的范围包括网络、系统设计和自动化的结合,并成为客户的代表! 你的工作内容: - 主要职责包括为新老客户构建AI/HPC基础设施。 - 支持大规模AI集群的运营和可靠性方面,重点关注大规模性能、实时监控、日志记录和警报。 - 参与并改善服务的整个生命周期——从构思和设计到部署、运营和改进。 - 通过测量和监控可用性、延迟和整体系统健康状况来维护服务。 - 向内部团队提供反馈,例如提交bug、记录解决方法和提出改进建议。 我们需要看到的: - 计算机科学、电气/计算机工程、物理、数学或相关领域的学士/硕士/博士学位或同等经验。 - 至少5年以上网络基础、TCP/IP协议栈和数据中心架构的专业经验。 - 熟练配置、测试、验证和解决LAN和InfiniBand网络中的问题,尤其是在中大型HPC/AI环境中。 - 精通EVPN、BGP、OSPF、VXLAN协议。 - 具备Cumulus Linux、SONiC、IOS、JunosOS和EOS等网络交换机/路由器平台的实际操作经验。 - 丰富的使用Ansible、Salt和Python等工具交付自动化网络配置解决方案的经验。 - 能够为网络操作开发CI/CD管道。 - 强烈关注客户需求和满意度。 - 自我激励,具备与客户和内部团队协作的领导能力。 - 良好的英语书面、口头和听力技能是必不可少的。 脱颖而出的方式: - 熟悉云网络(AWS、GCP、Azure)是一个加分项。 - Linux或网络认证。 - 具备高性能计算架构经验。了解作业调度器(Slurm、PBS)的工作原理。 - 集群管理技术知识(BCM(Base Command Manager)加分)。 - 具备GPU(图形处理单元)专注的硬件/软件经验。