高性能计算网络工程师

迪拜 无个税7天前全职 网络
面议
职责 HPC网络架构与工程 - 设计、部署和维护高性能计算集群、GPU服务器、CPU节点和并行存储系统的高性能网络架构。 - 配置和优化高速互连,包括InfiniBand、RoCE和高速以太网(25/100/200GbE+),以支持低延迟和高吞吐量的工作负载。 - 设计针对MPI流量、NCCL集合和大规模数据传输优化的网络拓扑。 - 将网络解决方案与并行文件系统(如Lustre、BeeGFS或GPFS)集成。 网络运营、监控与故障排除 - 监控所有HPC设施的网络性能、容量和可用性。 - 诊断和解决影响计算、存储和分布式训练工作负载的复杂网络问题。 - 使用HPC特定的网络工具实施性能监控、警报和诊断。 - 确保研究计算资源的最大正常运行时间和性能。 安全、合规与可靠性 - 实施和维护符合数据中心和机构标准的网络安全控制。 - 确保遵守内部政策、安全要求和监管义务。 - 制定预防性维护程序,并支持网络基础设施的灾难恢复和弹性规划。 升级、容量规划与创新 - 计划和执行网络升级、扩展和技术更新,尽量减少对研究活动的干扰。 - 支持增长的AI/HPC工作负载的容量规划和预测。 - 评估与AI和HPC相关的新兴网络技术(如SmartNICs、CXL、GPUDirect RDMA)。 文档与协作 - 制定和维护详细的网络文档、架构图、配置记录和操作程序。 - 与HPC系统工程师、存储架构师、MLOps和研究团队合作,确保端到端系统性能。 - 为内部利益相关者提供网络相关问题的专家级支持和指导。 要求 - 至少5年网络工程经验,其中至少3年在HPC或研究计算环境中。 - 拥有丰富的高性能网络技术(如InfiniBand、Omni-Path、RoCE或高速以太网)实践经验。 - 具备配置和故障排除并行文件系统(如Lustre、GPFS、BeeGFS)网络基础设施的专业知识。 - 对数据中心网络概念有深刻理解,包括路由、交换、VLAN、RDMA和网络安全。 - 具有设计优化MPI工作负载和大规模分布式AI训练的网络经验。 - 熟练掌握HPC环境中的网络监控和诊断工具。 - 能够在要求高、以服务为导向的环境中工作,具备较强的组织、沟通和协作能力。 优先资格 - 在HPC环境中有软件定义网络(SDN)经验。 - 拥有CCNP、CCIE或同等专业认证。 - 有支持学术或研究机构HPC环境的经验。 - 接触过以GPU为中心的网络架构和NVIDIA网络技术。 关于公司 MBZUAI正在寻找一名高技能的HPC网络工程师,负责设计、实施和运营支撑大学研究计算环境的高性能网络基础设施。该角色对于确保GPU和CPU集群、并行存储系统以及支持大规模AI/ML和机器人工作负载的研究平台之间的可靠、低延迟和高带宽连接至关重要。