职责 HPC网络架构与工程 - 设计、部署和维护高性能计算集群、GPU服务器、CPU节点和并行存储系统的高性能网络架构。 - 配置和优化高速互连，包括InfiniBand、RoCE和高速以太网（25/100/200GbE+），以支持低延迟和高吞吐量的工作负载。 - 设计针对MPI流量、NCCL集合和大规模数据传输优化的网络拓扑。 - 将网络解决方案与并行文件系统（如Lustre、BeeGFS或GPFS）集成。网络运营、监控与故障排除 - 监控所有HPC设施的网络性能、容量和可用性。 - 诊断和解决影响计算、存储和分布式训练工作负载的复杂网络问题。 - 使用HPC特定的网络工具实施性能监控、警报和诊断。 - 确保研究计算资源的最大正常运行时间和性能。安全、合规与可靠性 - 实施和维护符合数据中心和机构标准的网络安全控制。 - 确保遵守内部政策、安全要求和监管义务。 - 制定预防性维护程序，并支持网络基础设施的灾难恢复和弹性规划。升级、容量规划与创新 - 计划和执行网络升级、扩展和技术更新，尽量减少对研究活动的干扰。 - 支持增长的AI/HPC工作负载的容量规划和预测。 - 评估与AI和HPC相关的新兴网络技术（如SmartNICs、CXL、GPUDirect RDMA）。文档与协作 - 制定和维护详细的网络文档、架构图、配置记录和操作程序。 - 与HPC系统工程师、存储架构师、MLOps和研究团队合作，确保端到端系统性能。 - 为内部利益相关者提供网络相关问题的专家级支持和指导。要求 - 至少5年网络工程经验，其中至少3年在HPC或研究计算环境中。 - 拥有丰富的高性能网络技术（如InfiniBand、Omni-Path、RoCE或高速以太网）实践经验。 - 具备配置和故障排除并行文件系统（如Lustre、GPFS、BeeGFS）网络基础设施的专业知识。 - 对数据中心网络概念有深刻理解，包括路由、交换、VLAN、RDMA和网络安全。 - 具有设计优化MPI工作负载和大规模分布式AI训练的网络经验。 - 熟练掌握HPC环境中的网络监控和诊断工具。 - 能够在要求高、以服务为导向的环境中工作，具备较强的组织、沟通和协作能力。优先资格 - 在HPC环境中有软件定义网络（SDN）经验。 - 拥有CCNP、CCIE或同等专业认证。 - 有支持学术或研究机构HPC环境的经验。 - 接触过以GPU为中心的网络架构和NVIDIA网络技术。关于公司 MBZUAI正在寻找一名高技能的HPC网络工程师，负责设计、实施和运营支撑大学研究计算环境的高性能网络基础设施。该角色对于确保GPU和CPU集群、并行存储系统以及支持大规模AI/ML和机器人工作负载的研究平台之间的可靠、低延迟和高带宽连接至关重要。

高性能计算网络工程师

Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)