本地AI基础设施工程师 | Kubernetes & GitOps

迪拜 无个税11天前全职 网络
22.6万 - 37.6万 / 年
我们的客户是一家年轻的高科技公司,成立于全球增长最快的科技中心之一——阿联酋迪拜。作为全球最大网络设备ODM之一的独家软件合作伙伴,他们开发用于关键数据中心和电信路由与交换基础设施的网络操作系统。在此基础上,他们最近推出了一个专注于设计自有芯片以加速推理和训练工作负载的AI部门。他们的独特之处在于他们处于历史性发展的中心位置:我们的ODM合作伙伴正在GCC地区建立首个此类网络设备工厂,而他们是推动这一突破性倡议的软件引擎。他们不仅仅是在构建技术——他们正在打造一个真正的网络供应商,以满足区域利益,同时满足MENA地区及更广泛地区对网络设备日益增长的需求。 他们的长期愿景不仅限于产品,还包括人才:创建一个繁荣的嵌入式系统和ASIC设计人才生态系统,培养出世界级专业人才的世代,将我们的地区建立为企业计算创新的全球卓越中心。作为一家在AI硬件创新前沿快速发展的公司,他们不断寻找有才华和有动力的个人加入他们的团队。我们提供一个充满活力和挑战的工作环境,有机会对AI技术的未来产生重大影响。 你的使命 全面负责我们用于AI和企业工作负载的本地基础设施的设计和运营——以代码构建,自动化、可观察且安全。你将架构和运行用于训练/推理的Kubernetes集群,管理服务器、网络和核心服务,并通过可靠的CI/CD和平台工具支持开发人员。在这里,分钟、恢复时间和每个作业的成本直接影响AI在大规模上的速度。 职责 以代码设计和操作本地基础设施:编写可重用的Terraform/Ansible/Helm模块;构建GitOps工作流(例如,Argo CD)以实现跨环境的可重复、可审计的更改。 构建和运行用于AI的Kubernetes:配置多租户GPU集群(MIG/GPUDirect RDMA,NVIDIA设备插件/DCGM),调度/配额,HPA/集群自动扩展器(如适用),和工作负载隔离。 管理服务器、网络和核心服务:操作系统生命周期(Linux),身份/SSO(Keycloak/LDAP),机密(Vault),DNS/DHCP/NTP,工件注册表和内部包镜像。 为AI管道提供存储:集成和操作高带宽/低延迟存储,针对数据集分段和检查点模式进行调优。 启用CI/CD:与开发人员合作设计快速、可重复的管道(GitLab CI/GitHub Actions),在GPU/CPU节点上进行缓存和运行器,工件来源(SBOM,SLSA)。 你将与以下人员合作 运行大规模训练/推理的平台和ML工程师,实验室中集成硬件的硅和系统团队,保护凭证和供应链的安全工程师,通过CI/CD交付服务的应用程序开发人员,以及支持数据中心部署的现场运营团队——共同将基础设施转变为加速业务的产品。 最低资格 在DevOps/SRE/平台工程方面拥有5年以上的经验,亲自负责本地环境。 在生产环境中操作Kubernetes的证明经验(多租户RBAC,网络/CNI,存储,入口,监控)。 熟练掌握IaC和自动化(Terraform,Ansible,Helm;使用Argo CD/Flux的GitOps)。 强大的Linux管理、脚本编写(Bash/Python)和跨堆栈(计算、网络、存储)故障排除能力。 CI/CD专业知识(GitLab CI/GitHub Actions),容器构建安全性(SBOM,图像签名)和工件管理。 扎实的网络基础知识(L2/L3,路由,BGP,VLANs,EVPN/VXLAN,负载均衡,TLS/mTLS)。 实施可观察性(Prometheus/Grafana,日志,跟踪)和运行事件响应的经验。 优先条件(加分项) 用于AI的GPU集群操作(NVIDIA驱动程序/操作员,DCGM,MIG,GPUDirect RDMA,Slurm集成)。 用于数据密集型工作负载的存储(Ceph,平行文件系统,NVMe-oF)和性能调优。 机密/身份平台(Vault,Keycloak/LDAP/SSO),政策即代码(OPA/Gatekeeper,Kyverno)。 安全/合规实践(CIS基准,SLSA,供应链扫描)和零信任网络。 数据中心经验(机架/堆叠,电源/冷却基础知识)和远程站点部署自动化。 熟悉网络设备的配置管理和API驱动的交换机/路由器。 默认可复制的环境:任何工程师都可以在≤30分钟内从Git中启动一个相同的开发/测试堆栈(K8s命名空间,存储,机密,运行器),并为每次更改提供审计跟踪。 用于AI工作流的可靠CI/CD:模型/构建/测试管道是确定性的且缓存高效;中位管道时间下降30–50%,具有工件来源(SBOM,签名)和可追踪的数据集/检查点。 可预测的GPU编排:公平共享调度、配额和隔离(MIG/命名空间策略)保持队列短;集群利用率增加>20%而不饿死对延迟敏感的作业。 实验室到集群的连续性:硬件启动图像、驱动程序和固件通过相同的管道进行版本控制和推广;新板/节点通过一键式自动化加入集群。 可操作的可观察性:仪表板和警报反映对研究人员有意义的SLO(吞吐量、首次令牌时间、I/O等待、GPU内存压力);优先服务的MTTR <30分钟。 成本和工作量减少:基础设施任务自动化以消除重复的手动工作;更少的“定制一次性”,更多的可重用模块;每季度每GPU小时的基础设施支出趋势下降。 清晰的文档和自助服务:工程师依赖简明的运行手册和服务目录;超过80%的常规请求通过自助服务工作流解决,而不是临时操作支持。 请注意,客户可以为迪拜获得工作签证。请忽略薪资水平——根据个人的资料有灵活性。