本地 AI 基础设施工程师 | Kubernetes & GitOps

迪拜 无个税2小时前全职 网络
23.0万 - 38.3万 / 年
我们的客户是一家年轻的高科技公司,注册地位于全球增长最快的科技中心之一——阿联酋迪拜。作为全球最大网络设备ODM之一的独家软件合作伙伴,他们开发了驱动关键数据中心和电信路由与交换基础设施的网络操作系统。在此基础上,他们最近成立了一个AI部门,专注于设计自己的芯片以加速推理和训练工作负载。 他们的独特之处在于他们处于历史性发展的中心位置:我们的ODM合作伙伴正在GCC地区建立首个此类网络设备工厂,而他们是推动这一突破性倡议的软件引擎。他们不仅仅是在构建技术——他们正在打造一个真正的网络供应商,服务于区域利益,同时满足MENA地区及更广泛地区对网络设备日益增长的需求。 他们的长期愿景不仅限于产品,还包括人才:创建一个繁荣的嵌入式系统和ASIC设计人才生态系统,培养出一代又一代的世界级专业人士,将我们的地区建立为企业计算创新的全球卓越中心。作为一家在AI硬件创新前沿快速发展的公司,他们不断寻找有才华和有动力的人加入他们的团队。我们提供一个充满活力和挑战的工作环境,有机会对AI技术的未来产生重大影响。 您的任务 全面负责我们用于AI和企业工作负载的本地基础设施的设计和运营——以代码构建,自动化、可观察、安全。您将架构和运行Kubernetes集群用于训练/推理,管理服务器、网络和核心服务,并通过可靠的CI/CD和平台工具为开发人员提供支持。在这里,分钟、恢复时间和每个作业的成本直接影响大规模AI的速度。 职责 以代码形式设计和运营本地基础设施:编写可重用的Terraform/Ansible/Helm模块;构建GitOps工作流(例如,Argo CD)以实现环境间可重复、可审计的更改。 为AI构建和运行Kubernetes:配置多租户GPU集群(MIG/GPUDirect RDMA,NVIDIA设备插件/DCGM),调度/配额,HPA/集群自动扩展器(如适用),和工作负载隔离。 管理服务器、网络和核心服务:操作系统生命周期(Linux),身份/SSO(Keycloak/LDAP),机密(Vault),DNS/DHCP/NTP,工件注册表和内部包镜像。 为AI管道提供存储:集成和操作高带宽/低延迟存储,调整数据集分阶段和检查点模式。 启用CI/CD:与开发人员合作设计快速、可重复的管道(GitLab CI/GitHub Actions),在GPU/CPU节点上进行缓存和运行器,工件来源(SBOM,SLSA)。 您将与以下人员合作 平台和ML工程师在大规模运行训练/推理,硅和系统团队在实验室中集成硬件,安全工程师保护凭证和供应链,应用程序开发人员通过CI/CD交付服务,以及支持数据中心部署的现场运营——我们共同将基础设施转变为加速业务的产品。 最低资格 5年以上DevOps/SRE/平台工程经验,亲自负责本地环境。 在生产中操作Kubernetes的证明经验(多租户RBAC,网络/CNI,存储,入口,监控)。 熟练掌握IaC和自动化(Terraform,Ansible,Helm;使用Argo CD/Flux的GitOps)。 强大的Linux管理、脚本编写(Bash/Python)和跨堆栈(计算、网络、存储)的故障排除能力。 CI/CD专业知识(GitLab CI/GitHub Actions),容器构建安全(SBOM,镜像签名)和工件管理。 扎实的网络基础(L2/L3,路由,BGP,VLANs,EVPN/VXLAN,负载均衡,TLS/mTLS)。 实施可观察性(Prometheus/Grafana,日志,跟踪)和运行事件响应的经验。 优选(加分项) AI的GPU集群操作(NVIDIA驱动程序/操作员,DCGM,MIG,GPUDirect RDMA,Slurm集成)。 数据密集型工作负载的存储(Ceph,平行文件系统,NVMe-oF)和性能调优。 机密/身份平台(Vault,Keycloak/LDAP/SSO),策略即代码(OPA/Gatekeeper,Kyverno)。 安全/合规实践(CIS基准,SLSA,供应链扫描)和零信任网络。 数据中心经验(机架/堆叠,电源/冷却基础)和远程站点部署自动化。 熟悉网络设备的配置管理和API驱动的交换机/路由器。 默认可重复的环境:任何工程师都可以在≤30分钟内从Git启动一个相同的开发/测试堆栈(K8s命名空间,存储,机密,运行器),并为每次更改提供审计跟踪。 坚实的AI工作流CI/CD:模型/构建/测试管道是确定性的且缓存高效;中位管道时间下降30-50%,具有工件来源(SBOM,签名)和可追溯的数据集/检查点。 可预测的GPU编排:公平共享调度、配额和隔离(MIG/命名空间策略)保持队列短;集群利用率增加>20%而不饿死对延迟敏感的作业。 实验室到集群的连续性:硬件启动图像、驱动程序和固件通过相同的管道进行版本控制和推广;新板卡/节点通过一键式自动化加入集群。 可操作的可观察性:仪表板和警报反映对研究人员有意义的SLO(吞吐量、首次令牌时间、I/O等待、GPU内存压力);优先服务的MTTR <30分钟。 成本和工作量减少:基础设施任务自动化以消除重复的手动工作;更少的“定制一次性”,更多可重用模块;每季度每GPU小时的基础设施支出趋势下降。 清晰的文档和自助服务:工程师依赖简明的操作手册和服务目录;>80%的常规请求通过自助服务工作流解决,而不是临时操作支持。 请注意,客户可以为迪拜获取工作签证。请忽略薪资水平——根据个人资料有灵活性。