AI / ML Ops Engineer (Infrastructure, Monitoring & Deployment)

Tax Free26 days agoFull-time
18K - 23K AED / 月 TAT IT Technolgies

TAT IT Technolgies

location Abu Dhabi
unsaved
我们急需一名人工智能 / 机器学习运维工程师(基础设施、监控与部署),为我们在阿布扎比的客户服务。 核心职责 • 管理 HGX 节点(操作系统、驱动程序、GPU 分配) • 设置和管理 OpenShift/K8s 集群 • 将模型部署到推理服务器(Triton、TensorRT 等) • 自动化微调管道(PyTorch/TensorFlow) • 处理模型的 CI/CD(训练 -> 服务)基本脚本编写(Python/Bash)以实现运维自动化 • 管理工件(模型检查点、微调版本) • 验证微调后的模型(准确性、公平性、漂移) • 监控生产中的模型行为 • 对异常情况发出警报 • 管理模型注册表(跟踪模型版本、微调元数据) 关键技能 • Kubernetes(必需) • OpenShift(加分项) • DevOps(CI/CD) • Python • 熟悉 Torch/TensorFlow • Triton 服务器或类似的部署工具 • Triton 推理服务器 • MLFlow/KubeFlow • 理解人工智能模型验证 • 监控工具(Prometheus、Grafana) • 基本的机器学习性能指标 • 良好的脚本编写能力 技能:机器学习,Python,CI/CD,Torch,KubeFlow,基本机器学习性能指标,DevOps,脚本编写,人工智能,人工智能模型验证,Kubernetes,Prometheus,TensorFlow,Grafana,OpenShift,监控工具,Triton 服务器,基础设施,MLFlow