我们急需一名人工智能 / 机器学习运维工程师(基础设施、监控与部署),为我们在阿布扎比的客户服务。
核心职责
• 管理 HGX 节点(操作系统、驱动程序、GPU 分配)
• 设置和管理 OpenShift/K8s 集群
• 将模型部署到推理服务器(Triton、TensorRT 等)
• 自动化微调管道(PyTorch/TensorFlow)
• 处理模型的 CI/CD(训练 -> 服务)基本脚本编写(Python/Bash)以实现运维自动化
• 管理工件(模型检查点、微调版本)
• 验证微调后的模型(准确性、公平性、漂移)
• 监控生产中的模型行为
• 对异常情况发出警报
• 管理模型注册表(跟踪模型版本、微调元数据)
关键技能
• Kubernetes(必需)
• OpenShift(加分项)
• DevOps(CI/CD)
• Python
• 熟悉 Torch/TensorFlow
• Triton 服务器或类似的部署工具
• Triton 推理服务器
• MLFlow/KubeFlow
• 理解人工智能模型验证
• 监控工具(Prometheus、Grafana)
• 基本的机器学习性能指标
• 良好的脚本编写能力
技能:机器学习,Python,CI/CD,Torch,KubeFlow,基本机器学习性能指标,DevOps,脚本编写,人工智能,人工智能模型验证,Kubernetes,Prometheus,TensorFlow,Grafana,OpenShift,监控工具,Triton 服务器,基础设施,MLFlow