职责
操作和管理用于多节点编排的Kubernetes或OpenShift集群。
使用Triton Inference Server或自定义端点部署和管理用于推理的LLM和其他AI模型。
使用GitLab CI或ArgoCD自动化CI/CD流水线,以实现模型打包、服务、再训练和回滚。
设置模型和基础设施监控系统(Prometheus, Grafana, NVIDIA DCGM)。
实施模型漂移检测、性能警报和推理日志记录。
管理模型检查点、可重现性控制和回滚策略。
使用MLFlow或等效注册工具跟踪已部署的模型版本。
为模型端点和数据工件实施安全访问控制。
与AI/数据工程师合作,集成和部署微调数据集。
确保生产中所有AI服务的高可用性、性能和可观察性。
要求
3年DevOps、MLOps或AI/ML基础设施角色的经验。
10年解决方案操作的总体经验。
在生产环境中具有Kubernetes或OpenShift的经验,最好是经过认证的。
熟悉部署和扩展用于推理的PyTorch或TensorFlow模型。
具有使用OpenShift/Kubernetes进行CI/CD自动化的经验。
具有模型注册系统(例如,MLFlow, KubeFlow)的实际操作经验。
具有监控工具(例如,Prometheus, Grafana)和GPU工作负载优化的经验。
强大的脚本编写技能(Python, Bash)和Linux系统管理知识。
关键技能
ASP.NET、健康教育、时尚设计、纤维、调查
就业详情
就业类型:全职
空缺:1