MBZUAI 正在为其基础模型研究所 (IFM) 招聘一名高级机器学习运维工程师。MBZUAI 的基础模型研究所 (IFM) 致力于引领全球人工智能创新前沿的学术研究,以实际社会需求为驱动力。IFM 构建了世界上最强大的基础模型——开放、快速,并专注于解决实际问题。凭借深厚的科研实力和在阿布扎比、巴黎和硅谷的世界一流人才,IFM 正在塑造人工智能的未来。
机器学习运维工程师将负责设计、构建和维护涵盖训练、推理和部署流程的稳健的机器学习 (ML) 基础设施。该职位将负责从数据摄取到实时服务的整个模型生命周期,并确保大型语言模型 (LLM) 和语音模型在基于 Kubernetes 的环境中高效、安全且可复现地部署。
此职位要求具备 Kubernetes (EKS)、Helm、AWS 云基础设施以及现代 MLOps 工具链(例如 vLLM、SGLang、OpenWebUI、Weights & Biases、MLflow)的实践经验。熟悉 ElevenLabs、Whisper 和 RVC 等语音/语音 AI 框架亦为加分项。
1. 关键经验要求
基础设施设计和云管理
- 在 AWS(EKS、EC2、RDS、S3、IAM)、Azure 或 GCP 上设计、构建和维护可扩展的机器学习基础设施,以支持 AI 和数据密集型工作负载。
- 使用 Helm、ArgoCD 和 Terraform 部署和管理 Kubernetes 集群,以实现可复现且安全的环境。
- 通过集成监控(Prometheus、Grafana)确保多环境云资源的可观测性、成本优化和可靠性。
MLOps 和流水线自动化
- 使用 GitHub Actions、Jenkins 或 AWS CodePipeline 开发和维护用于数据版本控制、模型验证和部署的自动化 MLOps 流水线。
- 使用 vLLM、TensorRT、SGLang 或类似框架实现和优化高吞吐量模型服务流水线。
- 管理模型和应用程序发布的 CI/CD 工作流,集成持续测试和回滚策略。
- 支持跨分布式集群的实时多模态推理工作负载(语音、文本、视觉)。
基础设施即代码和系统自动化
- 使用 Terraform、Helm 和 Ansible 实现基础设施即代码 (IaC),以实现自动化配置、部署和治理。
- 创建和管理 ISO 镜像、操作系统和环境重建,以确保跨环境的一致性。
- 自动化本地和云系统中的工作站、服务器和网络配置(DHCP、DNS、TLS)。
GPU 和机器学习环境支持
- 搭建并维护基于 CUDA、cuDNN、PyTorch、NCCL 及相关 AI/ML 库的 GPU 加速环境。
- 支持使用 Kubernetes GPU Operator 的容器化 GPU 工作负载,并优化 LLM 和 TTS 推理的性能。
应用部署和监控
- 部署和管理可用于生产环境的 AI/ML 应用,并使用 OpenWebUI、Gradio 或类似的前端界面进行内部和外部演示。
- 监控并排查性能、资源利用率和可靠性问题;确保主动发出警报并解决故障。
安全性、合规性和可靠性
- 在基础设施、数据管道和应用中实施并执行安全最佳实践。
- 设计并维护关键系统的灾难恢复、备份和数据保护策略。
- 确保符合机构和监管标准,保障数据完整性和系统弹性。
协作与集成
- 与机器学习研究人员、AI 工程师和数据科学家紧密合作,将 AI 模型(LLM、ASR、TTS)产品化并扩展规模。
- 与跨职能团队协作,进行项目部署、性能基准测试和工作流程优化。
创新与持续改进
- 评估并整合新兴的 DevOps、MLOps 和云原生技术,以增强自动化和可扩展性。
- 优化云和硬件资源利用率,以提高运营效率并降低成本。
文档编写与知识转移
- 维护基础设施架构、部署流程和运营工作流程的完整文档。
- 指导初级工程师,并推广 DevOps、MLOps 和安全基础设施管理方面的最佳实践。
2. 学历要求
- 计算机科学、人工智能系统工程或相关领域的学士学位。
3. 所需专业经验
必备条件:
- 至少 4 年机器学习系统 MLOps、DevOps 或云基础设施工程经验。
- 精通 Kubernetes、Helm 和容器编排。
- 具备通过 vLLM、SGLang、TensorRT 或 RayServe 部署机器学习模型的经验。精通 AWS 服务(EKS、EC2、S3、RDS、CloudWatch、IAM)。
- 拥有丰富的 Python、Docker、Git 和 CI/CD 流水线经验。
- 深入理解模型生命周期管理、数据管道和可观测性工具(Grafana、Prometheus、Loki)。