我们正在寻找一位MLOps/平台工程师。在这个实践性角色中,您将设计和实施安全、可扩展的部署管道,适用于本地和私有云环境,直接支持机器学习工作负载和生成式AI解决方案。
主要职责:在生产环境中操作和管理Kubernetes集群,设计部署以实现最大效率和可靠性。使用Jenkins等工具开发和维护CI/CD管道,确保从构建到部署的无缝自动化。实施可观测性实践,包括日志记录和指标,以快速识别和解决问题。部署ML模型和服务,确保高性能和可扩展性,同时优化推理过程。与AI工程师密切合作,将原型转化为生产级部署,并保持详尽的文档记录。
要求:3-8年平台工程、Dev Ops或站点可靠性工程(SRE)经验。在生产环境中至少有2年Kubernetes经验。精通Docker、CI/CD实践和Linux。了解Git Ops工具(例如Argo CD、Flux)和基础设施即代码(Terraform/Ansible)。有部署机器学习工作负载的经验,并熟悉生成式AI技术。具有强烈的责任心,优秀的文档编写和协作能力。能够直接与客户合作并驾驭复杂环境。