提升机器学习基础设施,确保机器学习模型在实时生产环境中的迅速高效部署、监控和管理。
职责:
对于MLOps:
• 利用MLOps管理机器学习模型部署、扩展和监控的基础设施。
• 与数据科学家和工程团队合作,无缝过渡机器学习模型从开发到生产环境。
• 管理持续集成、测试和部署机器学习系统的自动化工具。
• 坚持机器学习模型的版本控制、测试和容器化的最佳实践。
• 监控生产环境中的机器学习模型性能,并进行必要的优化。
对于DevOps:
• 开发和优化公司的IT基础设施,重点关注AWS、Azure或Google Cloud Engine等云服务。
• 实施和管理持续集成和持续部署(CI/CD)流程。
• 监控和确保系统基础设施的高性能和可靠性。
• 与软件开发团队密切合作,将IT基础设施与项目要求对齐。
• 管理和保护基于云的环境,确保符合行业标准。
• 了解DevOps、云服务和相关技术的最新趋势。
要求:
• 计算机科学、数据科学、人工智能或类似专业的学士或硕士学位。
• 对于ML OPS:有MLOps经验,对机器学习和DevOps实践有扎实的理解。
• 熟悉TensorFlow、PyTorch等机器学习框架,以及Docker、Kubernetes、Jenkins等DevOps工具。
• 擅长故障排除和优化机器学习模型及相关基础设施。
• 对于DevOps:精通云服务和基础设施管理,特别是AWS、Azure或Google Cloud Engine。
• 了解一系列DevOps工具(例如Docker、Kubernetes、Jenkins、Ansible)。
• 具备强大的脚本编写和自动化技能。
• 熟悉持续集成/持续部署流水线、自动化流程和云基础设施。
• 具备良好的英语沟通能力,包括书面和口头表达。
• 出色的问题解决能力和合作团队精神。