我们的客户是一家位于多伦多市中心快速发展的私募股权公司,正在寻找一名具有MLOps专注的DevOps工程师🌐🚀
• **多伦多市中心混合型职位-仅限本地候选人***
职位特定职责:
• 🌐可扩展的云解决方案:设计、部署和维护跨主要云平台(优先选择Google Cloud)的可扩展解决方案,确保核心基础设施、应用程序和服务的可用性、性能和准备就绪。
• 🔄微服务和ML流水线:实施和维护端到端的微服务和机器学习流水线,促进从数据摄取、训练、测试、部署到生产环境中的监控的平稳过渡。
• 🚀 CI/CD卓越:利用CI/CD原则简化代码部署和软件更新,确保从开发到生产环境的无缝过渡。使用基础设施即代码工具(如Google Cloud Development Manager或CloudFormation)自动部署ML算法。
• 👥跨职能协作:与软件开发人员、DL/ML工程师和其他团队成员进行跨职能协作,确保高效交付,增强整体软件交付流程,并维护高质量的机器学习模型。
• 📊监控和可靠性:实施和管理监控工具,确保系统健康,诊断潜在问题,并为开发团队提供反馈回路。监控生产基础设施和ML模型的健康和性能,实施实时监控、日志记录和警报,以实现高可用性和可靠性。
• 🔒安全最佳实践:在整个开发生命周期和基础设施中执行安全最佳实践和漏洞管理标准。确保ML模型和数据流程符合相关法规和公司政策。
• 🌐持续学习:及时了解DevOps和MLOps领域的新趋势和工具,不断寻求改进机会,并主动提出建议。
教育、经验和能力:
• 🎓教育背景:计算机科学、工程或相关领域的学士或更高学位。
• 🌐专业经验:在DevOps角色中工作的经验7年,其中至少1年专门从事MLOps或处理生产中的ML。
• 🚀脚本编写技巧:精通Python、Shell或等效的脚本语言。
• ☁️云专业知识:必须深入了解主要云平台,尤其是Google Cloud Platform(GCP)。
• 🐳容器化和编排:具有Docker等容器化技术和Kubernetes等编排工具的实际经验。
• 🛠️基础设施即代码:具有Cloud Deployment Manager、CloudFormation或Terraform等基础设施即代码工具的成功记录。
• 🔄版本控制和协作:具有版本控制系统(主要是git)和GitHub或GitLab等协作平台的实际经验。必须了解代码开发生命周期。
• 🔧MLOps熟悉度:熟悉TensorFlow、Extended(TFX)、MLflow或KubeFlow(GCP)等MLOps工具。具备将ML模型部署到生产环境的经验,了解不同的模型架构及其基础设施需求。
• 📜文档技巧:为ML和基础设施工作流程、工具和系统创建全面清晰的文档。全面了解网络架构、VPC设计和设置以及云环境中的安全最佳实践将是一个加分项。具有在数据和ML工作流程中实施身份和访问管理以及其他安全协议的经验。