我们正在寻找一位高级MLOps工程师,在AWS中设计、构建和运营可扩展的机器学习基础设施。此角色需要与数据科学家和平台团队密切合作,将模型投入生产,建立稳健的ML平台,并确保可靠、可观察和安全的模型生命周期管理。理想的候选人需具备扎实的软件工程基础、深厚的AWS专业知识,并采取务实的方法帮助数据科学团队快速从实验过渡到生产。拥有构建新ML基础设施的经验,而不是在现有基础设施内操作,将是一个巨大的优势。
工作职责 / 角色中的典型一天
实现机器学习模型的生产部署
- 与数据科学家合作,为生产部署准备开发代码,包括重构、打包、标准化和性能优化
- 构建和维护用于模型训练、验证和部署的CI/CD管道
- 使用可扩展的AWS原生服务支持批处理和实时推理工作流
- 开发和维护可集成到用户产品中的模型API
构建和运营核心MLOps平台功能
- 设计和实施一个集中式模型注册表,以跟踪版本、元数据、谱系和推广阶段
- 构建和维护特征存储,以支持训练和推理的一致特征计算
- 为数据摄取、训练、评估、部署和监控建立标准化的ML管道
- 定义基础设施即代码模式,以可靠地配置和管理ML环境
确保ML系统的可靠性、监控和治理
- 实施对模型性能、数据漂移和操作健康状况的监控
- 为生产模型故障建立警报和回滚策略
- 与安全和平台团队合作,确保合规性、访问控制和可审计性
跨产品、数据和平台团队协作
- 与数据科学家密切合作,使实验工作流与生产限制保持一致
- 与数据工程师和架构师合作,确保特征的可用性、新鲜度和质量
- 通过沟通API设计和交付,支持敏捷产品POD,以便集成到用户产品中
必须具备的技能 / 要求
1) 在MLOps、ML工程或使用ML系统的后端软件工程方面的经验
a. 4年以上经验
2) 在AWS中构建和运营ML系统的丰富经验(例如,SageMaker、ECS、Lambda、Step Functions、S3、IAM)
a. 4年以上经验
3) 精通Python,并具有在生产环境中使用的ML框架和工具的经验
a. 4年以上经验
可选技能 / 优先要求
1) 无
软技能:
1) 对机器学习生命周期有深刻理解,并了解数据科学工作流如何转化为生产系统
2) 能够有效地与数据科学家合作,将实验工作转化为稳健的生产解决方案
3) 较强的沟通能力,能够与技术和非技术利益相关者合作
技术要求:
1) 在AWS中构建和运营ML系统的丰富经验(例如,SageMaker、ECS、Lambda、Step Functions、S3、IAM)
2) 精通Python,并具有在生产环境中使用的ML框架和工具的经验
3) 具有构建API和模型推理后端服务的经验
4) 具有CI/CD、基础设施即代码(例如,Terraform、CloudFormation)和容器化的实践经验
教育 / 认证
1) 无要求。
“Mindlance是一个平等机会雇主,在就业中不因少数族裔/性别/残疾/宗教/LGBTQI/年龄/退伍军人而歧视。”
如果您有兴趣,我很乐意安排时间与您聊聊您的背景和职业兴趣,看看是否有可能的匹配。请随时拨打732-806-7467与我联系,或发送电子邮件至nirajk@mindlance.com
此致
Niraj Kumar