我们正在寻找一位高级MLOps工程师,负责在AWS中设计、构建和运营可扩展的机器学习基础设施。此角色需要与数据科学家和平台团队紧密合作,将模型投入生产,建立稳健的ML平台,并确保可靠、可观察和安全的模型生命周期管理。理想的候选人应具备扎实的软件工程基础、深厚的AWS专业知识,并以务实的方法帮助数据科学团队快速从实验过渡到生产。拥有构建新ML基础设施的经验,而非仅在现有基础设施中操作,将是一个巨大的优势。
工作职责 / 角色中的典型一天
支持机器学习模型的生产部署
- 与数据科学家合作,准备开发代码以进行生产部署,包括重构、打包、标准化和性能优化
- 构建和维护用于模型训练、验证和部署的CI/CD管道
- 使用可扩展的AWS原生服务支持批处理和实时推理工作流
- 开发和维护可集成到用户产品中的模型API
构建和运营核心MLOps平台能力
- 设计和实现一个集中式模型注册表,以跟踪版本、元数据、谱系和推广阶段
- 构建和维护特征库,以支持训练和推理的一致特征计算
- 建立标准化的ML管道,用于数据摄取、训练、评估、部署和监控
- 定义基础设施即代码模式,以可靠地提供和管理ML环境
确保ML系统的可靠性、监控和治理
- 实施模型性能、数据漂移和操作健康的监控
- 为生产模型故障建立警报和回滚策略
- 与安全和平台团队合作,确保合规性、访问控制和可审计性
跨产品、数据和平台团队协作
- 与数据科学家紧密合作,使实验工作流与生产限制保持一致
- 与数据工程师和架构师合作,确保特征的可用性、新鲜度和质量
- 通过沟通API设计和交付,支持敏捷产品POD,以便集成到用户产品中
必须具备的技能 / 要求
1) 在MLOps、ML工程或使用ML系统的后端软件工程方面的经验
a. 4年以上经验
2) 在AWS中构建和运营ML系统的丰富经验(例如,SageMaker、ECS、Lambda、Step Functions、S3、IAM)
a. 4年以上经验
3) 精通Python,并具有在生产环境中使用的ML框架和工具的经验
a. 4年以上经验
优先技能 / 首选要求
1) 无
软技能:
1) 对机器学习生命周期有深刻理解,并了解数据科学工作流如何转化为生产系统
2) 能够有效地与数据科学家合作,并将实验工作转化为稳健的生产解决方案
3) 强大的沟通能力,能够在技术和非技术利益相关者之间自如工作
技术要求:
1) 在AWS中构建和运营ML系统的丰富经验(例如,SageMaker、ECS、Lambda、Step Functions、S3、IAM)
2) 精通Python,并具有在生产环境中使用的ML框架和工具的经验
3) 构建用于模型推理的API和后端服务的经验
4) 拥有CI/CD、基础设施即代码(例如,Terraform、CloudFormation)和容器化的实际操作经验
教育 / 认证
1) 无要求
“Mindlance是一个机会均等的雇主,在就业中不因少数族裔/性别/残疾/宗教/LGBTQI/年龄/退伍军人而歧视。”
如果您有兴趣,我很乐意安排一些时间与您聊聊您的背景和职业兴趣,看看是否可能匹配。请随时拨打732-806-7467与我联系,或发送电子邮件至nirajk@mindlance.com
此致
Niraj Kumar