**职位概述**:
• *薪资**
新加坡币 8,000 - 11,000 / 月
• *职位类型**
• *级别**
首席
• *工作经验**
至少 12 年
• *技术栈**
亚马逊 S3 AWS Docker Jenkins CI R Glue Athena RedShift Apache Git Spark Kubernetes Hadoop Python
作为一名高级机器学习 (ML/LLM) 运维工程师,您将与数据科学家合作,使用 ML 和 AWS 技术(如 SageMaker)将数据科学模型部署到我们的云平台。除了在生产环境中进行模型训练和部署外,您还将负责协调所有其他流程,如数据清理、预处理、数据管理、审计、日志记录、监控、安全等。
您将利用您的专业知识提供关于安全、成本、性能、可靠性和运营效率的建议,以加速项目进展。
• *职责**:
- 理解当前架构状态,包括痛点。
- 创建并记录未来状态架构选项,以解决特定问题或通过机器学习推动的倡议。
- 通过与组织内的利益相关者合作,创新并扩展架构最佳实践,以构建和运营 ML 工作负载。
- 开发 CI/CD 和 ML 管道,帮助实现从数据准备和特征工程到模型部署和再训练的端到端 ML 模型开发生命周期。
- 实施全面的日志记录、监控和警报系统,以检测和解决生产中的模型退化、数据漂移和异常。
- 提供关于安全、成本、性能、可靠性和运营效率的建议并实施。
- 利用经验和当前行业趋势,提供关于行业标准工具和模型(包括商业可用模型和工具)的思想领导。
- 根据需要与企业架构师、咨询合作伙伴和客户 IT 团队合作,建立并实施战略计划。
- 提出优化建议并评估提案。
- 识别操作问题并建议和实施解决策略。
• *职位要求**:
- 计算机科学、人工智能的学士或硕士学位,具有 12 年以上同等经验。
- 5 年以上开发 CI/CD 和 ML 管道以实现端到端 ML 模型/工作负载生产化的经验。
- 10 年以上软件开发/ DevOps 角色的经验。
- 对 ML 运维和 DevOps 工作流及工具(如 Git、AWS Code Build 和 Code Pipeline、Jenkins、AWS CloudFormation 等)有深入了解。
- 对 AWS 云及其技术(如 S3、Redshift、Athena、Glue、SageMaker 等)有深入了解。
- 对容器化和编排技术(Docker、Kubernetes 等)具有强大的专业技能。
- 具备高水平的编程技能,精通 Python、R 等。
- 在云环境中具有机器学习算法开发、AI/ML 平台、深度学习、ML 运维的背景。
- 具备 LLM 运维知识者优先,或应愿意快速学习。
- 具备数据库、数据仓库、数据准备和集成工具的工作知识,以及大数据并行处理层(如 Apache Spark 或 Hadoop)。
- 具备纯数学和应用数学、ML 和 DL 框架、以及 ML 技术(如随机森林和神经网络)的知识。
- 能够与数据科学家、数据工程师、领导者和其他 IT 团队合作。
- 能够同时处理多个项目和工作流,必须能够根据项目截止日期交付结果。
- 愿意调整日常工作时间表,以便与全球团队沟通时考虑时区差异。
- 具备良好的人际交往和沟通能力。
我们重视:
- 强大的问题解决能力。以结果为导向。依赖基于事实的逻辑做出决策。
- 时间管理技能 - 能够在需求变化的情况下同时管理多个项目和设计。
- 在敏捷环境中工作的经验。
- 能够在快速变化、资源有限的环境中工作,为业务提供价值。
- 拥有 LLM 运维或 ML 运维认证者优先。