首席人工智能运维工程师负责人工智能模型和系统的部署、监控和维护。该职位的职责包括确保人工智能系统的可靠性、可扩展性和性能,与跨职能团队合作以优化人工智能操作,并在出现问题时进行故障排除。
职责和任务
• 部署、监控和维护人工智能模型和系统,以确保最佳性能和可靠性。
• 实施和管理持续集成/持续交付(CI/CD)管道,以便持续集成和交付人工智能模型。
• 与数据科学家、人工智能工程师和其他利益相关者合作,理解模型需求并确保成功部署。
• 监控人工智能模型和系统的性能,及时识别和解决问题。
• 开发和维护自动监控和警报系统,以确保人工智能系统的健康和性能。
• 优化人工智能模型和基础设施,以实现可扩展性和效率。
• 确保人工智能操作符合数据治理、安全性和监管标准。
• 记录部署程序、监控流程和维护活动。
• 及时了解人工智能操作和基础设施技术的最新进展。
• 为初级人工智能运维工程师和其他团队成员提供技术支持和指导。
• 参与项目规划并为项目时间表和交付成果的发展做出贡献。
• 执行AI运维与基础设施负责人或高级管理层分配的其他相关职责。
要求
• 计算机科学、信息技术或相关领域的学士学位
• 相关认证(例如,AWS认证DevOps工程师、Google Cloud专业DevOps工程师)优先考虑
• 至少8年人工智能运维、DevOps或相关领域的经验
• 有管理人工智能模型的部署和维护经验
• 精通Python等编程语言
• 熟悉人工智能和机器学习框架(例如,TensorFlow、PyTorch)
• 有CI/CD工具(例如,Jenkins、GitLab CI)的经验
• 优秀的问题解决和故障排除能力
• 强大的沟通和人际交往能力
• 深入了解人工智能操作和基础设施管理
• 熟悉云平台(例如,AWS、Azure、Google Cloud)及其人工智能服务
• 理解数据治理、安全性和监管标准
• 能够有效管理多个任务并优先处理
• 注重细节,致力于提供高质量的工作
• 能够独立工作并作为团队的一部分
• 编程语言(例如,Python、Java、C++)
• 人工智能和机器学习框架(例如,TensorFlow、PyTorch)
• 监控和日志工具(例如,Prometheus、ELK Stack)
• 协作和沟通工具(例如,Slack、Microsoft Teams)