职位类型
全职
行业
服务
语言
英语
工作安排
远程
发布日期
2025年6月25日,星期三
薪资
每年90000 - 110000
专业领域
IT - 人工智能开发
安全许可
• -
地点
加拿大安大略省多伦多
机会编号
22799
职位描述
关于该角色
我们正在招聘一名具有深厚DevOps和平台工程专业知识的机器学习基础设施工程师,负责构建和管理可扩展的实时人工智能系统基础设施。这不是一个模型开发角色——我们特别寻找能够设计、部署和管理强大的机器学习平台,以支持云环境中的生产级人工智能工作负载的人。
您将负责云基础设施、容器编排、CI/CD自动化和GPU推理优化——与人工智能研究人员和媒体工程团队密切合作,以支持高吞吐量、低延迟的系统。
您将负责的内容
平台工程与架构
• 设计和维护一个生产就绪的机器学习平台,整合训练、部署和监控管道。
• 设计和实施可靠、安全且可扩展的云原生基础设施(主要使用AWS和EKS)。
• 构建优化实时性能、可重复性和自动化的模块化系统。
DevOps、自动化与基础设施即代码
• 使用GitHub Actions、ArgoCD或Jenkins构建和管理模型打包、部署和回滚的CI/CD管道。
• 使用Terraform或其他基础设施即代码(IaC)工具一致且安全地定义和配置基础设施。
• 使用Prometheus、Grafana或等效工具实施模型可观察性和性能诊断。
模型服务与推理优化
• 使用TensorRT、ONNX Runtime或TorchScript等工具部署和管理推理端点。
• 优化GPU环境中的资源利用率和延迟。
• 处理已部署模型的版本控制、回滚策略和可重复性标准。
必须具备的资格
• 3年以上作为DevOps、机器学习基础设施或平台工程师的经验(非研究/建模角色)。
• 强大的实践经验,包括:
• 云平台(优先考虑AWS,包括EKS)
• 生产环境中的Kubernetes和Docker
• Terraform或其他IaC工具
• 机器学习管道的CI/CD系统(GitHub Actions、ArgoCD、Jenkins等)
• 支持使用ONNX Runtime、TensorRT或类似工具的实时机器学习推理系统的经验。
对平台监控、警报和可观察性最佳实践有深入理解
• 加分项
• 在大规模部署生成性人工智能或大型语言模型方面的经验。
• 熟悉媒体处理、视觉特效系统或GPU密集型实时工作负载。
• 了解安全最佳实践(IAM、加密、容器强化等)。
我们是一个平等机会雇主,致力于增加当今劳动力的多样性和包容性。所有合格的申请者将获得考虑就业的机会,不受种族、肤色、宗教、性别、性别身份或表达、性取向、国籍、遗传、残疾、年龄或退伍军人身份的影响。鼓励少数族裔、女性、LGBTQ候选人和残疾人士申请。如果您需要住宿,请查看我们的无障碍政策,并与我们的无障碍官员联系以获取任何问题的解答。