职位类型全职行业服务语言英语工作安排远程发布日期 2025年6月25日，星期三薪资每年90000 - 110000 专业领域 IT - 人工智能开发安全许可 • - 地点加拿大安大略省多伦多机会编号 22799 职位描述关于该角色我们正在招聘一名具有深厚DevOps和平台工程专业知识的机器学习基础设施工程师，负责构建和管理可扩展的实时人工智能系统基础设施。这不是一个模型开发角色——我们特别寻找能够设计、部署和管理强大的机器学习平台，以支持云环境中的生产级人工智能工作负载的人。您将负责云基础设施、容器编排、CI/CD自动化和GPU推理优化——与人工智能研究人员和媒体工程团队密切合作，以支持高吞吐量、低延迟的系统。您将负责的内容平台工程与架构 • 设计和维护一个生产就绪的机器学习平台，整合训练、部署和监控管道。 • 设计和实施可靠、安全且可扩展的云原生基础设施（主要使用AWS和EKS）。 • 构建优化实时性能、可重复性和自动化的模块化系统。 DevOps、自动化与基础设施即代码 • 使用GitHub Actions、ArgoCD或Jenkins构建和管理模型打包、部署和回滚的CI/CD管道。 • 使用Terraform或其他基础设施即代码（IaC）工具一致且安全地定义和配置基础设施。 • 使用Prometheus、Grafana或等效工具实施模型可观察性和性能诊断。模型服务与推理优化 • 使用TensorRT、ONNX Runtime或TorchScript等工具部署和管理推理端点。 • 优化GPU环境中的资源利用率和延迟。 • 处理已部署模型的版本控制、回滚策略和可重复性标准。必须具备的资格 • 3年以上作为DevOps、机器学习基础设施或平台工程师的经验（非研究/建模角色）。 • 强大的实践经验，包括： • 云平台（优先考虑AWS，包括EKS） • 生产环境中的Kubernetes和Docker • Terraform或其他IaC工具 • 机器学习管道的CI/CD系统（GitHub Actions、ArgoCD、Jenkins等） • 支持使用ONNX Runtime、TensorRT或类似工具的实时机器学习推理系统的经验。对平台监控、警报和可观察性最佳实践有深入理解 • 加分项 • 在大规模部署生成性人工智能或大型语言模型方面的经验。 • 熟悉媒体处理、视觉特效系统或GPU密集型实时工作负载。 • 了解安全最佳实践（IAM、加密、容器强化等）。我们是一个平等机会雇主，致力于增加当今劳动力的多样性和包容性。所有合格的申请者将获得考虑就业的机会，不受种族、肤色、宗教、性别、性别身份或表达、性取向、国籍、遗传、残疾、年龄或退伍军人身份的影响。鼓励少数族裔、女性、LGBTQ候选人和残疾人士申请。如果您需要住宿，请查看我们的无障碍政策，并与我们的无障碍官员联系以获取任何问题的解答。

机器学习基础设施工程师

Altis Recruitment