机器学习基础设施工程师

8小时前全职
47万 - 57.5万 / 年 Altis Recruitment

Altis Recruitment

location 多伦多
unsaved
职位类型 全职 行业 服务 语言 英语 工作安排 远程 发布日期 2025年6月25日,星期三 薪资 每年90000 - 110000 专业领域 IT - 人工智能开发 安全许可 • - 地点 加拿大安大略省多伦多 机会编号 22799 职位描述 关于该角色 我们正在招聘一名具有深厚DevOps和平台工程专业知识的机器学习基础设施工程师,负责构建和管理可扩展的实时人工智能系统基础设施。这不是一个模型开发角色——我们特别寻找能够设计、部署和管理强大的机器学习平台,以支持云环境中的生产级人工智能工作负载的人。 您将负责云基础设施、容器编排、CI/CD自动化和GPU推理优化——与人工智能研究人员和媒体工程团队密切合作,以支持高吞吐量、低延迟的系统。 您将负责的内容 平台工程与架构 • 设计和维护一个生产就绪的机器学习平台,整合训练、部署和监控管道。 • 设计和实施可靠、安全且可扩展的云原生基础设施(主要使用AWS和EKS)。 • 构建优化实时性能、可重复性和自动化的模块化系统。 DevOps、自动化与基础设施即代码 • 使用GitHub Actions、ArgoCD或Jenkins构建和管理模型打包、部署和回滚的CI/CD管道。 • 使用Terraform或其他基础设施即代码(IaC)工具一致且安全地定义和配置基础设施。 • 使用Prometheus、Grafana或等效工具实施模型可观察性和性能诊断。 模型服务与推理优化 • 使用TensorRT、ONNX Runtime或TorchScript等工具部署和管理推理端点。 • 优化GPU环境中的资源利用率和延迟。 • 处理已部署模型的版本控制、回滚策略和可重复性标准。 必须具备的资格 • 3年以上作为DevOps、机器学习基础设施或平台工程师的经验(非研究/建模角色)。 • 强大的实践经验,包括: • 云平台(优先考虑AWS,包括EKS) • 生产环境中的Kubernetes和Docker • Terraform或其他IaC工具 • 机器学习管道的CI/CD系统(GitHub Actions、ArgoCD、Jenkins等) • 支持使用ONNX Runtime、TensorRT或类似工具的实时机器学习推理系统的经验。 对平台监控、警报和可观察性最佳实践有深入理解 • 加分项 • 在大规模部署生成性人工智能或大型语言模型方面的经验。 • 熟悉媒体处理、视觉特效系统或GPU密集型实时工作负载。 • 了解安全最佳实践(IAM、加密、容器强化等)。 我们是一个平等机会雇主,致力于增加当今劳动力的多样性和包容性。所有合格的申请者将获得考虑就业的机会,不受种族、肤色、宗教、性别、性别身份或表达、性取向、国籍、遗传、残疾、年龄或退伍军人身份的影响。鼓励少数族裔、女性、LGBTQ候选人和残疾人士申请。如果您需要住宿,请查看我们的无障碍政策,并与我们的无障碍官员联系以获取任何问题的解答。