人工智能 SRE

蒙特利尔 6天前全职 网络
面议
蒙特利尔,魁北克 H1A 0A1 发布于 2026年2月20日 寻找更多工作机会?点击这里 职位类型:全职 职位类别:IT 职位描述 AI SRE / AI Ops 工程师 蒙特利尔,QC - 混合模式 所需技能: 大规模系统的 SRE / 基础设施 / 运维生产经验 强大的编程/脚本技能(Python、Go、Java 或同等语言) 具有深厚的容器化(Docker)、编排(Kubernetes 等)经验 基础设施即代码(Terraform、Helm、CloudFormation、Ansible 等) 熟悉 GPU / AI 计算集群、高性能数据存储和分布式架构 具备监控/可观测性/日志记录/警报工具(Prometheus、Grafana、ELK / EFK、Datadog 等)经验 大规模系统的 SRE / 基础设施 / 运维生产经验 强大的编程/脚本技能(Python、Go、Java 或同等语言) 具有深厚的容器化(Docker)、编排(Kubernetes 等)经验 基础设施即代码(Terraform、Helm、CloudFormation、Ansible 等) 熟悉 GPU / AI 计算集群、高性能数据存储和分布式架构 具备监控/可观测性/日志记录/警报工具(Prometheus、Grafana、ELK / EFK、Datadog 等)经验 网络和系统工程知识(TCP/IP、DNS、路由、负载均衡、分布式存储) 在容量规划、性能调优、扩展和事件响应方面有扎实经验 具备领导 RCA、部署修复和推动可靠性改进的能力 在受监管环境(金融服务、合规、审计、安全)中有经验者优先 优秀的沟通、文档编写和跨团队协作能力 通过自动化减少操作负担的良好记录 所需技能 DEVOPS 工程师 高级电子邮件安全工程师