蒙特利尔,魁北克 H1A 0A1 发布于 2026年2月20日
寻找更多工作机会?点击这里
职位类型:全职
职位类别:IT
职位描述
AI SRE / AI Ops 工程师
蒙特利尔,QC - 混合模式
所需技能:
大规模系统的 SRE / 基础设施 / 运维生产经验
强大的编程/脚本技能(Python、Go、Java 或同等语言)
具有深厚的容器化(Docker)、编排(Kubernetes 等)经验
基础设施即代码(Terraform、Helm、CloudFormation、Ansible 等)
熟悉 GPU / AI 计算集群、高性能数据存储和分布式架构
具备监控/可观测性/日志记录/警报工具(Prometheus、Grafana、ELK / EFK、Datadog 等)经验
大规模系统的 SRE / 基础设施 / 运维生产经验
强大的编程/脚本技能(Python、Go、Java 或同等语言)
具有深厚的容器化(Docker)、编排(Kubernetes 等)经验
基础设施即代码(Terraform、Helm、CloudFormation、Ansible 等)
熟悉 GPU / AI 计算集群、高性能数据存储和分布式架构
具备监控/可观测性/日志记录/警报工具(Prometheus、Grafana、ELK / EFK、Datadog 等)经验
网络和系统工程知识(TCP/IP、DNS、路由、负载均衡、分布式存储)
在容量规划、性能调优、扩展和事件响应方面有扎实经验
具备领导 RCA、部署修复和推动可靠性改进的能力
在受监管环境(金融服务、合规、审计、安全)中有经验者优先
优秀的沟通、文档编写和跨团队协作能力
通过自动化减少操作负担的良好记录
所需技能
DEVOPS 工程师
高级电子邮件安全工程师