AI 平台站点可靠性工程师

蒙特利尔 4天前全职 网络
面议
所需技能: - 在大规模系统的SRE/基础设施/运维方面有生产经验 - 强大的编程/脚本技能(Python、Go、Java或同等语言) - 深厚的容器化(Docker)、编排(Kubernetes等)经验 - 基础设施即代码(Terraform、Helm、CloudFormation、Ansible等) - 熟悉GPU/AI计算集群、高性能数据存储和分布式架构 - 使用监控/可观测性/日志记录/警报工具(Prometheus、Grafana、ELK/EFK、Datadog等)的经验 - 在大规模系统的SRE/基础设施/运维方面有生产经验 - 强大的编程/脚本技能(Python、Go、Java或同等语言) - 深厚的容器化(Docker)、编排(Kubernetes等)经验 - 基础设施即代码(Terraform、Helm、CloudFormation、Ansible等) - 熟悉GPU/AI计算集群、高性能数据存储和分布式架构 - 使用监控/可观测性/日志记录/警报工具(Prometheus、Grafana、ELK/EFK、Datadog等)的经验 - 网络和系统工程知识(TCP/IP、DNS、路由、负载均衡、分布式存储) - 在容量规划、性能调优、扩展和事件响应方面有扎实经验 - 展示了领导RCA、部署修复和推动可靠性改进的能力 - 在受监管环境(金融服务、合规、审计、安全)中的经验是一个很大的加分项 - 出色的沟通、文档编写和跨团队协作能力 - 通过自动化减少操作性繁琐工作的成功记录