我们正在寻找一位SRE负责人,负责拥有和发展主要在Google Cloud Platform(GCP)上运行的云原生数据平台的可靠性、可扩展性和运营卓越性。此角色支持从油田和能源环境中摄取、处理和提供大量运营数据的数据系统。
理想的候选人是一位以云为先的SRE,具有深厚的GCP经验,强大的Python工程技能,并在数据密集型系统的可靠性计划中有领导经验。
详细描述
- 领导基于GCP的数据平台的SRE实践
- 设计并拥有SLI、SLO、错误预算和可靠性指标
- 构建和维护云原生可观测性(监控、日志、警报)
- 领导生产云系统的事件响应并推动事后分析
- 与数据工程和平台团队合作设计可靠的架构
- 使用Python自动化运营工作流
- 推动CI/CD、基础设施即代码和部署安全性的改进
- 指导工程师并在团队中设定SRE最佳实践
所需知识、技能和能力:
- 7年以上SRE、云平台工程或DevOps经验
- 具有Google Cloud Platform的丰富实践经验,包括:
- GCP:GKE、Compute Engine、Cloud Storage、Pub/Sub(或同等)
- 云监控和日志
- BigQuery
- Dataflow
- Datastream
- IAM和网络
- Composer/Airflow
- Kubernetes:部署、扩展、可靠性模式
- CI/CD:GitHub Actions、GitLab CI或类似
- 可观测性:GCP云监控、日志
- 支持云原生数据系统(批处理和流处理)的经验
- 使用Python进行自动化、工具或服务的生产经验
- 基础设施即代码经验(强烈推荐Terraform)
- 在24/7生产环境中操作系统的经验
最低资格
- 商业、信息技术、计算机科学或相关领域的学士学位
- 5年以上站点可靠性工程、云平台工程或DevOps经验
- 3年以上在Google Cloud Platform(GCP)上操作生产工作负载的经验
- 之前的技术领导经验(首席工程师、技术负责人或可靠性计划的所有者)
- 能够理解和使用英语进行交流,以便员工能够用英语发出、接收和响应与安全和运营相关的指令
优先资格
- 石油和天然气行业知识
- 技术/数字行业知识