简要描述:
我们正在寻找一位网站可靠性工程师主管,负责并改进主要在 Google Cloud Platform (GCP) 上运行的云原生数据平台的可靠性、可扩展性和运营卓越性。此角色支持从油田和能源环境中摄取、处理和提供大量运营数据的数据系统。理想的候选人是具有丰富 GCP 经验的云优先 SRE,具备强大的 Python 工程技能,并在数据密集型系统的可靠性计划中有领导经验。
详细描述:
- 领导基于 GCP 的数据平台的 SRE 实践
- 设计并负责 SLIs、SLOs、错误预算和可靠性指标
- 构建和维护云原生可观测性(监控、日志记录、警报)
- 领导生产云系统的事件响应并推动事后分析
- 与数据工程和平台团队合作设计可靠的架构
- 使用 Python 自动化运营工作流程
- 推动 CI/CD、基础设施即代码和部署安全性的改进
- 指导工程师并在团队中设定 SRE 最佳实践
所需知识、技能和能力:
- 7 年以上 SRE、云平台工程或 DevOps 经验
- 丰富的 Google Cloud Platform 实践经验,包括:
- GCP: GKE、Compute Engine、Cloud Storage、Pub/Sub(或同等产品)
- 云监控和日志记录
- BigQuery
- Dataflow
- Datastream
- IAM 和网络
- Composer/Airflow
- Kubernetes:部署、扩展、可靠性模式
- CI/CD:GitHub Actions、GitLab CI 或类似工具
- 可观测性:GCP 云监控、日志记录
- 支持云原生数据系统(批处理和流处理)的经验
- 使用 Python 进行自动化、工具或服务的生产经验
- 基础设施即代码经验(强烈推荐使用 Terraform)
- 在 24/7 生产环境中操作系统的经验
最低资格:
- 商业、信息技术、计算机科学或相关领域的学士学位
- 5 年以上网站可靠性工程、云平台工程或 DevOps 经验
- 3 年以上在 Google Cloud Platform (GCP) 上操作生产工作负载的经验
- 之前的技术领导经验(首席工程师、技术负责人或可靠性计划的负责人)
- 能够理解和使用英语进行交流,以便员工能够用英语发布、接收和响应与安全和操作相关的指示
优先资格:
- 石油和天然气行业知识
- 技术/数字行业知识
不断发展的油田需要不断发展的服务提供商
NexTier 是领先的综合完井服务提供商,采用可持续的实践和设备,以支持客户的 ESG 目标,同时加速在美国最具挑战性的陆上盆地的生产。