站点可靠性工程师主管

休斯顿 8天前全职 网络
面议
简要描述: 我们正在寻找一位网站可靠性工程师主管,负责并改进主要在 Google Cloud Platform (GCP) 上运行的云原生数据平台的可靠性、可扩展性和运营卓越性。此角色支持从油田和能源环境中摄取、处理和提供大量运营数据的数据系统。理想的候选人是具有丰富 GCP 经验的云优先 SRE,具备强大的 Python 工程技能,并在数据密集型系统的可靠性计划中有领导经验。 详细描述: - 领导基于 GCP 的数据平台的 SRE 实践 - 设计并负责 SLIs、SLOs、错误预算和可靠性指标 - 构建和维护云原生可观测性(监控、日志记录、警报) - 领导生产云系统的事件响应并推动事后分析 - 与数据工程和平台团队合作设计可靠的架构 - 使用 Python 自动化运营工作流程 - 推动 CI/CD、基础设施即代码和部署安全性的改进 - 指导工程师并在团队中设定 SRE 最佳实践 所需知识、技能和能力: - 7 年以上 SRE、云平台工程或 DevOps 经验 - 丰富的 Google Cloud Platform 实践经验,包括: - GCP: GKE、Compute Engine、Cloud Storage、Pub/Sub(或同等产品) - 云监控和日志记录 - BigQuery - Dataflow - Datastream - IAM 和网络 - Composer/Airflow - Kubernetes:部署、扩展、可靠性模式 - CI/CD:GitHub Actions、GitLab CI 或类似工具 - 可观测性:GCP 云监控、日志记录 - 支持云原生数据系统(批处理和流处理)的经验 - 使用 Python 进行自动化、工具或服务的生产经验 - 基础设施即代码经验(强烈推荐使用 Terraform) - 在 24/7 生产环境中操作系统的经验 最低资格: - 商业、信息技术、计算机科学或相关领域的学士学位 - 5 年以上网站可靠性工程、云平台工程或 DevOps 经验 - 3 年以上在 Google Cloud Platform (GCP) 上操作生产工作负载的经验 - 之前的技术领导经验(首席工程师、技术负责人或可靠性计划的负责人) - 能够理解和使用英语进行交流,以便员工能够用英语发布、接收和响应与安全和操作相关的指示 优先资格: - 石油和天然气行业知识 - 技术/数字行业知识 不断发展的油田需要不断发展的服务提供商 NexTier 是领先的综合完井服务提供商,采用可持续的实践和设备,以支持客户的 ESG 目标,同时加速在美国最具挑战性的陆上盆地的生产。