我们正在寻找一位SRE负责人，负责拥有和发展主要在Google Cloud Platform（GCP）上运行的云原生数据平台的可靠性、可扩展性和运营卓越性。此角色支持从油田和能源环境中摄取、处理和提供大量运营数据的数据系统。理想的候选人是一位以云为先的SRE，具有深厚的GCP经验，强大的Python工程技能，并在数据密集型系统的可靠性计划中有领导经验。详细描述 - 领导基于GCP的数据平台的SRE实践 - 设计并拥有SLI、SLO、错误预算和可靠性指标 - 构建和维护云原生可观测性（监控、日志、警报） - 领导生产云系统的事件响应并推动事后分析 - 与数据工程和平台团队合作设计可靠的架构 - 使用Python自动化运营工作流 - 推动CI/CD、基础设施即代码和部署安全性的改进 - 指导工程师并在团队中设定SRE最佳实践所需知识、技能和能力： - 7年以上SRE、云平台工程或DevOps经验 - 具有Google Cloud Platform的丰富实践经验，包括： - GCP：GKE、Compute Engine、Cloud Storage、Pub/Sub（或同等） - 云监控和日志 - BigQuery - Dataflow - Datastream - IAM和网络 - Composer/Airflow - Kubernetes：部署、扩展、可靠性模式 - CI/CD：GitHub Actions、GitLab CI或类似 - 可观测性：GCP云监控、日志 - 支持云原生数据系统（批处理和流处理）的经验 - 使用Python进行自动化、工具或服务的生产经验 - 基础设施即代码经验（强烈推荐Terraform） - 在24/7生产环境中操作系统的经验最低资格 - 商业、信息技术、计算机科学或相关领域的学士学位 - 5年以上站点可靠性工程、云平台工程或DevOps经验 - 3年以上在Google Cloud Platform（GCP）上操作生产工作负载的经验 - 之前的技术领导经验（首席工程师、技术负责人或可靠性计划的所有者） - 能够理解和使用英语进行交流，以便员工能够用英语发出、接收和响应与安全和运营相关的指令优先资格 - 石油和天然气行业知识 - 技术/数字行业知识

高级站点可靠性工程师

NexTier Completion Solutions