高级站点可靠性工程师

休斯顿 2天前全职 网络
面议
我们正在寻找一位SRE负责人,负责拥有和发展主要在Google Cloud Platform(GCP)上运行的云原生数据平台的可靠性、可扩展性和运营卓越性。此角色支持从油田和能源环境中摄取、处理和提供大量运营数据的数据系统。 理想的候选人是一位以云为先的SRE,具有深厚的GCP经验,强大的Python工程技能,并在数据密集型系统的可靠性计划中有领导经验。 详细描述 - 领导基于GCP的数据平台的SRE实践 - 设计并拥有SLI、SLO、错误预算和可靠性指标 - 构建和维护云原生可观测性(监控、日志、警报) - 领导生产云系统的事件响应并推动事后分析 - 与数据工程和平台团队合作设计可靠的架构 - 使用Python自动化运营工作流 - 推动CI/CD、基础设施即代码和部署安全性的改进 - 指导工程师并在团队中设定SRE最佳实践 所需知识、技能和能力: - 7年以上SRE、云平台工程或DevOps经验 - 具有Google Cloud Platform的丰富实践经验,包括: - GCP:GKE、Compute Engine、Cloud Storage、Pub/Sub(或同等) - 云监控和日志 - BigQuery - Dataflow - Datastream - IAM和网络 - Composer/Airflow - Kubernetes:部署、扩展、可靠性模式 - CI/CD:GitHub Actions、GitLab CI或类似 - 可观测性:GCP云监控、日志 - 支持云原生数据系统(批处理和流处理)的经验 - 使用Python进行自动化、工具或服务的生产经验 - 基础设施即代码经验(强烈推荐Terraform) - 在24/7生产环境中操作系统的经验 最低资格 - 商业、信息技术、计算机科学或相关领域的学士学位 - 5年以上站点可靠性工程、云平台工程或DevOps经验 - 3年以上在Google Cloud Platform(GCP)上操作生产工作负载的经验 - 之前的技术领导经验(首席工程师、技术负责人或可靠性计划的所有者) - 能够理解和使用英语进行交流,以便员工能够用英语发出、接收和响应与安全和运营相关的指令 优先资格 - 石油和天然气行业知识 - 技术/数字行业知识