首席站点可靠性工程师

旧金山 5个月前合同 网络
573 - 644 / 时
我们正在寻找一位首席站点可靠性工程师,要求具备强大的零售背景,并且必须有使用 New Relic 的经验。请查看以下职位描述: 职位描述: • 作为高级/首席站点可靠性工程师,您将负责高流量零售平台的可靠性、性能和可扩展性。 • 此角色需要在云原生环境中有深厚的经验,具备强大的可观察性思维(必须使用 New Relic),并能够领导与客户团队的事件响应和系统设计讨论。 • 您将作为技术领导者和导师,与工程、DevOps 和产品团队合作,为实时零售运营构建弹性系统,包括 Shopify 等电子商务平台(加分项)。 主要职责: • 领导大规模零售系统的可靠性和可观察性策略。 • 使用 New Relic 架构和实施强大的监控——仪表板、SLO、警报、合成监控等。 • 指导事件响应流程并进行无责备的事后分析。 • 负责面向客户的应用和服务的可用性、性能和可扩展性。 • 使用 Kubernetes、Docker 和基础设施即代码工具(Terraform、CloudFormation)设计高可用性基础设施。 • 与客户工程团队合作,优化零售高峰期间的系统行为(例如,黑色星期五)。 • 指导初级 SRE 并设定操作最佳实践。 • 与开发和 QA 合作,将性能测试和故障注入集成到 CI/CD 工作流中。 • 倡导 DevOps/SRE 的最佳实践(向左转监控、混沌测试、性能预算)。 要求资格: • 8 年以上站点可靠性工程、DevOps 或平台工程经验。 • 精通 New Relic——必须能够架构端到端的可观察性。 • 具有支持大规模零售或电子商务平台的经验。 • 强大的编码/脚本能力(Python、Bash 或 Go)。 • 拥有 AWS/GCP/Azure 和 Kubernetes 的生产经验。 • 深刻理解基础设施自动化(Terraform、Ansible 或 Pulumi)。 • 强大的沟通能力、客户面对面能力和领导能力。 加分项: • 具有 Shopify 或无头电商堆栈的经验。 • 具有领导分布式团队的经验。 • 熟悉流量密集型零售事件和策略(缓存、自动扩展、边缘优化)。 • 有将监控集成到微服务、API 和前端应用中的经验。