我们正在寻找一位首席站点可靠性工程师，要求具备强大的零售背景，并且必须有使用 New Relic 的经验。请查看以下职位描述：职位描述： • 作为高级/首席站点可靠性工程师，您将负责高流量零售平台的可靠性、性能和可扩展性。 • 此角色需要在云原生环境中有深厚的经验，具备强大的可观察性思维（必须使用 New Relic），并能够领导与客户团队的事件响应和系统设计讨论。 • 您将作为技术领导者和导师，与工程、DevOps 和产品团队合作，为实时零售运营构建弹性系统，包括 Shopify 等电子商务平台（加分项）。主要职责： • 领导大规模零售系统的可靠性和可观察性策略。 • 使用 New Relic 架构和实施强大的监控——仪表板、SLO、警报、合成监控等。 • 指导事件响应流程并进行无责备的事后分析。 • 负责面向客户的应用和服务的可用性、性能和可扩展性。 • 使用 Kubernetes、Docker 和基础设施即代码工具（Terraform、CloudFormation）设计高可用性基础设施。 • 与客户工程团队合作，优化零售高峰期间的系统行为（例如，黑色星期五）。 • 指导初级 SRE 并设定操作最佳实践。 • 与开发和 QA 合作，将性能测试和故障注入集成到 CI/CD 工作流中。 • 倡导 DevOps/SRE 的最佳实践（向左转监控、混沌测试、性能预算）。要求资格： • 8 年以上站点可靠性工程、DevOps 或平台工程经验。 • 精通 New Relic——必须能够架构端到端的可观察性。 • 具有支持大规模零售或电子商务平台的经验。 • 强大的编码/脚本能力（Python、Bash 或 Go）。 • 拥有 AWS/GCP/Azure 和 Kubernetes 的生产经验。 • 深刻理解基础设施自动化（Terraform、Ansible 或 Pulumi）。 • 强大的沟通能力、客户面对面能力和领导能力。加分项： • 具有 Shopify 或无头电商堆栈的经验。 • 具有领导分布式团队的经验。 • 熟悉流量密集型零售事件和策略（缓存、自动扩展、边缘优化）。 • 有将监控集成到微服务、API 和前端应用中的经验。

首席站点可靠性工程师

BayOne Solutions