SRE 工程师 - Robert Walters招聘

您将成为一个紧密合作的团队的一员，该团队重视知识分享、持续学习和职业成长。通过获得行业认可的认证、强有力的指导和技术开发项目，您将有机会在从事尖端的 AWS 原生数据库和自动化项目的同时推进您的职业生涯。工作地点：伦敦作为一名驻伦敦的站点可靠性工程师，您将在支持多种 AWS 原生数据库（包括 RDS、Aurora、Neptune 以及 CockroachDB）方面发挥重要作用。您的日常职责将包括设计强大的软件解决方案，以提高系统性能，同时确保关键应用程序的高可用性。您将与产品工程团队紧密合作，改进可观察性工具和遥测系统，推动减少人工干预的自动化计划。通过参与事件管理流程——促进与利益相关者的透明沟通并领导无责备的事后分析——您将有助于培养持续改进的文化。您对通过严格的变更管理实践保持操作稳定性的承诺在规划和执行灾难恢复测试时至关重要。该角色还提供与其他 SRE 合作进行基础设施简化项目的机会，确保最佳实践在团队之间共享。在这个职位上取得成功不仅需要技术精通，还需要出色的人际交往能力，以便在重视团队合作、知识分享和相互支持的环境中蓬勃发展。 • 设计、编码、测试和交付旨在通过在所有云数据库产品中采用 DevOps 原则来改善现有系统的软件增强功能。 • 高效解决复杂事件，与各级利益相关者进行有效沟通，促进无责备的事后分析，并识别纠正措施以确保永久解决。 • 在整个开发生命周期中积极参与，以确保在所有支持的平台上保持可靠性、可扩展性和操作稳定性。 • 定义、创建和监控应用分析，以支持改进服务水平目标并推动基于数据的决策。 • 确保严格遵守变更管理发布流程，同时加速这些工作流的自动化计划。 • 通过安排和执行灾难恢复测试来领导弹性管理计划，尽可能自动化这些活动。 • 根据业务需求，在标准工作时间以外提供生产事件的值班支持。 • 通过支持基础设施中的持续现代化工作，贡献于增强产品的可观察性和遥测。 • 与工程团队密切合作，集思广益，简化基础设施管理并优化 SRE 实践。您带来的技能： • 精通 Python 或 Unix Shell 脚本，并具备扎实的 SQL 技能，使您能够在复杂环境中高效自动化任务。 • 对开发工具（如源代码控制软件（例如 Git）、自动构建系统、自动测试框架和 JIRA）的良好理解，确保跨学科团队的顺利协作。 • 对基础设施即代码概念的熟悉使您能够有效贡献于使用 Terraform 或 Puppet 等工具的自动化目标。 • 在构建自动化管道、测试驱动开发方法、持续集成（CI）和持续交付（CD）实践方面的经验受到高度重视。 • 具有管理关系型（例如 RDS/Aurora）和非关系型数据库的实践经验，使您能够支持多样的数据存储需求。 • 以前接触过站点可靠性工程概念（包括服务水平目标（SLO）、服务水平协议（SLA）、服务水平指标（SLI）和错误预算）将帮助您在此角色中表现出色。 • 至少对一个主要公共云服务提供商（优先考虑 AWS；也考虑 Google Cloud 或 Azure）的实际经验或熟悉程度对成功至关重要。 • 使用声明性框架管理大规模服务器配置的经验，有助于平滑扩展操作。 • 了解如何安全地利用 API 以及身份验证机制和数据结构，增强您无缝集成系统的能力。 • 理解微服务架构、REST API 设计/开发原则、Docker/Kubernetes 容器化技术以及 CI/CD 集成是有益的。 Robert Walters Operations Limited 是一家就业公司和招聘机构，欢迎所有候选人申请。