我们正在寻找一位高素质的高级/员工站点可靠性工程师(SRE),加入我们位于加利福尼亚州圣地亚哥的充满活力的团队。在这个角色中,您将在解决运营挑战和为生产中的关键业务应用程序提供必要支持方面发挥重要作用。我们的主要关注点是确保所有生产服务的可靠性,为开发团队提供可靠性测量,以进行明智的决策。
主要职责:
• 与团队合作,为Kubernetes和云环境架构、工程和优化产品。
• 开发和增强持续集成/持续部署(CI/CD)流水线、发布管理流程和相关工具。
• 维护可观察性工具,倡导标准化,并促进开发团队的最佳实践。
• 创建工具、自动化和框架,提高系统的稳定性和可靠性。
• 领导倡议,优先考虑和促进可靠性,实现正常运行时间目标,并指导同事进行SRE最佳实践。
• 为生产中的关键业务应用程序提供随时支持。
• 积极贡献和促进SRE公会,促进成员之间的知识共享和合作。
• 进行彻底的生产可用性审查,与团队合作建立服务水平目标(SLOs),确保提供高质量、可靠的服务。
• 为项目计划、工程文档和开发操作优秀的标准操作规程和运行手册做出贡献,重点关注自动化。
经验和资格:
• 在SRE或平台工程师角色中支持24x7生产环境的经验5年以上。
• 在AWS或类似云资源管理/支持方面在生产环境中有3年以上的经验。
• 在Kubernetes管理、容器化工具(如Docker)和Helm方面具有很强的专业知识,遵循GitOps等行业最佳实践。
• 精通Python、Ruby、Bash、Node.js和/或Go等脚本语言。
• 具有分布式跟踪经验,并精通一个或多个监控解决方案:Prometheus、Elasticsearch、Datadog和Cloudwatch。
• 展示了对当前软件开发生命周期(SDLC)概念和最佳实践、CI/CD流水线和测试驱动开发的熟练掌握。
• 出色的问题解决能力、运营专业知识和对自动化的热情。