高级站点可靠性工程师 (SRE)
地点:芝加哥,伊利诺伊州(现场)
类型:合同
角色概述:
我们正在寻找一位具有丰富AWS基础设施、自动化、可观测性和生产支持经验的高级站点可靠性工程师(SRE)。理想的候选人将结合DevOps和SRE实践,确保我们的系统保持弹性、可扩展性和成本效益。此角色需要深厚的技术实践、主动解决问题的能力,以及在开发团队中嵌入可靠性工程的能力。
主要职责:
- 设计、实施和维护安全、可扩展和高可用的AWS基础设施。
- 使用Terraform和Harness构建和增强CI/CD管道和基础设施即代码(IaC)解决方案。
- 使用Dynatrace和Datadog等工具实施和管理监控、日志记录、警报和分布式追踪。
- 解决生产事故,进行无责后期分析,并加强事故响应流程。
- 优化系统性能、成本效率和可靠性。
- 推动混沌工程和弹性测试计划。
- 与开发人员合作实施SLA、SLO和错误预算。
- 指导初级SRE并在组织内推广DevOps/SRE最佳实践。
所需技能和经验:
- 在DevOps/SRE角色中有8年以上经验,重点关注AWS。
- 在AWS服务和基础设施自动化方面有丰富的专业知识。
- 在Terraform、Harness或类似IaC/CICD工具方面有丰富的实践经验。
- 对监控和可观测性平台(Dynatrace、Datadog、Prometheus、Grafana等)有高级知识。
- 深刻理解事故响应、灾难恢复和可靠性框架。
- 具备Python、Bash或类似语言的扎实编码/脚本技能。
- 有混沌工程、弹性测试和容错设计经验。
- 具备强大的协作、领导和指导能力。
优先资格:
- 熟悉Kubernetes、Docker和容器编排。
- 有FinOps实践(云成本优化)经验。
- 具备分布式系统、可扩展性和容错架构背景。