高级站点可靠性工程师 (SRE)

芝加哥 2天前全职 网络
面议
高级站点可靠性工程师 (SRE) 地点:芝加哥,伊利诺伊州(现场) 类型:合同 角色概述: 我们正在寻找一位具有丰富AWS基础设施、自动化、可观测性和生产支持经验的高级站点可靠性工程师(SRE)。理想的候选人将结合DevOps和SRE实践,确保我们的系统保持弹性、可扩展性和成本效益。此角色需要深厚的技术实践、主动解决问题的能力,以及在开发团队中嵌入可靠性工程的能力。 主要职责: - 设计、实施和维护安全、可扩展和高可用的AWS基础设施。 - 使用Terraform和Harness构建和增强CI/CD管道和基础设施即代码(IaC)解决方案。 - 使用Dynatrace和Datadog等工具实施和管理监控、日志记录、警报和分布式追踪。 - 解决生产事故,进行无责后期分析,并加强事故响应流程。 - 优化系统性能、成本效率和可靠性。 - 推动混沌工程和弹性测试计划。 - 与开发人员合作实施SLA、SLO和错误预算。 - 指导初级SRE并在组织内推广DevOps/SRE最佳实践。 所需技能和经验: - 在DevOps/SRE角色中有8年以上经验,重点关注AWS。 - 在AWS服务和基础设施自动化方面有丰富的专业知识。 - 在Terraform、Harness或类似IaC/CICD工具方面有丰富的实践经验。 - 对监控和可观测性平台(Dynatrace、Datadog、Prometheus、Grafana等)有高级知识。 - 深刻理解事故响应、灾难恢复和可靠性框架。 - 具备Python、Bash或类似语言的扎实编码/脚本技能。 - 有混沌工程、弹性测试和容错设计经验。 - 具备强大的协作、领导和指导能力。 优先资格: - 熟悉Kubernetes、Docker和容器编排。 - 有FinOps实践(云成本优化)经验。 - 具备分布式系统、可扩展性和容错架构背景。