高级站点可靠性工程师 (SRE) 地点：芝加哥，伊利诺伊州（现场）类型：合同角色概述：我们正在寻找一位具有丰富AWS基础设施、自动化、可观测性和生产支持经验的高级站点可靠性工程师（SRE）。理想的候选人将结合DevOps和SRE实践，确保我们的系统保持弹性、可扩展性和成本效益。此角色需要深厚的技术实践、主动解决问题的能力，以及在开发团队中嵌入可靠性工程的能力。主要职责： - 设计、实施和维护安全、可扩展和高可用的AWS基础设施。 - 使用Terraform和Harness构建和增强CI/CD管道和基础设施即代码（IaC）解决方案。 - 使用Dynatrace和Datadog等工具实施和管理监控、日志记录、警报和分布式追踪。 - 解决生产事故，进行无责后期分析，并加强事故响应流程。 - 优化系统性能、成本效率和可靠性。 - 推动混沌工程和弹性测试计划。 - 与开发人员合作实施SLA、SLO和错误预算。 - 指导初级SRE并在组织内推广DevOps/SRE最佳实践。所需技能和经验： - 在DevOps/SRE角色中有8年以上经验，重点关注AWS。 - 在AWS服务和基础设施自动化方面有丰富的专业知识。 - 在Terraform、Harness或类似IaC/CICD工具方面有丰富的实践经验。 - 对监控和可观测性平台（Dynatrace、Datadog、Prometheus、Grafana等）有高级知识。 - 深刻理解事故响应、灾难恢复和可靠性框架。 - 具备Python、Bash或类似语言的扎实编码/脚本技能。 - 有混沌工程、弹性测试和容错设计经验。 - 具备强大的协作、领导和指导能力。优先资格： - 熟悉Kubernetes、Docker和容器编排。 - 有FinOps实践（云成本优化）经验。 - 具备分布式系统、可扩展性和容错架构背景。

高级站点可靠性工程师 (SRE)

Purple Drive Technologies