站点可靠性工程师 (SRE)

芝加哥 7天前全职 网络
面议
至少拥有10年以上为大型企业定义和实施监控解决方案的经验,包括警报、遥测和仪器仪表,适用于本地和云平台。 站点可靠性工程师将在云平台(Azure)上构建可观察性和弹性能力中发挥关键作用。SRE的职责包括: 构建和配置基础设施监控和应用性能管理所需的警报、跟踪、遥测和仪器仪表。 角色涉及实施仪表板,以在各个层面(工程团队、产品组合、高级管理层)监控和共享可观察性。 支持弹性工程(应用程序和基础设施弹性)以满足可用性要求。 与开发工程师、云工程师、产品团队和支持工程师合作,收集需求,实施和发展可观察性和弹性解决方案。 关键技能: 对可观察性和应用性能监控最佳实践、云平台的KPI/指标有广泛的了解 监控工具经验 - Dynatrace和Splunk 具有使用Dynatrace和Splunk进行事件解决(随叫随到支持)、应用错误和性能故障排除的经验,以协助应用团队进行根本原因分析 具有SLO和错误预算的工作经验,了解SLA/SLI/SLO 精通Splunk查询语言 具有为基于容器的工作负载(Java / Spring boot优先)、数据库、Kafka和Kubernetes构建监控解决方案的经验 具有弹性工程和实施高可用性解决方案的经验 具有使用Dynatrace和Splunk创建监控仪表板的经验 能够在快节奏和敏捷的环境中工作 SRE成熟度等级3(期望) DevOps可观察性 DORA指标可见。 部署频率、平均恢复时间(MTTR)、周期时间、变更失败率 IaC(基础设施即代码) 平台利用IaC。 测试/发布自动化 单元测试 在真空中测试 集成测试 负载测试结果根据SLO进行验证。 测试作为CI/CD管道的一部分运行。 自动回滚 服务恢复的业务连续性计划 容量规划审查 显示服务的饱和度与负载测试和生产峰值负载的比较。 产品管理(安全) 安全扫描 漏洞管理的文件化程序 集成到CI/CD管道中(与安全合作)