至少拥有10年以上为大型企业定义和实施监控解决方案的经验,包括警报、遥测和仪器仪表,适用于本地和云平台。
站点可靠性工程师将在云平台(Azure)上构建可观察性和弹性能力中发挥关键作用。SRE的职责包括:
构建和配置基础设施监控和应用性能管理所需的警报、跟踪、遥测和仪器仪表。
角色涉及实施仪表板,以在各个层面(工程团队、产品组合、高级管理层)监控和共享可观察性。
支持弹性工程(应用程序和基础设施弹性)以满足可用性要求。
与开发工程师、云工程师、产品团队和支持工程师合作,收集需求,实施和发展可观察性和弹性解决方案。
关键技能:
对可观察性和应用性能监控最佳实践、云平台的KPI/指标有广泛的了解
监控工具经验 - Dynatrace和Splunk
具有使用Dynatrace和Splunk进行事件解决(随叫随到支持)、应用错误和性能故障排除的经验,以协助应用团队进行根本原因分析
具有SLO和错误预算的工作经验,了解SLA/SLI/SLO
精通Splunk查询语言
具有为基于容器的工作负载(Java / Spring boot优先)、数据库、Kafka和Kubernetes构建监控解决方案的经验
具有弹性工程和实施高可用性解决方案的经验
具有使用Dynatrace和Splunk创建监控仪表板的经验
能够在快节奏和敏捷的环境中工作
SRE成熟度等级3(期望)
DevOps可观察性
DORA指标可见。
部署频率、平均恢复时间(MTTR)、周期时间、变更失败率
IaC(基础设施即代码)
平台利用IaC。
测试/发布自动化
单元测试
在真空中测试
集成测试
负载测试结果根据SLO进行验证。
测试作为CI/CD管道的一部分运行。
自动回滚
服务恢复的业务连续性计划
容量规划审查
显示服务的饱和度与负载测试和生产峰值负载的比较。
产品管理(安全)
安全扫描
漏洞管理的文件化程序
集成到CI/CD管道中(与安全合作)