至少拥有10年以上为大型企业定义和实施监控解决方案的经验，包括警报、遥测和仪器仪表，适用于本地和云平台。站点可靠性工程师将在云平台（Azure）上构建可观察性和弹性能力中发挥关键作用。SRE的职责包括：构建和配置基础设施监控和应用性能管理所需的警报、跟踪、遥测和仪器仪表。角色涉及实施仪表板，以在各个层面（工程团队、产品组合、高级管理层）监控和共享可观察性。支持弹性工程（应用程序和基础设施弹性）以满足可用性要求。与开发工程师、云工程师、产品团队和支持工程师合作，收集需求，实施和发展可观察性和弹性解决方案。关键技能：对可观察性和应用性能监控最佳实践、云平台的KPI/指标有广泛的了解监控工具经验 - Dynatrace和Splunk 具有使用Dynatrace和Splunk进行事件解决（随叫随到支持）、应用错误和性能故障排除的经验，以协助应用团队进行根本原因分析具有SLO和错误预算的工作经验，了解SLA/SLI/SLO 精通Splunk查询语言具有为基于容器的工作负载（Java / Spring boot优先）、数据库、Kafka和Kubernetes构建监控解决方案的经验具有弹性工程和实施高可用性解决方案的经验具有使用Dynatrace和Splunk创建监控仪表板的经验能够在快节奏和敏捷的环境中工作 SRE成熟度等级3（期望） DevOps可观察性 DORA指标可见。部署频率、平均恢复时间（MTTR）、周期时间、变更失败率 IaC（基础设施即代码）平台利用IaC。测试/发布自动化单元测试在真空中测试集成测试负载测试结果根据SLO进行验证。测试作为CI/CD管道的一部分运行。自动回滚服务恢复的业务连续性计划容量规划审查显示服务的饱和度与负载测试和生产峰值负载的比较。产品管理（安全）安全扫描漏洞管理的文件化程序集成到CI/CD管道中（与安全合作）

站点可靠性工程师 (SRE)

RELQ TECHNOLOGIES LLC