高级 SRE 工程师(远程 - 西海岸,太平洋标准时间工作时间)

蒙特利尔 7天前全职 网络
面议
概述 该高级客户导向的可观测性角色支持一家位于华盛顿的主要航空公司。工程师与客户的内部工程团队合作,识别系统、痛点和可靠性差距,然后设计和实施可观测性解决方案——仪表板、指标、SLI/SLO、警报策略和可见性改进。该角色还帮助定义企业SRE标准,并指导团队采用一致的最佳实践。 - 时长:12个月以上(不符合C2C资格) - 地点:远程(太平洋时间,不在加利福尼亚) - 费率:$50 - $62/小时,视经验而定 必须能够在没有赞助的情况下以W2身份工作 职责 日常工作 - 与内部团队会面以收集技术和操作需求 - 在Grafana、Sumo、AppDynamics和New Relic等工具中设计和实施定制的可观测性解决方案 - 为产品团队和高管可见性构建更深入的仪表板 - 定义和维护SLO、SLI和可靠性报告模式 - 识别监控或警报中的差距并领导解决方案 - 与客户的中心辐射模型中的嵌入式SRE合作 - 影响工具整合、标准和企业可靠性策略 - 该角色充当可观测性和可靠性实践的内部顾问和技术领导者。 核心职责: - 为内部团队和领导层在Grafana中构建仪表板。 - 维护可观测性工具并处理传入请求。 - 连接跨工具的数据源(Grafana、Sumo、AppD、New Relic)。 - 协助团队设置警报、日志结构和基本SLO。 - 将新应用程序集成到监控工具中。 - 为团队入职创建可重复的模式和模板。 - 使用Ansible自动化平台构建操作手册和小型自动化任务。 资格 - 3年以上实际可观测性经验(需要Grafana及支持工具) - 2年以上实践SRE基础知识(SLO/SLI、事件模式、分布式系统、可靠性工程) - 5年以上SRE、DevOps、云、系统、平台或监控工程角色的总经验 - 与应用团队合作以收集需求并交付解决方案的经验 - 能够清晰地向非SRE合作伙伴解释复杂概念的能力 必备技能 - 高级Grafana专业知识——设计复杂仪表板、构建数据转换、定义SLO/SLI并整合多个数据源。 - SRE原则和系统思维——对服务健康、SLO/SLI、错误预算、事件模式、分布式系统和可靠性基础知识的深入了解。 - 跨团队协作和需求收集——与团队合作以了解需求,将其转化为可观测性解决方案,并交付仪表板、警报和可靠性模式。 优先条件 - 有ThousandEyes、AppDynamics、New Relic或Sumo Logic经验 - 熟悉Azure、Kubernetes、CI和CD管道或软件交付平台 - 有大规模贡献可观测性标准的经验 - 在高正常运行时间行业如旅行、金融、电信或基于云的SaaS方面的背景 我们是一个平等机会的雇主,并重视公司内的多样性。我们不因种族、宗教、肤色、国籍、性别、性取向、年龄、婚姻状况、退伍军人身份、残疾状况或其他非功绩因素而歧视。我们致力于为所有员工创造一个多元化和包容的环境。 #J-18808-Ljbffr