站点可靠性工程师- AWADC5704026

蒙特利尔 25天前全职 网络
面议
SRE将专注于通过任务自动化、可观测性、事件响应和问题消除来确保系统的可靠性和弹性,同时也参与生产端的操作和随时待命的轮值。 主要职责 • 通过优化和自动化的操作任务,提升系统的可用性和性能。 • 协作开发操作工具、问题管理和架构评审。 • 在Linux环境中排查ServiceNow问题和偶尔的本地能力。 • 探索和实施可观测性实践,包括指标、日志、追踪和警报,以衡量产品的可靠性。 • 与全球团队成员一起参与随时待命的轮值,确保在约定时间内的响应能力。 • 贡献于ServiceNow实例及相关依赖的文档编写。 • 识别和优先处理影响客户满意度或操作效率的技术债务。 • 对政策和程序提供反馈,以增强SRE和操作实践,提高安全性和效率。 所需资格 • 7年以上软件开发、基础设施或系统管理经验。 • 精通至少一种编程语言(如Python)或具备ServiceNow管理/开发经验。 • 良好的口头和书面沟通能力。 • 证明能够与同事建立有效关系并协作成功交付。 • 可靠的团队合作者,表现出对客户服务的承诺。 • 能够在技术紧急情况如停机时做出适当响应。 • 愿意参与随时待命的轮值。 期望资格 • ServiceNow管理或开发经验(可通过在职培训获得)。 • 具备SQL数据库、API和网络基础设施经验。 • 熟悉聊天机器人技术和随时待命升级事件管理。 • 对可靠性、弹性原则和SRE实践有浓厚兴趣。 工作条件 • 跨多个时区的全球团队协作。 • 生产端操作职责,偶尔需要随时待命。 • 快节奏的环境,需要适应性、解决问题能力和持续改进的心态。 #J-18808-Ljbffr