SRE将专注于通过任务自动化、可观测性、事件响应和问题消除来确保系统的可靠性和弹性,同时也参与生产端的操作和随时待命的轮值。
主要职责
• 通过优化和自动化的操作任务,提升系统的可用性和性能。
• 协作开发操作工具、问题管理和架构评审。
• 在Linux环境中排查ServiceNow问题和偶尔的本地能力。
• 探索和实施可观测性实践,包括指标、日志、追踪和警报,以衡量产品的可靠性。
• 与全球团队成员一起参与随时待命的轮值,确保在约定时间内的响应能力。
• 贡献于ServiceNow实例及相关依赖的文档编写。
• 识别和优先处理影响客户满意度或操作效率的技术债务。
• 对政策和程序提供反馈,以增强SRE和操作实践,提高安全性和效率。
所需资格
• 7年以上软件开发、基础设施或系统管理经验。
• 精通至少一种编程语言(如Python)或具备ServiceNow管理/开发经验。
• 良好的口头和书面沟通能力。
• 证明能够与同事建立有效关系并协作成功交付。
• 可靠的团队合作者,表现出对客户服务的承诺。
• 能够在技术紧急情况如停机时做出适当响应。
• 愿意参与随时待命的轮值。
期望资格
• ServiceNow管理或开发经验(可通过在职培训获得)。
• 具备SQL数据库、API和网络基础设施经验。
• 熟悉聊天机器人技术和随时待命升级事件管理。
• 对可靠性、弹性原则和SRE实践有浓厚兴趣。
工作条件
• 跨多个时区的全球团队协作。
• 生产端操作职责,偶尔需要随时待命。
• 快节奏的环境,需要适应性、解决问题能力和持续改进的心态。
#J-18808-Ljbffr