SRE将专注于通过任务自动化、可观测性、事件响应和问题消除来确保系统的可靠性和弹性，同时也参与生产端的操作和随时待命的轮值。主要职责 • 通过优化和自动化的操作任务，提升系统的可用性和性能。 • 协作开发操作工具、问题管理和架构评审。 • 在Linux环境中排查ServiceNow问题和偶尔的本地能力。 • 探索和实施可观测性实践，包括指标、日志、追踪和警报，以衡量产品的可靠性。 • 与全球团队成员一起参与随时待命的轮值，确保在约定时间内的响应能力。 • 贡献于ServiceNow实例及相关依赖的文档编写。 • 识别和优先处理影响客户满意度或操作效率的技术债务。 • 对政策和程序提供反馈，以增强SRE和操作实践，提高安全性和效率。所需资格 • 7年以上软件开发、基础设施或系统管理经验。 • 精通至少一种编程语言（如Python）或具备ServiceNow管理/开发经验。 • 良好的口头和书面沟通能力。 • 证明能够与同事建立有效关系并协作成功交付。 • 可靠的团队合作者，表现出对客户服务的承诺。 • 能够在技术紧急情况如停机时做出适当响应。 • 愿意参与随时待命的轮值。期望资格 • ServiceNow管理或开发经验（可通过在职培训获得）。 • 具备SQL数据库、API和网络基础设施经验。 • 熟悉聊天机器人技术和随时待命升级事件管理。 • 对可靠性、弹性原则和SRE实践有浓厚兴趣。工作条件 • 跨多个时区的全球团队协作。 • 生产端操作职责，偶尔需要随时待命。 • 快节奏的环境，需要适应性、解决问题能力和持续改进的心态。 #J-18808-Ljbffr

站点可靠性工程师- AWADC5704026

Compunnel Inc.