云智能集团 SRE 团队的使命
云智能集团 SRE(站点可靠性工程)团队的使命是确保生产环境的稳定性、企业级云数据的可靠性以及云智能集团的服务连续性。我们面临的最大挑战是为基于云的客户保证业务操作不间断,并实现超过 99.99% 的可用性。
云智能集团 SRE 团队的目标
我们的目标是建立一个系统的稳定性保障框架,整合技术和管理,内容包括但不限于:
1. 制定稳定性标准和指标
• 涵盖强大的架构、研发质量、发布管理、生产环境操作等。
• 将稳定性嵌入阿里云的技术研发体系。
2. 推动重大稳定性治理活动
• 包括全栈灾难恢复、分阶段变更推出、1-5-10 紧急响应机制(1 分钟警报、5 分钟分类、10 分钟恢复)和财务损失预防等举措。
• 快速而持续地缓解稳定性风险。
3. 建立以稳定性为重点的技术平台
• 提供无人值守的变更管理、红蓝队演练、紧急协作、风险和漏洞检查、监控/警报等平台能力。
• 通过自动化和工具简化稳定性工程。
4. 执行生产事故管理
• 紧急响应、跨团队协调、根本原因分析、快速恢复和事后评审,以推动系统性改进。
5. 确保大型客户事件的稳定性
• 为关键活动(如奥运会和客户业务高峰期)提供技术和运营支持。
6. 值班责任
• 在服务水平协议(SLA)时间范围内响应客户问题,主动解决问题并提升客户体验。
云智能集团 SRE 团队的目标是建立一个系统的稳定性保障框架,整合技术和管理,内容包括但不限于:
1. 应用程序、数据库和中间件的日常操作和维护,以及故障排除和解答客户咨询;
2. 与研发合作,根据客户业务需求在高峰期制定关键支持计划,包括待命期的准备、关键期的值班支持以及待命后的评审;
云智能集团承接阿里集团在高科技领域的核心技术和业务创新,致力于为数字经济时代构建企业级云计算服务平台。它在全球范围内提供领先的技术解决方案和服务,具有庞大的业务规模和复杂的企业级云计算服务特点。
云智能集团 SRE 团队的使命是确保生产环境的稳定性以及企业级云计算数据的可靠性和服务连续性。如何保证基于云的客户业务不间断运行并实现超过 99.99% 的可用性,是我们面临的重要挑战。
职责
云智能集团 SRE 团队的目标是建立一个系统的稳定性保障框架,整合技术和管理,内容包括但不限于:
1. 应用程序、数据库和中间件的日常操作和维护,以及故障排除和解答客户咨询;
2. 与研发合作,根据客户业务需求在高峰期制定关键支持计划,包括待命期的准备、关键期的值班支持以及待命后的评审;
该职位的薪资范围预计在入职时为每年 104,400 美元至 171,000 美元。然而,提供的基本薪资可能因多个个体化因素而有所不同,包括市场位置、与工作相关的知识、技能和经验。
如果被录用,员工将处于“随时可辞职的职位”,公司保留随时修改基本薪资(以及任何其他酌情支付或补偿计划)的权利,包括因个人表现、公司或个人部门/团队表现以及市场因素而进行的调整。