云平台 SRE

旧金山 3个月前全职 网络
74.0万 - 121.7万 / 年
云智能集团 SRE 团队的使命 云智能集团 SRE(站点可靠性工程)团队的使命是确保生产环境的稳定性、企业级云数据的可靠性以及云智能集团的服务连续性。我们面临的最大挑战是保证云端客户业务的连续运营,并实现超过 99.99% 的可用性。 云智能集团 SRE 团队的目标 我们的目标是建立一个系统化的稳定性保障框架,整合技术与管理,包括但不限于: 1. 制定稳定性标准和指标 • 覆盖健壮的架构、研发质量、发布管理、生产环境操作等。 • 将稳定性嵌入阿里云的技术研发系统中。 2. 推动重大稳定性治理活动 • 包括全栈灾难恢复、分阶段变更发布、1-5-10 应急响应机制(1 分钟警报,5 分钟分诊,10 分钟恢复)和防止财务损失的措施。 • 快速、持续地减轻稳定性风险。 3. 构建以稳定性为重点的技术平台 • 提供无人值守变更管理、红蓝队演练、应急协作、风险和漏洞检查、监控/警报等平台能力。 • 通过自动化和工具简化稳定性工程。 4. 执行生产事件管理 • 应急响应、跨团队协调、根本原因分析、快速恢复和事后评审,以推动系统性改进。 5. 确保大型客户活动的稳定性 • 为奥运会和客户业务高峰期等关键活动提供技术和运营支持。 6. 值班责任 • 在服务水平协议(SLA)时间框架内响应客户问题,主动解决问题,提高客户体验。 云智能集团 SRE 团队的目标是建立一个系统化的稳定性保障框架,整合技术与管理,包括但不限于: 1. 应用程序、数据库和中间件的日常操作和维护,以及故障排除和客户咨询的解答; 2. 与研发合作,根据客户业务需求在高峰期制定关键支持计划,包括待命期间的准备、关键期间的值班支持和待命后的评审; 云智能集团承担阿里集团在高科技领域的核心技术和业务创新,致力于为数字经济时代构建企业级云计算服务平台。它提供全球领先的技术解决方案和服务,具有庞大的业务规模和复杂的企业级云计算服务特点。 云智能集团 SRE 团队的使命是确保生产环境的稳定性和企业级云计算数据的可靠性及服务连续性。如何保证云端客户业务的不断运营并实现超过 99.99% 的可用性是我们面临的一项重大挑战。 职责 云智能集团 SRE 团队的目标是建立一个系统化的稳定性保障框架,整合技术与管理,包括但不限于: 1. 应用程序、数据库和中间件的日常操作和维护,以及故障排除和客户咨询的解答; 2. 与研发合作,根据客户业务需求在高峰期制定关键支持计划,包括待命期间的准备、关键期间的值班支持和待命后的评审; 该职位的薪酬范围在入职时预计为每年 104,400 美元至 171,000 美元。然而,提供的基本薪酬可能会因多种个体化因素而有所不同,包括市场地点、与工作相关的知识、技能和经验。 如果被录用,员工将处于“随意雇佣”状态,公司保留随时修改基本薪资(以及任何其他酌情支付或补偿计划)的权利,包括与个人表现、公司或个人部门/团队表现以及市场因素相关的原因。