云服务运营负责人将是我们云共享服务团队中的关键领导者,负责我们多云(主要是 AWS 和 Azure)环境的日常运营卓越、稳定性和持续改进。此角色需要具备强大的云运营技术专长、对 IT 服务管理(ITSM)最佳实践的深刻理解,以及管理云运营工程师团队的成熟领导能力。成功的候选人将确保我们的云服务高效、安全地交付,并符合商定的服务水平协议(SLA)。
主要职责:
• 运营领导:
• 领导、指导和发展云运营工程师团队,培养持续学习、协作和高绩效的文化。
• 监督我们的多云环境(AWS、Azure 及其他适用环境)的日常运营,确保所有云服务的高可用性、性能和可靠性。
• 实施和执行云基础设施和平台管理的最佳实践、标准和程序。
• 管理值班轮换,确保有效的事件响应和问题解决。
• 服务管理与性能:
• 定义、监控和报告所有云服务的关键绩效指标(KPI)和服务水平协议(SLA)。
• 主动识别和解决潜在的运营问题、性能瓶颈和容量限制。
• 推动持续改进举措,以优化云运营、减少人工工作并提升服务交付。
• 与内部客户合作,了解他们不断变化的需求,并确保我们的云服务满足其要求。
• 事件、问题和变更管理:
• 建立和完善健全的事件管理流程,确保在故障期间及时解决和有效沟通。
• 实施和管理问题管理,以识别事件的根本原因并防止重复发生。
• 监督云基础设施和服务的变更管理流程,确保适当的规划、测试和执行,以最小化风险。
• 进行事件后评审(PIR)并实施纠正措施。
• 监控、警报和自动化:
• 确保所有云资源和服务都有全面的监控和警报系统。
• 推动使用基础设施即代码(IaC)工具(例如 Terraform、CloudFormation、ARM 模板)和脚本(例如 Python、PowerShell)的自动化举措,以简化操作任务并提高效率。
• 开发和维护运行手册和操作文档。
• 成本优化与治理:
• 监控和优化云支出,识别在不影响性能或可靠性的情况下的节省机会。
• 确保遵守云治理政策、安全标准和合规要求(例如,ISO 27001、SOC 2、行业特定法规)。
• 与财务和采购团队密切合作,管理云支出。
• 合作与利益相关者管理:
• 与架构、工程、安全和开发团队密切合作,确保云服务的无缝部署和运营。
• 与内部利益相关者有效沟通,定期提供运营状态、事件和改进举措的更新。
• 作为组织内云运营的主题专家。
资格要求:
• 教育背景:计算机科学、信息技术、工程或相关领域的学士学位;或具有同等的实践经验。
• 经验:
• 5 年以上云运营的渐进经验,其中至少 3 年专注于 AWS 和 Azure 的专职云运营或 SRE 角色。
• 1 年以上领导和管理运营工程师团队的经验。
• 具有大规模、高可用和容错云环境的经验。
• 在云监控工具(例如,CloudWatch、Azure Monitor、Datadog、Prometheus、Grafana)方面有丰富经验。
• 在基础设施即代码(IaC)工具(例如 Terraform、CloudFormation、ARM 模板)方面具有强大的实践经验。
• 精通脚本语言(例如,Python、PowerShell、Bash)。
• 在云环境中对网络概念(TCP/IP、DNS、VPN、负载均衡、防火墙)有扎实的理解。
• 有容器化技术(例如,Docker、Kubernetes)经验者优先。
• 熟悉 CI/CD 管道和 DevOps 原则。
• 认证(优先):
• AWS 认证解决方案架构师 – 助理/专业
• 微软认证 Azure 管理员助理 / Azure 解决方案架构师专家
• ITIL 基础或更高级别认证
请参阅 U3 的求职者隐私声明,网址为 https://u3infotech.com/privacy-notice-job-applicants/。申请时,您自愿同意收集、使用和披露您的个人数据用于招聘/就业及相关目的。