• 主动监控工作队列。
• 执行操作任务,及时解决所有事件/请求,并在约定的服务水平协议 (SLA) 内完成。
• 更新工单,记录已执行的解决任务。
• 在事件发生前或发生时识别、调查、分析问题和错误,并及时记录所有此类事件。
• 捕获所有所需和相关信息以便立即解决。
• 为所有事件、请求提供二级支持,并识别事件和问题的根本原因。
• 与其他团队和客户沟通以提供支持。
• 在变更记录中清晰标识风险和减轻计划后执行变更。
• 遵循交接流程,突出任何关键工单,并交接下一班次即将进行的关键任务。
• 如有需要,将所有工单升级以寻求卓越中心 (CoE) 和其他团队的关注,并继续升级至管理层。
• 与自动化团队合作以优化工作效率和自动化常规任务。
• 能够与各种其他解决小组(内部和外部)如服务提供商、技术支持中心 (TAC) 等合作。
• 在影响客户服务之前识别问题和错误。
• 为 L1 安全工程师提供帮助,以便更好地进行初步分类或故障排除。
• 领导和管理所有初始客户对操作问题的升级。
• 通过记录所有变更请求的完整细节,为变更管理过程作出贡献,包括标准和非标准变更、补丁及其他配置项的变更。
• 确保所有变更都经过适当的变更批准。
• 计划和执行已批准的维护活动。
• 审核和分析事件和请求工单的质量,并建议改进,更新知识文档。
• 生成趋势分析报告,以识别自动化任务,从而减少工单数量并优化工作效率。
• 可能在必要时对项目工作提供支持或贡献。
• 可能参与实施和交付灾难恢复功能及测试。
• 执行任何其他相关任务。
所需经验:
• 具备 AWS 和 Azure 的云基础设施和 DevOps 的实践经验。
• 精通基础设施自动化、脚本编写(PowerShell、Python、Bash)和 CI/CD 工具。
• 深入理解云环境中的网络、DNS、VPN、负载均衡和防火墙。
• 具备容器平台(Docker、Kubernetes、AKS、EKS)的实践经验。
• 具备强大的问题解决能力,能够独立排除复杂问题。