主动监控工作队列。
执行操作任务以及时解决所有事件/请求,并在商定的SLA内完成。
更新工单并记录已执行的解决任务。
在问题和错误发生前或发生时识别、调查、分析问题,并及时记录所有此类事件。
捕获所有必要和相关信息以便立即解决。
为所有事件和请求提供二级支持,并识别事件和问题的根本原因。
与其他团队和客户沟通以扩展支持。
执行变更时明确识别风险,并将缓解计划记录在变更记录中。
遵循交接班流程,突出需要关注的关键工单,并交接下一个班次需要执行的关键任务。
将所有工单升级以寻求CoE和其他团队的正确关注,如果需要,继续向管理层升级。
与自动化团队合作以优化工作量并自动化常规任务。
能够与其他解决小组(内部和外部)合作,如服务提供商、TAC等。
在问题和错误影响客户服务之前识别它们。
为L1安全工程师提供帮助,以更好地进行初步分类或故障排除。
领导和管理所有初始客户升级的操作问题。
通过记录所有变更请求(包括标准和非标准的完整详细信息,如补丁和任何其他配置项的变更)来贡献变更管理过程。
确保所有变更都在适当的变更批准下进行。
计划并执行已批准的维护活动。
审核和分析事件和请求工单的质量,并通过更新知识文章来推荐改进。
生成趋势分析报告,以识别自动化任务,从而减少工单并优化工作量。
根据需要可能也会参与/支持项目工作。
可能会参与实施和交付灾难恢复功能和测试。执行任何其他相关任务。
所需经验:
熟悉Windows技术,如域服务、SQL等,不限于此列表。
面向SRE并专注。
熟悉AWS管理、Nutanix、Apache(Web服务器管理)、Linux系统管理、BigFix。
熟悉ELK Stack(Elasticsearch、Logstash、Kibana)与AI/ML集成。
熟悉SNMP(简单网络管理协议)、F5(负载均衡器及相关技术)。
熟悉JSON(数据格式化和处理)。
熟悉API、自动化、Ansible、CI/CD等。
编程语言:PS、Bash、Python等。
具有中等水平的相关托管服务经验,处理跨技术基础设施。
对工单工具有中等水平的知识,最好是Service Now。
对ITIL流程有中等水平的工作知识。
具有中等水平的与供应商和/或第三方合作的经验。