我们正在寻找一位经验丰富的技术主题专家 (SME),具备将基础设施设备(包括网络设备、存储系统和服务器硬件)引入基于 Logstash 的日志监控解决方案的扎实背景。理想候选人将拥有 ELK 堆栈管理、数据管道设计以及集成多样化基础设施日志以实现全面监控和分析的深厚专业知识。
主要职责
• 基础设施设备接入
领导网络设备(路由器、交换机、防火墙)、存储阵列和服务器系统的接入,整合至 Logstash 管道以实现集中日志收集和监控。
为解析来自各基础设施供应商的 syslog、SNMP 陷阱和专有日志格式,开发和维护特定设备的 Logstash 配置。
集成来自多供应商环境的日志源(例如,思科、瞻博、戴尔 EMC、NetApp、HPE 等),确保兼容性和数据标准化。
• Logstash 管道管理
设计、实施和优化 Logstash 管道,以处理来自基础设施设备的大量日志摄取。
应用高级解析、增强和转换技术,从原始设备日志中提取可操作的指标和事件数据。
实施过滤和标记策略,以按设备类型、位置和重要性对日志进行分类。
• 监控与可视化
创建和维护专为基础设施监控量身定制的 Kibana 仪表板,提供设备健康、性能和安全事件的实时可见性。
为关键基础设施事件(例如,接口故障、存储阈值超标、硬件故障)开发警报规则。
• 自动化与集成
使用脚本(Shell、Python)和配置管理工具自动化设备接入和日志管道部署。
将日志监控与 ITSM 平台(例如,ServiceNow)集成,以实现自动化事件创建和补救工作流程。
使用 Git 维护管道配置和脚本的版本控制。
• 运营卓越
执行 ELK 堆栈组件和基础设施日志源的例行健康检查和故障排除。
与网络、存储和服务器团队协作,确保全面的日志覆盖和快速的事件响应。
为基础设施日志接入、监控和事件管理开发和更新操作手册和标准操作程序。
所需经验
• 5 年以上在大规模、多客户环境中实际使用 ELK 堆栈(Elasticsearch、Logstash、Kibana)的经验。
• 在接入和标准化来自广泛基础设施设备(网络、存储、服务器)的日志方面拥有证明的专业知识。
• 深刻理解日志格式(syslog、SNMP、供应商特定)、设备管理协议和日志转发最佳实践。
• 在高吞吐量环境中设计和优化 Logstash 管道的经验。
• 强大的脚本编写能力(Shell、Python)。
• 熟悉 ITSM 集成(ServiceNow),包括自动化警报到事件的工作流程。
• 精通使用 Git 进行版本控制。
• 具备基础设施日志管理的安全和合规要求的经验。
技术技能
• 基础设施设备:网络(思科、瞻博等)、存储(EMC、NetApp、HPE)、服务器(Linux、Windows、VMware)
• 日志管理:Logstash 管道设计、syslog/SNMP 集成、日志解析和增强
• ELK 堆栈:Elasticsearch、Logstash、Kibana、Elastic Agents、Beats
• 自动化:Shell 脚本、Python、配置管理工具
• 集成:ServiceNow、ITSM 平台、基于 API 的自动化
• 监控:自定义仪表板、警报、健康检查