我们正在寻找一位熟练且积极主动的系统工程师(第二天运营),负责管理、支持和维护复杂的IT系统和硬件基础设施。
该职位要求具备强大的故障排除、系统管理和预防性维护技能,以确保关键任务系统的稳定性和性能。
您将与维护团队负责人、基础设施专家和系统所有者密切合作,处理事件、执行维护、支持升级,并保持系统的高可用性。
主要职责
1. 事件管理与故障排除
• 为维护范围内的所有硬件、系统和应用程序问题提供现场技术支持。
• 协助事件验证、隔离和解决,或提供批准的临时解决方案。
• 故障排除并解决1级和2级技术问题。
• 将复杂或未解决的事件升级给维护团队负责人,并更新维护经理。
• 及时响应服务中断、系统警报和性能异常。
2. 预防性与纠正性维护
• 执行每日系统健康检查,并审查日志以进行早期问题检测。
• 执行预防性维护活动,并根据需要采取纠正措施。
• 执行和验证计划备份(每日增量备份、热备份、每周完整备份)。
• 在服务恢复期间执行系统恢复程序。
3. 系统管理
• 与系统所有者协调管理用户账户(添加/删除/更新)。
• 安全地重置密码和管理访问控制。
• 根据建议或日志监控和调整系统或数据库性能。
4. 补丁管理与升级
• 测试和部署操作系统补丁、固件升级和软件更新。
• 阶段性实施硬件升级和COTS软件补丁。
• 确保遵守变更控制和系统加固政策。
5. 硬件与基础设施维护
• 支持、故障排除和维护企业硬件,包括:
服务器:Dell PowerEdge R750
防火墙:FortiGate 1101E
存储设备:Dell EMC XT380/XT480
交换机:Cisco C9300
UPS与电源管理:APC Smart UPS,机架PDU
其他:KVM控制台、HSM、NTP服务器、移动计算设备
6. 软件平台支持
• 管理和监控各种平台和应用程序:
核心平台:ArcGIS Server、IBM ACE + MQ、Kafka、MongoDB、MS SQL、WebSphere、Elastic Stack、Rocket.Chat
安全与终端工具:Symantec、Carbon Black EDR、CipherTrust、Fortify WebInspect、Keycloak
监控与DevOps工具:Grafana、Prometheus、GitLab Enterprise、Ansible、OpenShift、Red Hat Satellite
7. 文档与报告
• 维护和更新文档(标准操作程序、维护记录、系统图、日志)。
• 生成系统性能、事件处理和预防性维护活动的报告。
8. 咨询与持续改进
• 提供基础设施改进和系统性能调优的技术建议。
• 提出并实施自动化以增强监控和恢复过程。
要求
基本资格与经验
• 计算机科学、信息系统或相关领域的文凭或学位。
• 至少3年的IT系统管理或基础设施维护经验。
• 对Linux(RHEL)和Windows Server(2019)环境有深入了解。
• 具备备份系统(Dell EMC Data Domain、Avamar)、防火墙和企业级硬件的经验。
• 熟悉容器平台(OpenShift)、中间件(IBM ACE、WebSphere)、数据库(SQL、MongoDB)和云/混合集成平台。
期望技能
• 对DevOps工具(Ansible、GitLab、SonarQube)有工作知识。
• 熟悉安全技术(Keycloak、CipherTrust、FortiGate、WebInspect)。
• 了解ITIL流程,用于事件、变更和问题管理。
软技能
• 强大的分析和故障排除能力。
• 良好的书面和口头沟通能力。
• 能够独立工作并与团队协作。
• 愿意在现场工作,执行轮班任务,并在需要时待命。