角色与职责
职位概述
我们正在寻找一位经验丰富的HPC系统工程师,以支持和运营大规模基于Linux的高性能计算(HPC)环境。此角色专注于维护可靠、安全和高性能的计算平台,以支持研究、学术和企业工作负载。
该角色需要与研究人员、工程师和IT团队密切合作,以确保日常运营顺利进行,解决技术问题,并优化系统性能。
主要职责
HPC运营与支持
- 操作、管理和维护基于Linux的HPC基础设施,包括计算节点、存储平台和高速网络
- 通过主动监控和维护确保系统的可用性、稳定性和性能
- 执行补丁、升级和容量规划活动
集群、调度器和存储管理
- 支持和管理HPC工作负载调度器和资源管理平台
- 维护和支持HPC环境中使用的并行和高性能文件系统
- 管理集群的供应、配置和生命周期活动
事件和升级处理
- 调查并解决硬件、操作系统、应用程序和网络中的基础设施问题
- 根据需要参与值班或升级支持轮换
- 与软件工程和桌面支持团队密切合作,解决用户相关问题
用户启用和应用支持
- 为用户提供运行、调试和优化HPC工作负载的技术指导
- 支持计算密集型、AI和数据驱动的应用程序
- 就应用程序并行化和性能优化的最佳实践向用户提供建议
培训和知识管理
- 就HPC使用和操作最佳实践进行用户简报或培训
- 开发和维护技术文档、指南和操作程序
- 为团队内的持续改进计划和知识共享做出贡献
要求
教育和经验
- 计算机科学、工程或相关学科的学士学位
- 通常需要5年或以上支持或运营HPC或大规模Linux环境的经验
技术技能
- 拥有丰富的Linux操作系统实践经验
- 具备HPC调度器和资源管理工具的经验
- 接触过并行或分布式文件系统
- 理解HPC性能监控、调优和优化概念
附加优势
- 具备HPC应用优化或并行计算方法的经验
- 熟悉HPC环境中常用的编程语言或库
- 接触过科学、模拟或计算密集型工作负载
属性和软技能
- 具备较强的分析和故障排除能力
- 自我驱动,能够独立和协作工作
- 具备清晰的书面和口头沟通能力
- 能够向非技术用户解释复杂的技术概念
- 致力于持续学习和改进
请将您的详细简历以MS Word格式发送至,包含
- 教育水平
- 工作经验
- 每段工作背景
- 离职原因
- 上一份工作的薪资
- 期望薪资
- 可用日期
告诉雇主您具备哪些技能
PKI
技术文档
安全审计
故障排除
硬件
独立工作能力
IPS
事件管理
调优
日志记录
操作系统
AV
资源管理
调试
并行计算
Linux