高性能计算系统工程师

新加坡 3天前全职 网络
面议
角色与职责 职位概述 我们正在寻找一位经验丰富的HPC系统工程师,以支持和运营大规模基于Linux的高性能计算(HPC)环境。此角色专注于维护可靠、安全和高性能的计算平台,以支持研究、学术和企业工作负载。 该角色需要与研究人员、工程师和IT团队密切合作,以确保日常运营顺利进行,解决技术问题,并优化系统性能。 主要职责 HPC运营与支持 - 操作、管理和维护基于Linux的HPC基础设施,包括计算节点、存储平台和高速网络 - 通过主动监控和维护确保系统的可用性、稳定性和性能 - 执行补丁、升级和容量规划活动 集群、调度器和存储管理 - 支持和管理HPC工作负载调度器和资源管理平台 - 维护和支持HPC环境中使用的并行和高性能文件系统 - 管理集群的供应、配置和生命周期活动 事件和升级处理 - 调查并解决硬件、操作系统、应用程序和网络中的基础设施问题 - 根据需要参与值班或升级支持轮换 - 与软件工程和桌面支持团队密切合作,解决用户相关问题 用户启用和应用支持 - 为用户提供运行、调试和优化HPC工作负载的技术指导 - 支持计算密集型、AI和数据驱动的应用程序 - 就应用程序并行化和性能优化的最佳实践向用户提供建议 培训和知识管理 - 就HPC使用和操作最佳实践进行用户简报或培训 - 开发和维护技术文档、指南和操作程序 - 为团队内的持续改进计划和知识共享做出贡献 要求 教育和经验 - 计算机科学、工程或相关学科的学士学位 - 通常需要5年或以上支持或运营HPC或大规模Linux环境的经验 技术技能 - 拥有丰富的Linux操作系统实践经验 - 具备HPC调度器和资源管理工具的经验 - 接触过并行或分布式文件系统 - 理解HPC性能监控、调优和优化概念 附加优势 - 具备HPC应用优化或并行计算方法的经验 - 熟悉HPC环境中常用的编程语言或库 - 接触过科学、模拟或计算密集型工作负载 属性和软技能 - 具备较强的分析和故障排除能力 - 自我驱动,能够独立和协作工作 - 具备清晰的书面和口头沟通能力 - 能够向非技术用户解释复杂的技术概念 - 致力于持续学习和改进 请将您的详细简历以MS Word格式发送至,包含 - 教育水平 - 工作经验 - 每段工作背景 - 离职原因 - 上一份工作的薪资 - 期望薪资 - 可用日期 告诉雇主您具备哪些技能 PKI 技术文档 安全审计 故障排除 硬件 独立工作能力 IPS 事件管理 调优 日志记录 操作系统 AV 资源管理 调试 并行计算 Linux