标题:高级云工程师(AWS)
地点:加利福尼亚州福斯特城,邮编94404
类型:合同
关于Smart IT Frame:
在Smart IT Frame,我们将顶尖人才与美国各地的领先组织联系起来。凭借十多年的招聘卓越经验,我们专注于IT、医疗保健和专业角色,帮助客户和候选人共同成长。
工作范围
HPC集群部署
- 使用GitHub管道和AWS Systems Manager,通过CI/CD管道自动化HPC集群的部署过程
- 实施CI/CD管道以高效管理和部署HPC集群的更新
- 设置和配置HPC集群以满足特定要求和工作负载
- 管理和维护HPC硬件组件,如CPU和GPU,以及必要的软件
- 进行回归测试以验证非GXP HPC集群的功能和性能
工作负载调度管理
- 安装和配置工作负载管理器和调度器,如LSF、SLURM和PBS Pro
- 管理计算节点的添加和移除,并调整主节点和从节点的优先级
- 开发和管理资源策略和规则以优化集群性能
- 配置和分配资源,如CPU和内存,并为应用程序进行性能优化
- 解决与调度器、守护进程和许可证服务器相关的问题
网络和高性能连接管理
- 安装和配置HPC互连网络
- 设计和配置HPC集群的网络拓扑
- 确保InfiniBand连接的维护和监控
- 解决与InfiniBand、RoCE和以太网相关的连接问题
监控和报告
- 生成HPC集群的每日健康检查报告
- 自动化监控脚本以简化监控过程
- 定期审查报告和审计记录
操作系统管理
- 安装和配置HPC集群的操作系统
- 解决与操作系统相关的问题,如CPU、内存和SWAP利用率,并进行应用程序文件系统清理
- 通过在计划和非计划停机期间从操作系统和应用程序角度进行预检查和后检查,确保应用程序服务的连续性
应用程序和工具
- 安装HPC库和工具,如MPI和编译器
- 安装和配置HPC应用程序,包括商用现成软件(COTS)和开源软件,并使用Spack管理软件包
- 为HPC应用程序应用补丁和升级
- 解决与HPC应用程序相关的问题
HPC存储管理
- 管理和配置HPC存储系统
- 监督HPC文件系统的管理
- 监控和排除HPC存储系统的故障
- 管理备份和磁带库系统
主要职责
集群管理
- 安装、配置和维护计算节点、GPU(NVIDIA)、高速存储(Lustre、GPFS)和互连(InfiniBand、RoCE)
性能调优
- 优化科学应用程序、内核和工作流以实现最大吞吐量、可扩展性和最小队列时间
用户支持
- 作为研究人员的技术专家,调试作业、解决复杂问题,并提供工具和最佳实践的培训
软件管理
- 管理工作负载管理器(Slurm、LSF)、调度器、软件许可(FlexLM)、OpenPBS、容器(Singularity)和编译器
基础设施
- 管理高速互连(InfiniBand)、存储(Lustre、CEPH)以及潜在的云/混合解决方案
- 实施和管理监控(Grafana、Prometheus)和编排工具(Slurm、Kubernetes)
自动化
- 开发脚本(Python、Ansible)用于配置、监控和自动化例行任务
安全与政策
- 实施和执行安全政策,管理用户访问,并监督生命周期管理
基本技能和资格
技术专长
- 精通Linux、Python、脚本编写(Ansible、Terraform)、HPC调度器(Slurm)、网络(InfiniBand)和GPU计算
HPC领域知识
- 具备并行文件系统、工作负载管理和性能分析工具的经验
问题解决
- 具备出色的分析和调试复杂分布式系统的能力
沟通能力
- 能够向科学家和非技术人员解释复杂的技术问题
经验
- 在数据中心有实际操作经验,管理大型集群并支持多样化的科学/AI工作负载
所需的顶级技能
- HPC – 高性能计算
- AWS云服务
- DevOps CI/CD
- Python
今天申请或将简历发送至Gayathri.s@smartitframe.com