描述
我们正在寻找一名Linux/HPC系统管理员加入我们位于蒙特利尔的顾问团队。
该职位为混合模式。
任务
Linux系统管理员:
- 配置服务目录中的身份验证和授权
- 积极监控所有IT基础设施元素
- 管理现有的GPU计算服务器
- 发展数据管理政策
- 发展安全政策
- 撰写和更新技术文档
HPC:
- 确保计算基础设施的生产正常运行;
- 记录并发展基础设施的架构;
- 推动计算基础设施(集群)、网络和存储的持续发展;
- 提供创新和适当的解决方案,以更好地满足研究人员的需求;
- 确保计算基础设施的操作条件维护;
- 确定并解决硬件和软件元素的性能和功能问题。
- 开发和演变备份策略和恢复计划
- 参与基础设施管理工具的代码化(IaC)和自动化的发展;
- 参与基础设施项目的架构和执行;
- 确保技术文档能够反映基础设施的变化和用户的知识需求;
- 作为高性能计算技术问题的参考;
- 协助制定招标和单一来源采购的技术规格;评估投标并推荐设备选择;
要求
- 相关学科的大学学位;
- 至少10年系统管理员角色的经验;
- 高性能计算集群管理经验;
- 精通Linux;
- 信息安全经验;
- 自动化服务器安装、安全审计和任务自动化的实施经验;
- 熟悉Slurm计算任务调度器;
- 并行存储系统的专业知识;
- HPC计算网络的专业知识;
- 对GPU计算设备和加速器有很好的了解;
- 熟悉版本管理工具(git);
- 高性能基础设施解决方案的实施经验;
- 虚拟化、备份系统、存储网络技术、网络/服务器管理和监控的经验和知识;
- 数据中心管理和高可用性实施经验;
- 由于您在工作中与某些合作伙伴、利益相关者或我们的英语学术社区成员的互动,需具备法语和英语双语能力。