聚类工程师-深度学习

15个月前全职
Sustainable Talent

Sustainable Talent

location 旧金山
unsaved
可持续人才正在与全球领先的Nvidia合作,该公司已经在计算机图形、PC游戏和加速计算领域进行了25年的转型。 我们正在寻找一名HPC集群工程师,以支持我们客户的GPU/HPC基础设施团队。 这是位于加利福尼亚州圣克拉拉的全职合同职位,提供混合办公选项。我们根据经验、教育、地点等因素提供具有竞争力的薪酬,并提供全面福利、带薪休假和令人惊叹的公司文化! 作为GPU/HPC基础设施团队的成员,您将在设计和实施颠覆性的GPU计算集群方面提供领导力,这些集群可运行要求严格的深度学习、高性能计算和计算密集型工作负载。我们寻求一位专家,能够为我们的GPU计算集群识别架构变化和/或全新方法。作为专家,您将帮助我们解决战略性挑战,包括大规模高性能工作负载的计算机、网络和存储设计、异构计算环境中的有效资源利用、私有/公共云策略的发展、容量建模以及全球计算环境的增长规划。 您将要做的事情: • 构建和改进围绕GPU加速计算的生态系统,包括开发大规模自动化解决方案 • 在规模上维护和构建深度学习集群 • 支持我们的研究人员在我们的集群上运行其流程,包括对深度学习工作流程进行性能分析和优化 • 分析问题的根本原因,并提出大规模和小规模问题的纠正措施 • 在问题发生之前找到并修复问题。 我们需要看到以下要求: • 计算机科学、电气工程或相关领域的学士学位或同等经验。 • 至少5年的大规模计算基础设施设计和运营经验。 • 有分析和调整各种HPC工作负载性能的经验。 • 熟悉集群配置管理工具,如Ansible、Puppet、Salt。 • 有使用SLURM、LSF等HPC集群作业调度程序的经验。 • 深入了解Docker、Singularity、Shifter、Charliecloud等容器技术。 • 精通Centos/RHEL和/或Ubuntu Linux发行版,包括Python编程和bash脚本编写。 • 有使用MPI的HPC工作流程经验。 脱颖而出的方法: • 理解MLPerf基准测试 • 熟悉具有IBOP和RDMA的InfiniBand • 理解Lustre和GPFS等用于HPC工作负载的快速分布式存储系统 • 具备软件定义网络和HPC集群网络的背景 • 熟悉PyTorch和TensorFlow等深度学习框架。 可持续人才是一家男女平等、残疾人和退伍军人的平等就业机会和积极行动的雇主。