Moonlite为进行密集计算研究、大规模模型训练和高要求数据处理工作负载的组织提供高性能AI基础设施。我们提供部署在我们设施中的基础设施或与您的设施共同定位,提供灵活的按需或预留计算,感觉就像是您现有数据中心的延伸。我们的AI基础设施专家团队结合了裸金属性能和云原生操作的简便性,使研究团队和企业能够以企业级的可靠性和合规性部署高要求的AI工作负载。
您的角色:
您将在构建我们的GPU加速计算平台中发挥重要作用,该平台支持分布式AI训练和推理、大规模模拟和计算研究工作负载。与产品、您的平台团队成员和基础设施专家密切合作,您将设计和实施管理GPU集群、裸金属供应和资源调度的计算编排层,使研究人员和工程师能够以云般的简便性以编程方式访问高性能计算资源。
工作职责
• 计算编排系统:设计和构建可扩展的计算编排平台,管理GPU集群、裸金属服务器供应和跨共同定位基础设施环境的资源分配。
• 资源管理与调度:实施智能工作负载调度、资源分配和优化算法,在保持研究和训练工作负载性能保证的同时最大化GPU利用率。
• 研究集群供应:设计和实施系统,用于供应和管理研究计算环境,包括Kubernetes和SLURM集群,实现自动化部署、资源调度和分布式AI训练和HPC工作负载的工作负载编排。
• GPU平台工程:开发平台功能以管理最新一代NVIDIA GPU配置(H100、H200、B200、B300),包括GPU资源管理、多租户隔离和与计算编排系统的集成。
• 裸金属生命周期管理:构建自动化和工具,用于完整的裸金属服务器生命周期管理——从初始供应和配置到持续操作、更新和资源重新分配。
• 性能关键系统:优化计算平台组件以实现高吞吐量和低延迟性能,确保研究工作负载在虚拟化或容器化环境中实现接近裸金属的效率。
• 平台API与集成:开发强大的API和SDK,使研究人员能够以编程方式供应和管理计算资源,无缝集成到现有工作流程和研究基础设施中。
• 可观察性与监控:实施全面的监控和遥测系统,用于计算资源,提供对GPU虚拟化、工作负载性能和基础设施健康状况的可见性。
• 多租户和隔离:构建企业级多租户计算隔离、安全边界和资源配额,支持跨团队和组织安全共享GPU基础设施。
要求
• 经验:5年以上软件工程经验,具有构建计算平台、容器编排系统或生产环境分布式计算基础设施的经验。
• 计算平台工程:在大规模构建计算编排、资源调度或工作负载管理系统方面有扎实的背景。
• Kubernetes与容器编排:对Kubernetes架构、容器编排概念有深入了解,并有在Kubernetes环境中部署工作负载的经验。了解pods、deployments、services和基本Kubernetes操作。
• 编程技能:具有Go、C/C++、Python或Rust用于性能关键组件的经验非常有价值。
• Linux与系统编程:在生产环境中具有丰富的Linux经验,包括编程、性能优化和低级资源管理系统。
• 虚拟化与容器:对虚拟化技术(KVM、Xen)、容器运行时和编排平台有深入了解。
• GPU计算基础:了解GPU架构、CUDA编程(在需要时)和GPU资源管理——或具有快速学习的能力。
• 裸金属基础设施:具有裸金属供应、带外管理系统和硬件抽象层的经验。
• 问题解决与架构:展示了解决复杂性能和可扩展性挑战的能力,同时在务实交付和良好的长期架构之间取得平衡。
• 自主性与沟通:能够在不确定性中自如导航,协作定义需求,并通过清晰的文档进行技术讨论。
• 成长承诺:具有成长心态,持续关注学习和专业发展。
优先资格
• 在供应或管理研究计算环境(Kubernetes、SLURM或HPC集群)方面有背景
• 具有GPU虚拟化技术(SR-IOV、NVIDIA vGPU)和多租户GPU共享的经验
• 在具有自定义调度或资源管理的容器编排平台方面有背景
• 了解用于GPU通信的高性能网络(InfiniBand、RDMA、NVLink、NVSwitch)
• 熟悉AI/ML训练框架(PyTorch、TensorFlow)及其基础设施要求
• 理解分布式训练模式和多节点GPU协调
• 在研究机构、实验室或技术计算环境中构建基础设施的经验
• 在金融服务或其他受监管行业基础设施方面的背景是加分项
关键技术
• Go、C/C++、Python、KVM、Docker、Kubernetes、NVIDIA GPUDirect、SR-IOV、NVIDIA vGPU、CUDA、InfiniBand、RDMA、Terraform、FastAPI、gRPC、Linux系统编程
为什么选择Moonlite
• 构建下一代基础设施:您的工作将创建平台基础,使金融机构能够利用传统基础设施无法实现的AI能力。
• 实践所有权:作为早期工程师,您将拥有项目的端到端所有权,并有自主权影响我们的产品和技术方向。
• 设定行业标准:为定义企业AI基础设施在最苛刻的监管环境中应如何工作做出贡献。
• 与专家合作:与经验丰富的工程师和对高性能计算、创新和问题解决充满热情的行业专业人士一起工作。
• 初创公司的敏捷性与行业影响:享受初创公司动态、快节奏的环境,同时在不断发展的关键技术领域立即产生影响。
我们提供具有竞争力的总薪酬包,结合了具有竞争力的基本工资、初创公司股权和行业领先的福利。该职位的总薪酬范围为165,000美元至225,000美元,包括基本工资和股权。实际薪酬将根据经验、技能和市场对齐情况确定。我们提供慷慨的福利,包括6%的401(k)匹配、全额覆盖的健康保险保费和其他全面的福利,以支持您的福祉和成功,随着我们的共同成长。
#li-remote