AI和HPC解决方案的基础设施工程师

洛杉矶 9天前全职 网络
面议
我们是: 全球基础设施工程AI和高性能计算(HPC)团队在塑造AI和高性能计算领域的前沿进展基础设施方面发挥着关键作用。我们的团队熟练地将云端、本地和混合环境的技术专长结合起来,开发和维护支持大规模高性能工作负载的复杂基础设施。通过提供创新解决方案,我们使我们的关键客户能够实现卓越的性能、效率和创造力。我们的工作涵盖整个项目生命周期——从战略规划和架构到实施和持续管理——推动基础设施框架的现代化举措。我们与生态系统合作,利用新兴技术,促进增长并转变行业。在这个快速变化的环境中,我们的团队引领潮流,帮助企业利用AI和HPC推动变革性创新并提升基础设施能力。 主要职责: • 设计和实施稳健的HPC和AI基础设施解决方案,确保其符合特定行业的性能和可扩展性标准。 • 通过调度器、VM/Kubernetes编排平台、Slurm和容器化服务部署、配置和管理利用XPU(CPU/GPU/加速器)技术的集群,以提供金属即服务(MaaS)、GPU即服务(GPUaaS)和AI即服务(AIaaS)。 • 提高本地、云端和混合设置中集群的性能、可扩展性、能源效率和成本效益。 • 将AI和HPC平台与现有IT系统、数据管道和安全协议集成。 • 管理、排除故障并优化基础设施,以确保高可用性、低延迟网络和弹性工作负载。 • 创建和维护详细的文档,包括架构图、配置指南和操作手册。 • 为用户提供技术支持和指导,优化HPC/AI任务、大型模型和模拟的执行。 根据业务需求和客户要求,此职位可能需要出差,范围从25%到100%。 所需技能和资格: • 至少4年在多个行业(包括超大规模、云计算、大型企业和电信/移动)中设计、部署和管理本地、云端和混合环境的HPC和AI基础设施的实际经验,同时服务于金融服务、生命科学、制造业和零售等关键行业。 • 至少4年加速计算架构(GPU、XPU、DPU)、高性能网络(InfiniBand、以太网)、SONiC和现代存储/数据平台(例如NVMe-oF、Lustre、GPFS、BeeGFS、VAST、DDN、Weka)方面的经验,以有效开发解决方案。 • 至少4年集群管理和编排(例如Slurm、Run:ai、Kubernetes、Docker)以及实时性能监控和可观察性框架的经验。 • 至少4年云和虚拟化平台(例如AWS、Azure、GCP、VMware、Nutanix)方面的工作经验,具备使用脚本(Python、AI工具)进行自动化和优化的专业知识,以及基础设施即代码工具(如Terraform和Ansible)的基础知识。 • 至少4年实施MLOps和DevSecOps框架的经验,以促进安全、自动化和可重复的工作流程。 • 本科学位或同等经验(至少12年)。拥有副学士学位的候选人必须至少有6年相关工作经验。 优先技能和资格: • 管理大规模GPU集群(1000+ GPU)部署的经验,用于HPC和AI工作负载,启用了多种基础设施服务。 • 熟悉GPU计算库和加速器(例如NVIDIA CUDA、Dynamo、AMD ROCm)。 • 了解AI和HPC网络(例如RoCE、InfiniBand、多平面/多轨设计、平台缓冲架构)。 • 熟练掌握机器学习和AI框架(例如TensorFlow、PyTorch、JAX),包括在Jupyter笔记本和Google Colab环境中的经验。 • 具备管理HPC和AI工作负载的优化技术经验。 • 熟悉DevOps实践和工具(例如Ansible、Terraform)以自动化基础设施流程。 • 具有与NVIDIA基础设施、公共云提供商或数据科学相关的行业认证者优先。 请注意,埃森哲的薪酬因多个因素而异,包括办公地点、角色、技能和经验水平。我们接受持续申请,没有固定的提交截止日期。 有关福利和住宿选项的详细信息,请参阅埃森哲的资源。 埃森哲坚定不移地致力于提供平等就业机会,并重视员工队伍的多样性。所有就业决策均不涉及歧视。我们强调由多元化团队推动的创新、竞争力和创造力。