我们是：全球基础设施工程AI和高性能计算（HPC）团队在塑造AI和高性能计算领域的前沿进展基础设施方面发挥着关键作用。我们的团队熟练地将云端、本地和混合环境的技术专长结合起来，开发和维护支持大规模高性能工作负载的复杂基础设施。通过提供创新解决方案，我们使我们的关键客户能够实现卓越的性能、效率和创造力。我们的工作涵盖整个项目生命周期——从战略规划和架构到实施和持续管理——推动基础设施框架的现代化举措。我们与生态系统合作，利用新兴技术，促进增长并转变行业。在这个快速变化的环境中，我们的团队引领潮流，帮助企业利用AI和HPC推动变革性创新并提升基础设施能力。主要职责： • 设计和实施稳健的HPC和AI基础设施解决方案，确保其符合特定行业的性能和可扩展性标准。 • 通过调度器、VM/Kubernetes编排平台、Slurm和容器化服务部署、配置和管理利用XPU（CPU/GPU/加速器）技术的集群，以提供金属即服务（MaaS）、GPU即服务（GPUaaS）和AI即服务（AIaaS）。 • 提高本地、云端和混合设置中集群的性能、可扩展性、能源效率和成本效益。 • 将AI和HPC平台与现有IT系统、数据管道和安全协议集成。 • 管理、排除故障并优化基础设施，以确保高可用性、低延迟网络和弹性工作负载。 • 创建和维护详细的文档，包括架构图、配置指南和操作手册。 • 为用户提供技术支持和指导，优化HPC/AI任务、大型模型和模拟的执行。根据业务需求和客户要求，此职位可能需要出差，范围从25%到100%。所需技能和资格： • 至少4年在多个行业（包括超大规模、云计算、大型企业和电信/移动）中设计、部署和管理本地、云端和混合环境的HPC和AI基础设施的实际经验，同时服务于金融服务、生命科学、制造业和零售等关键行业。 • 至少4年加速计算架构（GPU、XPU、DPU）、高性能网络（InfiniBand、以太网）、SONiC和现代存储/数据平台（例如NVMe-oF、Lustre、GPFS、BeeGFS、VAST、DDN、Weka）方面的经验，以有效开发解决方案。 • 至少4年集群管理和编排（例如Slurm、Run:ai、Kubernetes、Docker）以及实时性能监控和可观察性框架的经验。 • 至少4年云和虚拟化平台（例如AWS、Azure、GCP、VMware、Nutanix）方面的工作经验，具备使用脚本（Python、AI工具）进行自动化和优化的专业知识，以及基础设施即代码工具（如Terraform和Ansible）的基础知识。 • 至少4年实施MLOps和DevSecOps框架的经验，以促进安全、自动化和可重复的工作流程。 • 本科学位或同等经验（至少12年）。拥有副学士学位的候选人必须至少有6年相关工作经验。优先技能和资格： • 管理大规模GPU集群（1000+ GPU）部署的经验，用于HPC和AI工作负载，启用了多种基础设施服务。 • 熟悉GPU计算库和加速器（例如NVIDIA CUDA、Dynamo、AMD ROCm）。 • 了解AI和HPC网络（例如RoCE、InfiniBand、多平面/多轨设计、平台缓冲架构）。 • 熟练掌握机器学习和AI框架（例如TensorFlow、PyTorch、JAX），包括在Jupyter笔记本和Google Colab环境中的经验。 • 具备管理HPC和AI工作负载的优化技术经验。 • 熟悉DevOps实践和工具（例如Ansible、Terraform）以自动化基础设施流程。 • 具有与NVIDIA基础设施、公共云提供商或数据科学相关的行业认证者优先。请注意，埃森哲的薪酬因多个因素而异，包括办公地点、角色、技能和经验水平。我们接受持续申请，没有固定的提交截止日期。有关福利和住宿选项的详细信息，请参阅埃森哲的资源。埃森哲坚定不移地致力于提供平等就业机会，并重视员工队伍的多样性。所有就业决策均不涉及歧视。我们强调由多元化团队推动的创新、竞争力和创造力。

AI和HPC解决方案的基础设施工程师

Accenture