在 AMD，您所做的事情改变一切在 AMD，我们的使命是打造出色的产品，以加速下一代计算体验——从 AI 和数据中心，到个人电脑、游戏和嵌入式系统。我们坚信，真正的进步源于大胆的想法、人类的创造力以及共同创造非凡事物的热情。当您加入 AMD 时，您将发现我们的文化是真正的差异化因素。我们推动创新的极限，以解决世界上最重要的挑战——追求卓越的执行力，同时保持直接、谦逊、合作，并包容多元的观点。加入我们，共同塑造 AI 及更远的未来。一起推动您的职业发展。角色 AMD 数据中心 GPU 团队正在寻求一位经验丰富的系统解决方案架构师，加入我们的团队，专注于支持大规模 AI 推理和训练工作负载。个人理想的候选人将成为基于 Kubernetes 的 AI 基础设施的技术专家，深入了解数据中心级别的 AI 推理和训练解决方案。这个角色提供了在 AI 基础设施前沿工作的机会，解决复杂的技术挑战，并帮助客户实施大规模的变革性 AI 解决方案。主要职责 • 领导与数据/机器学习、平台和基础设施利益相关者的客户技术发现；将业务目标映射到 AI 工作负载（训练、微调、推理）和成功指标。 • 评估当前状态（Kubernetes、GPU/加速器、存储、网络、安全、MLOps），识别差距、风险和所需的 POC。 • 设计大规模 AI 集群的参考架构（机架设计、GPU 拓扑、RoCE/InfiniBand、NVMe/并行文件系统、多租户 K8s），符合客户的限制条件（功率、冷却、空间）。 • 将模型需求转化为容量和性能计划（令牌/秒、延迟、吞吐量），并创建具有扩展路径的物料清单。 • 与业务发展和产品团队合作，构建投资回报/总拥有成本模型（资本支出/运营支出、$/令牌、$/推理），并制定价值故事。 • 支持 RFIs/RFPs 的技术部分草稿；制作架构图、部署计划和实施时间表。 • 与项目与工程团队合作，定义 POC 成功标准、测试计划和退出报告。 • 与产品管理合作，促进产品路线图的改进。优先经验 • 基于 Kubernetes 的 AI 基础设施设计与实施 • 高负载推理工作负载的负载均衡策略 • 大规模 AI 推理的专用操作符 • 基于 SLURM 的 HPC 集群管理 AI 工作负载 • 高吞吐量 GPU 集群的网络设计 • 针对 AI 数据管道优化的存储架构 • 基础设施自动化和编排工具 • 大规模推理部署的性能优化 • 基础设施即代码工具（Terraform、Ansible 等）的知识 • 熟悉云原生可观察性和监控解决方案 • 理解 AI 基础设施的安全考虑 • 具备设计和实施大规模基础设施解决方案的丰富经验 • 深入了解 Kubernetes 和容器编排技术 • 在生产环境中处理 AI/ML 工作负载的实践经验 • 对数据中心网络和存储架构有深入理解 • 具有 GPU 加速计算环境的经验 • 有创建技术文档和参考架构的良好记录 • 出色的沟通能力，能够解释复杂的技术概念 • 直接与客户技术团队合作的经验学术资历 • 计算机科学、电气工程或相关领域的学士学位或更高学位。地点： • 加州圣荷西提供的福利概述：AMD 福利一览。 AMD 不接受猎头、招聘机构或收费招聘服务的主动简历。AMD 及其子公司是平等机会、包容性雇主，将考虑所有申请人，而不考虑年龄、血统、肤色、婚姻状况、健康状况、精神或身体残疾、国籍、种族、宗教、政治或第三方关系、性别、怀孕、性取向、性别认同、军事或退伍军人身份或任何其他法律保护的特征。我们鼓励所有合格候选人申请，并将在招聘和选择过程的各个阶段满足申请人的需求，遵循相关法律。

系统解决方案架构师 - 大规模 AI 和 HPC 工作负载

AMD