在 AMD,您所做的事情改变一切
在 AMD,我们的使命是打造出色的产品,以加速下一代计算体验——从 AI 和数据中心,到个人电脑、游戏和嵌入式系统。我们坚信,真正的进步源于大胆的想法、人类的创造力以及共同创造非凡事物的热情。当您加入 AMD 时,您将发现我们的文化是真正的差异化因素。我们推动创新的极限,以解决世界上最重要的挑战——追求卓越的执行力,同时保持直接、谦逊、合作,并包容多元的观点。加入我们,共同塑造 AI 及更远的未来。一起推动您的职业发展。
角色
AMD 数据中心 GPU 团队正在寻求一位经验丰富的系统解决方案架构师,加入我们的团队,专注于支持大规模 AI 推理和训练工作负载。
个人
理想的候选人将成为基于 Kubernetes 的 AI 基础设施的技术专家,深入了解数据中心级别的 AI 推理和训练解决方案。这个角色提供了在 AI 基础设施前沿工作的机会,解决复杂的技术挑战,并帮助客户实施大规模的变革性 AI 解决方案。
主要职责
• 领导与数据/机器学习、平台和基础设施利益相关者的客户技术发现;将业务目标映射到 AI 工作负载(训练、微调、推理)和成功指标。
• 评估当前状态(Kubernetes、GPU/加速器、存储、网络、安全、MLOps),识别差距、风险和所需的 POC。
• 设计大规模 AI 集群的参考架构(机架设计、GPU 拓扑、RoCE/InfiniBand、NVMe/并行文件系统、多租户 K8s),符合客户的限制条件(功率、冷却、空间)。
• 将模型需求转化为容量和性能计划(令牌/秒、延迟、吞吐量),并创建具有扩展路径的物料清单。
• 与业务发展和产品团队合作,构建投资回报/总拥有成本模型(资本支出/运营支出、$/令牌、$/推理),并制定价值故事。
• 支持 RFIs/RFPs 的技术部分草稿;制作架构图、部署计划和实施时间表。
• 与项目与工程团队合作,定义 POC 成功标准、测试计划和退出报告。
• 与产品管理合作,促进产品路线图的改进。
优先经验
• 基于 Kubernetes 的 AI 基础设施设计与实施
• 高负载推理工作负载的负载均衡策略
• 大规模 AI 推理的专用操作符
• 基于 SLURM 的 HPC 集群管理 AI 工作负载
• 高吞吐量 GPU 集群的网络设计
• 针对 AI 数据管道优化的存储架构
• 基础设施自动化和编排工具
• 大规模推理部署的性能优化
• 基础设施即代码工具(Terraform、Ansible 等)的知识
• 熟悉云原生可观察性和监控解决方案
• 理解 AI 基础设施的安全考虑
• 具备设计和实施大规模基础设施解决方案的丰富经验
• 深入了解 Kubernetes 和容器编排技术
• 在生产环境中处理 AI/ML 工作负载的实践经验
• 对数据中心网络和存储架构有深入理解
• 具有 GPU 加速计算环境的经验
• 有创建技术文档和参考架构的良好记录
• 出色的沟通能力,能够解释复杂的技术概念
• 直接与客户技术团队合作的经验
学术资历
• 计算机科学、电气工程或相关领域的学士学位或更高学位。
地点:
• 加州圣荷西
提供的福利概述:AMD 福利一览。
AMD 不接受猎头、招聘机构或收费招聘服务的主动简历。AMD 及其子公司是平等机会、包容性雇主,将考虑所有申请人,而不考虑年龄、血统、肤色、婚姻状况、健康状况、精神或身体残疾、国籍、种族、宗教、政治或第三方关系、性别、怀孕、性取向、性别认同、军事或退伍军人身份或任何其他法律保护的特征。我们鼓励所有合格候选人申请,并将在招聘和选择过程的各个阶段满足申请人的需求,遵循相关法律。