AWS AI正在寻找世界一流的软件开发人员加入SageMaker HyperPod团队
在这个组织中,您将负责构建功能,以支持大规模集群的弹性高性能,以支持大规模深度学习模型的训练,涉及数千个加速器。
您将与工程师和研究人员组成的跨学科团队合作,他们是该领域的领导者。您将面对具有挑战性的问题,引出需求,并交付创新解决方案,使AI团队在该领域成为思想领袖。
关键工作职责
作为SageMaker HyperPod的软件开发工程师,您将负责:
• 开发创新解决方案,支持节点集群中的大型语言模型训练;
• 为由商品硬件构建的大规模集群开发弹性解决方案
• 为数千个加速器(GPU、Trainiums)的集群开发可观察性解决方案
• 开发Tier-1服务API,向客户公开集群CRUD操作
关于团队
SageMaker HyperPod团队开发用于大规模深度学习模型训练的技术。我们为GenAI工作负载提供全球最大的集群。HuggingFace、Perplexity、汤森路透(Thomson Reuters)只是我们的几个客户。该团队在高性能计算(HPC)和Tier-1服务的交叉点上运作。
我们欢迎在以下地点之一工作的候选人:
华盛顿州贝尔维尤 | 加利福尼亚州圣克拉拉
基本资格
• 4年以上非实习专业软件开发经验
• 4年以上至少一种软件编程语言经验
• 4年以上领导新系统和现有系统的设计或架构(设计模式、可靠性和扩展性)经验
• 作为导师、技术负责人或领导工程团队的经验
• 计算机科学或同等学位
优先资格
• 4年以上完整的软件开发生命周期经验,包括编码标准、代码审查、源代码管理、构建流程、测试和运维经验
• 计算机科学、工程学、统计学、数学或相关领域的硕士或博士学位
• 熟练掌握C++编程语言;
• 熟练掌握Python编程语言
• 开发高度可扩展、容错、分布式系统的经验
• 在C++中进行多线程异步开发的经验
• 熟悉机器学习技术和概念
• 具有高性能计算系统的经验
• 具有Linux内核系统调用或POSIX API(进程控制、通信和设备管理)的知识
• 熟悉TensorFlow和/或PyTorch框架
亚马逊致力于打造多元包容的工作环境。亚马逊是一家平等机会的雇主,不以种族、国籍、性别、性别认同、性取向、受保护的退伍军人身份、残疾、年龄或其他受法律保护的身份为由进行歧视。对于需要申请适应性工作环境的残疾人士,请访问https://www.amazon.jobs/en/disability/us。
我们的薪酬反映了美国几个地理市场的劳动成本。该职位的基本薪酬范围从我们最低的地理市场的每年134,500美元到我们最高的地理市场的每年261,500美元不等。薪酬基于多个因素,包括市场地点,可能会根据与工作相关的知识、技能和经验而有所不同。亚马逊是一家全面薪酬公司。根据所提供的职位,可能会提供股权、签约支付和其他形式的补偿作为全面薪酬计划的一部分,除了全面的医疗、财务和/或其他福利。有关更多信息,请访问https://www.aboutamazon.com/workplace/employee-benefits。申请人应通过我们的内部或外部职业网站申请。
公司 - 亚马逊开发中心美国公司
工作编号:A2533251