软件工程师 - 人工智能/机器学习,AWS Neuron 分布式训练

旧金山 1个月前全职 网络
92.0万 - 159.7万 / 年
你是否热爱将问题分解,以开发能够影响全球数百万人的产品?你是否喜欢识别、定义和构建能够彻底改变企业运作方式的软件解决方案? 亚马逊网络服务(AWS)Annapurna Labs 团队正在寻找一位高级软件开发工程师,负责构建、交付和维护复杂产品,以取悦我们的客户并提高我们的绩效标准。你将设计能够在大规模运行的容错系统,同时我们将继续在 AWS 云中创新一流的服务和应用。 AWS Neuron 是 AWS Inferentia 和 Trainium 云规模机器学习加速器以及使用它们的 Trn1 和 Inf1 服务器的完整软件堆栈。这个角色是 AWS Neuron 机器学习应用(ML Apps)团队的一名高级软件工程师,负责开发、启用和性能调优各种机器学习模型,包括大规模的语言模型如 GPT2、GPT3 及更高版本,以及稳定扩散、视觉变换器等。 机器学习分布式训练团队与芯片架构师、编译器工程师和运行时工程师紧密合作,创建、构建和调优与 Trn1 的分布式训练解决方案。使用 Python 训练这些大型模型的经验是必须的。FSDP、Deepspeed 和其他分布式训练库在其中起着核心作用,并且为基于 Neuron 的系统扩展这一切是关键。 主要工作职责: 该角色将帮助领导将分布式训练支持构建到 PyTorch、TensorFlow(使用 XLA)以及 Neuron 编译器和运行时堆栈中的工作。该角色将帮助调优这些模型,以确保最高性能并最大化它们在客户的 AWS Trainium 和 Inferentia 硅片以及 Trn1 和 Inf1 服务器上的运行效率。强大的软件开发和机器学习知识对这个角色至关重要。 关于团队: 在 AWS,我们拥抱我们的差异。我们致力于进一步推动包容文化。我们有十个员工主导的亲和力小组,覆盖全球 190 个分会的 40,000 名员工。我们提供创新的福利,并举办年度和持续的学习体验,包括关于种族和民族的对话(CORE)和 AmazeCon(性别多样性)会议。亚马逊的包容文化在我们的 16 条领导原则中得到了强化,提醒团队成员寻求多样化的观点,学习和保持好奇心,赢得信任。 工作与生活的平衡: 我们团队非常重视工作与生活的平衡。这不仅仅是关于你在家或工作花费多少小时,而是关于你所建立的流动性,给你生活的两个部分带来活力。我们相信,找到个人生活和职业生活之间的正确平衡对终身幸福和满足感至关重要。我们提供灵活的工作时间,并鼓励你在工作和个人生活之间找到自己的平衡。 指导与职业发展: 我们团队致力于支持新成员。我们有广泛的经验水平和任期,并且正在建立一个庆祝知识共享和指导的环境。我们关心你的职业发展,并努力根据每个团队成员的发展需要分配项目,帮助他们成为更全面的专业人士,并使他们能够在未来承担更复杂的任务。