性能工程师,GPU

纽约 27天前全职 网络
220.7万 - 392.4万 / 年
关于Anthropic Anthropic的使命是创建可靠、可解释和可操控的AI系统。我们希望AI对用户和整个社会都是安全且有益的。我们的团队是一个快速成长的群体,由致力于研究、工程、政策专家和商业领袖组成,共同努力构建有益的AI系统。 关于这个角色 开创下一代AI需要在GPU性能和系统工程方面的突破性创新。作为一名GPU性能工程师,您将设计和实施为Claude提供动力的基础系统,并推动大型语言模型的可能性前沿。您将负责在前所未有的规模上最大化GPU利用率和性能,开发直接启用新模型功能并显著提高推理效率的尖端优化。 在硬件和软件的交汇处工作,您将实施从自定义内核开发到分布式系统架构的最先进技术。您的工作将涵盖整个堆栈——从低级别的张量核心优化到协调数千个GPU的完美同步。 优秀的候选人将有在生产ML系统中实现变革性GPU性能改进的记录,并将兴奋地与世界级的研究人员和工程师一起塑造AI基础设施的未来。 如果您符合以下条件,您可能是一个不错的选择 • 在大规模GPU编程和优化方面有深入经验 • 以影响为导向,热衷于实现可衡量的性能突破 • 能够从硬件接口到高级ML框架中导航复杂系统 • 享受协作解决问题和结对编程 • 希望在具有现实影响的最先进语言模型上工作 • 关心您工作的社会影响 • 在您定义前进道路的模糊环境中茁壮成长 优秀的候选人可能还具有以下经验 • GPU内核开发:CUDA、Triton、CUTLASS、Flash Attention、张量核心优化 • ML编译器和框架:PyTorch/JAX内部、torch.compile、XLA、自定义操作符 • 性能工程:内核融合、内存带宽优化、使用Nsight进行分析 • 分布式系统:NCCL、NVLink、集体通信、模型并行 • 低精度:INT8/FP8量化、混合精度技术 • 生产系统:大规模训练基础设施、容错、集群编排 代表性项目 • 为下一代硬件架构共同设计注意力机制和算法 • 为新兴量化格式和混合精度技术开发自定义内核 • 为多节点GPU集群设计分布式通信策略 • 优化前沿语言模型的端到端训练和推理管道 • 构建性能建模框架以预测和优化GPU利用率 • 实施内核融合策略以最小化内存带宽瓶颈 • 创建行星规模分布式训练基础设施的弹性系统 • 分析并消除生产服务基础设施中的性能瓶颈 • 与硬件供应商合作以影响未来加速器能力和软件堆栈 申请截止日期:无。申请将按滚动方式审核。 该职位的预期薪资范围 该职位的预期基本薪酬如下。我们为全职员工提供的总薪酬包包括股权、福利,并可能包括激励性薪酬。 年薪 315,000—560,000美元 物流 教育要求:我们要求至少具有相关领域的学士学位或同等经验。 基于地点的混合政策:目前,我们期望所有员工至少有25%的时间在我们的办公室工作。然而,某些角色可能需要更多时间在我们的办公室。 签证赞助:我们确实赞助签证!然而,我们无法为每个角色和每个候选人成功赞助签证。但如果我们向您提供录用,我们将尽一切合理努力为您办理签证,并聘请移民律师协助。 即使您认为自己不符合每一个资格要求,我们也鼓励您申请。并非所有优秀的候选人都能满足列出的每一个资格要求。研究表明,来自代表性不足群体的人更容易经历冒名顶替综合症,并怀疑自己候选资格的强度,因此我们敦促您不要过早排除自己,并在您对这项工作感兴趣时提交申请。我们认为像我们正在构建的AI系统具有巨大的社会和伦理影响。我们认为这使得代表性更加重要,并努力在我们的团队中包含各种不同的观点。 我们的不同之处 我们相信,影响最大的AI研究将是大科学。在Anthropic,我们作为一个单一的团队合作,专注于几个大型研究项目。我们重视影响——推进我们可操控、可信赖AI的长期目标——而不是在较小和更具体的难题上工作。我们将AI研究视为一门实证科学,与物理学和生物学一样多,与传统计算机科学的努力一样多。我们是一个极其协作的团队,并经常举办研究讨论,以确保我们在任何给定时间都在追求影响最大的工作。因此,我们非常重视沟通能力。 理解我们研究方向的最简单方法是阅读我们最近的研究。这些研究继续了我们团队在Anthropic之前的许多方向,包括:GPT-3、基于电路的可解释性、多模态神经元、扩展定律、AI与计算、AI安全中的具体问题,以及从人类偏好中学习。 加入我们吧! Anthropic是一家总部位于旧金山的公益公司。我们提供有竞争力的薪酬和福利、可选的股权捐赠匹配、慷慨的假期和育儿假、灵活的工作时间,以及一个可与同事合作的美丽办公空间。候选人AI使用指南:了解我们在申请过程中使用AI的政策。