高级机器学习系统工程师/框架/工具

伦敦 9天前全职 网络
面议
我们是谁? 我们的使命是扩展智能以服务人类。我们正在为开发者和企业训练和部署前沿模型,这些模型用于构建AI系统,以提供内容生成、语义搜索、RAG和代理等神奇体验。我们相信我们的工作对于AI的广泛应用至关重要。 我们对我们所构建的东西充满热情。我们每个人都有责任为提高我们模型的能力和为客户带来的价值做出贡献。我们喜欢努力工作,并迅速采取行动,以做出对客户最有利的决定。 Cohere是一个由研究人员、工程师、设计师等组成的团队,他们对自己的工作充满热情。每个人都是自己领域内的佼佼者。我们相信多样化的视角是构建优秀产品的必要条件。 加入我们的使命,塑造未来! 我们正在寻找一位高级工程师,帮助构建、维护和发展支持我们前沿规模语言模型的训练框架。这个角色位于大规模训练、分布式系统和高性能计算基础设施的交汇处。您将设计和维护核心组件,以实现快速、可靠和可扩展的模型训练,并构建将研究想法与数千个GPU连接的工具。 如果您喜欢在机器学习系统的全栈上工作,这个角色将为您提供巨大的影响力和自主权。 您将参与的工作 • 构建并负责大规模LLM训练的训练框架。 • 设计分布式训练抽象(数据/张量/管道并行、FSDP/ZeRO策略、内存管理、检查点)。 • 提高多节点集群的训练吞吐量和稳定性(例如,GB200/300,AMD,H200/100)。 • 开发和维护监控、日志记录、调试和开发者人机工程学的工具。 • 与基础设施团队密切合作,确保Slurm设置、容器环境和硬件配置支持高性能训练。 • 调查和解决机器学习系统堆栈中的性能瓶颈。 • 构建可靠的系统,以确保可重复、可调试的大规模运行。 如果您符合以下条件,您可能是一个合适的人选 • 在大规模分布式训练或高性能计算系统方面有丰富的工程经验。 对JAX内部、分布式训练库或自定义内核/融合操作有深刻的了解。 • 有多节点集群编排经验(Slurm、Ray、Kubernetes或类似工具)。 • 能够调试CUDA/NCCL、网络、IO和数据管道中的性能问题。 • 有使用容器化环境(Docker、Singularity/Apptainer)的经验。 • 有构建工具以提高机器学习团队开发速度的良好记录。 • 对权衡有出色的判断力:性能与复杂性、研究速度与可维护性。 • 强大的协作能力——您将与基础设施、研究和部署团队密切合作。 加分项 • 有训练LLM或其他大型变换器架构的经验。 • 对机器学习框架(PyTorch、JAX、DeepSpeed、Megatron、xFormers等)有贡献。 • 熟悉评估和服务框架(vLLM、TensorRT-LLM、自定义KV缓存)。 • 有数据管道优化、分片数据集或缓存策略的经验。 • 在性能工程、分析或低级系统方面有背景。 额外加分:在顶级会议上发表论文(如NeurIPS、ICML、ICLR、AIStats、MLSys、JMLR、AAAI、Nature、COLING、ACL、EMNLP)。 为什么加入我们 • 您将处理当今一些最具挑战性和重要性的机器学习系统问题。 • 您将与一个世界级团队快速高效地合作。 • 您将对训练堆栈的关键组件拥有端到端的所有权。 • 您将塑造前沿规模模型的下一代基础设施。 • 您将构建直接加速研究和模型质量的工具和系统。 示例项目: • 构建高性能数据加载和缓存管道。 • 在机器学习系统堆栈中实施性能分析。 • 开发训练运行的内部指标和监控。 • 构建可重复性和回归测试基础设施。 • 开发高性能容错的分布式检查点系统。 如果上述某些内容与您的经验不完全一致,我们仍然鼓励您申请! 我们重视并庆祝多样性,努力为所有人创造一个包容的工作环境。我们欢迎来自各个背景的申请者,并致力于提供平等的机会。如果您在招聘过程中需要任何便利,请提交便利请求表,我们将共同努力满足您的需求。 Cohere的全职员工享受以下福利: 🤝 开放和包容的文化和工作环境 🧑‍💻 与处于AI研究前沿的团队紧密合作 🍽 每周午餐津贴,办公室午餐和零食 🦷 完整的健康和牙科福利,包括独立预算以照顾您的心理健康 🐣 高达6个月的100%父母假补贴 🎨 个人充实福利,涵盖艺术与文化、健身与健康、优质时光和工作空间改善 🏙 远程灵活,办公室位于多伦多、纽约、旧金山、伦敦和巴黎,以及共享工作津贴 ✈️ 6周的假期(30个工作日!) 原始职位高级机器学习系统工程师/框架/工具发布在GrabJobs ©。如需标记此职位的任何问题,请使用GrabJobs上的报告职位按钮。