加入Cohere申请高级ML系统工程师,框架和工具角色
我们是谁?我们的使命是扩展智能以服务人类。我们正在为开发者和企业训练和部署前沿模型,这些模型用于构建AI系统,以支持内容生成、语义搜索、RAG和代理等神奇体验。我们相信我们的工作对AI的广泛采用至关重要。我们对所构建的东西充满热情。我们每个人都有责任为增加我们模型的能力和为客户带来的价值做出贡献。我们喜欢努力工作并快速行动,以便为客户做到最好。Cohere是一个由研究人员、工程师、设计师等组成的团队,他们对自己的工艺充满热情。每个人都是他们所做领域的世界顶尖人才。我们相信,多样化的观点是构建优秀产品的必要条件。加入我们的使命,塑造未来
我们正在寻找一位高级工程师,帮助构建、维护和发展支持我们前沿规模语言模型的训练框架。这个角色位于大规模训练、分布式系统和HPC基础设施的交汇处。您将设计和维护核心组件,以实现快速、可靠和可扩展的模型训练,并构建将研究理念连接到数千个GPU的工具。如果您喜欢跨ML系统的全栈工作,这个角色将为您提供巨大的影响机会和自主权。
您的工作内容
- 构建并负责大规模LLM训练的训练框架。
- 设计分布式训练抽象(数据/张量/流水线并行,FSDP/ZeRO策略,内存管理,检查点)。
- 提高多节点集群上的训练吞吐量和稳定性(例如,GB200/300,AMD,H200/100)。
- 开发和维护监控、日志记录、调试和开发人员易用性的工具。
- 与基础设施团队密切合作,确保Slurm设置、容器环境和硬件配置支持高性能训练。
- 调查并解决ML系统栈中的性能瓶颈。
- 构建强大的系统,确保可重复、可调试的大规模运行。
您可能适合这个职位如果您具备
- 大规模分布式训练或HPC系统的强大工程经验。
- 深入了解JAX内部、分布式训练库或自定义内核/融合操作。
- 多节点集群编排经验(Slurm、Ray、Kubernetes或类似)。
- 在CUDA/NCCL、网络、IO和数据管道中调试性能问题的舒适度。
- 使用容器化环境的经验(Docker、Singularity/Apptainer)。
- 构建提高ML团队开发者速度的工具的记录。
- 对权衡的出色判断:性能与复杂性、研究速度与可维护性。
- 强大的协作技能——您将与基础设施、研究和部署团队密切合作。
加分项
- 训练LLM或其他大型变压器架构的经验。
- 对ML框架的贡献(PyTorch、JAX、DeepSpeed、Megatron、xFormers等)。
- 熟悉评估和服务框架(vLLM、TensorRT-LLM、自定义KV缓存)。
- 数据管道优化、分片数据集或缓存策略的经验。
- 性能工程、分析或低级系统的背景。
- 加分项:在顶级会议上发表论文(如NeurIPS、ICML、ICLR、AIStats、MLSys、JMLR、AAAI、Nature、COLING、ACL、EMNLP)。
为什么加入我们
- 您将处理当今一些最具挑战性和重要性的ML系统问题。
- 您将与一个世界级团队合作,快速且大规模地工作。
- 您将对训练栈的关键组件拥有端到端的所有权。
- 您将塑造前沿规模模型的下一代基础设施。
- 您将构建直接加速研究和模型质量的工具和系统。
示例项目
- 构建高性能数据加载和缓存管道。
- 在ML系统栈中实施性能分析。
- 开发训练运行的内部指标和监控。
- 构建可重复性和回归测试基础设施。
- 开发高性能容错分布式检查点系统。
如果上述某些内容与您的经验不完全一致,我们仍鼓励您申请。我们重视和庆祝多样性,并努力为所有人创造一个包容的工作环境。我们欢迎来自各种背景的申请者,并致力于提供平等的机会。如果您在招聘过程中需要任何便利,请提交便利请求表格,我们将共同努力满足您的需求。
Cohere的全职员工享受这些福利
- 🤝 开放和包容的文化和工作环境
- 🧑💻 与处于AI研究前沿的团队紧密合作
- 🍽 每周午餐津贴、办公室午餐和零食
- 🦷 全面的健康和牙科福利,包括一个单独的预算来照顾您的心理健康
- 🐣 100% 父母假补贴,最长可达6个月
- 🎨 个人充实福利,涵盖艺术和文化、健身和健康、优质时间和工作空间改善
- 🏙 灵活的远程工作,在多伦多、纽约、旧金山、伦敦和巴黎设有办公室,以及协作工作津贴
- ✈️ 6周假期(30个工作日)
资历水平
- 中高级
就业类型
- 全职
职位功能
- 信息技术
行业
- 软件开发
地点:加拿大魁北克省蒙特利尔
#J-18808-Ljbffr