RL环境工程师(LLM训练环境和性能)

圣弗朗西斯科 10天前全职 网络
757 - 1.2K / 月
关于公司 XOR 正在代表我们的合作伙伴 Preference Model 独家招聘。Preference Model 正在构建下一代训练数据,以推动 AI 的未来。如今的模型功能强大,但由于我们希望使用这些模型的许多任务超出了其训练数据分布,因此未能在各种用例中发挥其潜力。Preference Model 创建了强化学习环境,封装了真实世界的用例,使 AI 系统能够在现实基础上进行练习、适应和学习反馈。我们寻求将真实世界纳入模型的分布中。我们的创始团队在 Anthropic 的数据团队中拥有构建数据基础设施、分词器和 Claude 模型背后数据集的经验。我们正在与领先的 AI 实验室合作,推动 AI 更接近实现其变革潜力。公司已从硅谷的一流风投公司完成了一轮大规模种子轮融资,并正在与顶级 AI 实验室合作,确定优先事项和时间表。XOR 负责该职位的端到端招聘流程(筛选、家庭作业和与 Preference Model 团队的协调)。请通过此职位发布申请以被考虑。 您的工作内容 您将设计和构建训练和评估 LLM 的现实工程任务和环境。根据您的优势,您可能会更专注于生产 ML 系统,或更专注于性能和低级优化——两者在这里都很有价值。 职责 - 构建具有高工程质量的 MLE/SWE 风格的 RL 环境和任务(不是笔记本)。 - 针对特定模型并匹配定义的难度分布。 - 快速迭代——根据反馈在 24 小时内编辑和改进任务。 - 在最少监督下交付——强烈的责任感是关键。 必要条件(适用于所有人) - 强大的 Python(工程质量)。 - 生产心态——调试、可靠性、迭代速度。 - 在生产中动手进行 LLM/GenAI 工作(交付和操作真实系统)。 - Docker 和端到端所有权(构建、修复、扩展管道)。 - 至少 3 小时与 PST 重叠和高级英语(C1/C2)。 - 您可以满足吞吐量期望并快速响应反馈。 加分项(任一轨道都很好) - 轨道 A - ML 系统和 LLM 工具(更高层次的系统) - 评估工具、MLOps/CI/CD、监控、可扩展的管道、数据工具。 - 设计用于评估或类似 RL 的反馈循环的任务和环境的经验(可选)。 - 轨道 B - 性能和低级优化(内核和推理轨道) - GPU/CPU 性能基础——内存层次结构、线程/同步、缓存/合并。 - CUDA/HIP/ROCm 内核优化、PyTorch 自定义操作/扩展、编译器/JIT 栈(Triton、XLA、TorchInductor、LLVM/MLIR/TVM)。 - 混合/低精度内核(FP16/BF16/FP8/INT8)和性能权衡。 重要提示 您不需要之前的“RL 环境”工作经验。如果您是强大的 ML 系统工程师或能够构建严格任务和工具的强大性能和低级工程师,您可以非常适合。接触 RL、bandits 或代理系统是一个加分项,但不是硬性要求。 不适合如果 - 您主要是没有强大 ML 和工程基础的提示工程师。 - 您仅进行研究而几乎没有或没有生产所有权。 - 您只在笔记本中构建或严重依赖于托管的 AutoML 工具。 工作条件 - 远程合同工,全职每周 40 小时,灵活的时间表。 - 除基本工资外,每交付任务还有奖金。 - 潜在的 FTE 和搬迁路径(取决于表现和相互契合)。 薪酬 - $90-$130 美元/小时基本工资(相当于 $15,00-$22,500),取决于资历和家庭作业质量。 - 除基本工资外的月度绩效奖金。 流程 1) 通过招聘网站申请 - 请提交您的简历,并简要说明哪个轨道最适合您: - 轨道 A - ML 系统和 LLM 工具(更高层次的系统) 您构建生产 LLM/ML 系统:评估工具、数据和工具、MLOps/CI/CD、监控、可扩展的管道、可靠性和调试。 - 轨道 B - 性能和低级优化(内核和推理轨道) 您专注于性能和系统:GPU/CPU 优化、CUDA 或内核工作、PyTorch 扩展/自定义操作、编译器/JIT 栈(例如 Triton、TorchInductor、LLVM/MLIR)、推理效率和分析。 2) 短期家庭作业(表格) - 申请后,XOR 将以表格形式分享一个小任务的短期家庭作业。 - Preference Model 技术团队将审核您的提交。 - 同时,您可以安排与 XOR 的简短通话,以了解有关该职位和公司的更多信息并提出问题。 3) 团队负责人面试 - 如果家庭作业表现良好,我们将安排与 Preference Model 团队的技术面试。 - 最终决定在面试后做出。 关于家庭作业补偿的说明 如果您收到录用通知,家庭作业所花费的时间可以获得补偿。