关于公司 XOR 正在代表我们的合作伙伴 Preference Model 独家招聘。Preference Model 正在构建下一代训练数据，以推动 AI 的未来。如今的模型功能强大，但由于我们希望使用这些模型的许多任务超出了其训练数据分布，因此未能在各种用例中发挥其潜力。Preference Model 创建了强化学习环境，封装了真实世界的用例，使 AI 系统能够在现实基础上进行练习、适应和学习反馈。我们寻求将真实世界纳入模型的分布中。我们的创始团队在 Anthropic 的数据团队中拥有构建数据基础设施、分词器和 Claude 模型背后数据集的经验。我们正在与领先的 AI 实验室合作，推动 AI 更接近实现其变革潜力。公司已从硅谷的一流风投公司完成了一轮大规模种子轮融资，并正在与顶级 AI 实验室合作，确定优先事项和时间表。XOR 负责该职位的端到端招聘流程（筛选、家庭作业和与 Preference Model 团队的协调）。请通过此职位发布申请以被考虑。您的工作内容您将设计和构建训练和评估 LLM 的现实工程任务和环境。根据您的优势，您可能会更专注于生产 ML 系统，或更专注于性能和低级优化——两者在这里都很有价值。职责 - 构建具有高工程质量的 MLE/SWE 风格的 RL 环境和任务（不是笔记本）。 - 针对特定模型并匹配定义的难度分布。 - 快速迭代——根据反馈在 24 小时内编辑和改进任务。 - 在最少监督下交付——强烈的责任感是关键。必要条件（适用于所有人） - 强大的 Python（工程质量）。 - 生产心态——调试、可靠性、迭代速度。 - 在生产中动手进行 LLM/GenAI 工作（交付和操作真实系统）。 - Docker 和端到端所有权（构建、修复、扩展管道）。 - 至少 3 小时与 PST 重叠和高级英语（C1/C2）。 - 您可以满足吞吐量期望并快速响应反馈。加分项（任一轨道都很好） - 轨道 A - ML 系统和 LLM 工具（更高层次的系统） - 评估工具、MLOps/CI/CD、监控、可扩展的管道、数据工具。 - 设计用于评估或类似 RL 的反馈循环的任务和环境的经验（可选）。 - 轨道 B - 性能和低级优化（内核和推理轨道） - GPU/CPU 性能基础——内存层次结构、线程/同步、缓存/合并。 - CUDA/HIP/ROCm 内核优化、PyTorch 自定义操作/扩展、编译器/JIT 栈（Triton、XLA、TorchInductor、LLVM/MLIR/TVM）。 - 混合/低精度内核（FP16/BF16/FP8/INT8）和性能权衡。重要提示您不需要之前的“RL 环境”工作经验。如果您是强大的 ML 系统工程师或能够构建严格任务和工具的强大性能和低级工程师，您可以非常适合。接触 RL、bandits 或代理系统是一个加分项，但不是硬性要求。不适合如果 - 您主要是没有强大 ML 和工程基础的提示工程师。 - 您仅进行研究而几乎没有或没有生产所有权。 - 您只在笔记本中构建或严重依赖于托管的 AutoML 工具。工作条件 - 远程合同工，全职每周 40 小时，灵活的时间表。 - 除基本工资外，每交付任务还有奖金。 - 潜在的 FTE 和搬迁路径（取决于表现和相互契合）。薪酬 - $90-$130 美元/小时基本工资（相当于 $15,00-$22,500），取决于资历和家庭作业质量。 - 除基本工资外的月度绩效奖金。流程 1) 通过招聘网站申请 - 请提交您的简历，并简要说明哪个轨道最适合您： - 轨道 A - ML 系统和 LLM 工具（更高层次的系统）您构建生产 LLM/ML 系统：评估工具、数据和工具、MLOps/CI/CD、监控、可扩展的管道、可靠性和调试。 - 轨道 B - 性能和低级优化（内核和推理轨道）您专注于性能和系统：GPU/CPU 优化、CUDA 或内核工作、PyTorch 扩展/自定义操作、编译器/JIT 栈（例如 Triton、TorchInductor、LLVM/MLIR）、推理效率和分析。 2) 短期家庭作业（表格） - 申请后，XOR 将以表格形式分享一个小任务的短期家庭作业。 - Preference Model 技术团队将审核您的提交。 - 同时，您可以安排与 XOR 的简短通话，以了解有关该职位和公司的更多信息并提出问题。 3) 团队负责人面试 - 如果家庭作业表现良好，我们将安排与 Preference Model 团队的技术面试。 - 最终决定在面试后做出。关于家庭作业补偿的说明如果您收到录用通知，家庭作业所花费的时间可以获得补偿。

RL环境工程师（LLM训练环境和性能）

Preference Model via XOR Inc.