关于LLM数据公司
LLM数据公司(YC X25)为基础模型实验室和前沿应用AI公司提供后训练数据和强化学习环境。我们已从一级风险投资公司筹集了360万美元,并且每月增长超过200%。
职责
• 设计和实施可扩展的强化学习方案,用于特定任务的后训练模型
• 开发模块化环境、奖励函数和评估器框架,以支持内部和面向客户的任务
• 在可扩展基础设施和现代强化学习框架的交叉点推动研究,以实现强化学习即服务
• 推动基础研究,发布开源环境和训练数据
• 构建数据生成和策划管道,以支持前沿后训练
• 与产品团队合作,为非技术用户提供友好的数据生成界面
资格
• 计算机科学或相关领域的学士或硕士学位
• 熟悉核心工具(verl、PyTorch等)
• 熟悉现代后训练技术(GRPO等)
• 具有评估和奖励工程经验
• 在顶级期刊上发表过文章(ICLR、NeurIPS、ICML等)
加入我们的理由
• 前沿研究:参与未发表的新颖训练环境的工作
• 直接实验室接触:参与实验室实际使用和验证的项目
• 高度自主:在宽广的设计空间中提出和运行实验,监督最少
• 早期团队成员:作为前10名成员之一加入,拥有显著的股权增值潜力