创始研究工程师

圣弗朗西斯科 25天前全职 网络
2.1K - 2.8K / 年
关于LLM数据公司 LLM数据公司(YC X25)为基础模型实验室和前沿应用AI公司提供后训练数据和强化学习环境。我们已从一级风险投资公司筹集了360万美元,并且每月增长超过200%。 职责 • 设计和实施可扩展的强化学习方案,用于特定任务的后训练模型 • 开发模块化环境、奖励函数和评估器框架,以支持内部和面向客户的任务 • 在可扩展基础设施和现代强化学习框架的交叉点推动研究,以实现强化学习即服务 • 推动基础研究,发布开源环境和训练数据 • 构建数据生成和策划管道,以支持前沿后训练 • 与产品团队合作,为非技术用户提供友好的数据生成界面 资格 • 计算机科学或相关领域的学士或硕士学位 • 熟悉核心工具(verl、PyTorch等) • 熟悉现代后训练技术(GRPO等) • 具有评估和奖励工程经验 • 在顶级期刊上发表过文章(ICLR、NeurIPS、ICML等) 加入我们的理由 • 前沿研究:参与未发表的新颖训练环境的工作 • 直接实验室接触:参与实验室实际使用和验证的项目 • 高度自主:在宽广的设计空间中提出和运行实验,监督最少 • 早期团队成员:作为前10名成员之一加入,拥有显著的股权增值潜力