机会
我的客户正在构建智能代理,这些代理能够在医疗、金融和法律等领域执行复杂且高风险的任务,具备可靠性、适应性和类人推理能力。他们的重点是创建不仅能在专家水平上执行的系统,还能通过反馈、模拟和自主学习不断进化。在他们的工作核心是一个新颖的代理架构,旨在克服人工智能中的核心信任和对齐挑战。
角色
作为强化学习研究员,您将在开发下一代人工智能代理的训练策略中发挥重要作用。您将引领从有支撑的系统向强化学习框架的转变,使代理能够通过战略环境和递归反馈循环自主改进。您的工作将塑造我们如何施加模拟压力以微调行为、增强推理能力,并构建能够最终创建其他代理的智能体。这个职位对我们中期路线图至关重要,专注于构建自我改进系统,并设定值得信赖的代理开发的新标准。
您的工作内容
• 设计并实施推动代理性能的进化训练环境,以符合长期发展目标
• 开发与内部记忆、推理和知识系统紧密集成的强化学习策略
• 推进可验证结果的强化学习技术,利用外部评估信号和预言者
• 构建用于迭代提炼和放大的系统,实现递归技能增强
• 研究自我博弈方法,以促进代理驱动的任务创建和解决,尽量减少人类监督
• 创建分阶段的训练管道,在记忆系统、上下文引擎和评估支架之间层叠学习
• 优化跨任务和信心阈值的计算分配策略
• 在战略探索与利用学习行为之间寻求平衡的方法创新
• 探索基于递归的学习,以赋予代理构建和训练其他代理的能力
• 通过将学习资源指向高影响技能差距来推动有针对性的改进
• 与模拟和评估研究人员密切合作,构建集成训练生态系统
• 与代理研究人员合作,利用强化学习将行为扩展到更广泛的任务空间
• 参与研究出版物和技术文档的撰写
• 与工程团队合作,将实验框架投入生产
我们所寻找的
• 具有机器学习、强化学习或相关学科的博士学位或可比研究背景
• 在现代强化学习技术方面的专业知识,特别是在语言模型或决策系统中的应用
• 具有强化学习人类反馈(RLHF)或类似反馈驱动学习范式的经验
• 在奖励建模、评估方法或课程设计方面的扎实基础
• 熟悉自我博弈、递归改进或高效提炼等技术
• 理解大规模系统中的计算高效学习
• 了解应用强化学习中的部署限制和安全考虑
• 在研究中有实验严谨性和创新性的良好记录
• 扎实的编程技能和实施可扩展学习管道的能力
• 在顶级会议或期刊发表的历史是加分项
• 对构建不仅具备能力而且稳健、安全、与人类目标一致的人工智能系统有深厚兴趣
列出的薪资范围是基础薪资。此外还将有股权补偿。