人工智能研究员 - 强化学习 - Alldus招聘

机会我的客户正在构建智能代理，这些代理能够在医疗、金融和法律等领域执行复杂且高风险的任务，具备可靠性、适应性和类人推理能力。他们的重点是创建不仅能在专家水平上执行的系统，还能通过反馈、模拟和自主学习不断进化。在他们的工作核心是一个新颖的代理架构，旨在克服人工智能中的核心信任和对齐挑战。角色作为强化学习研究员，您将在开发下一代人工智能代理的训练策略中发挥重要作用。您将引领从有支撑的系统向强化学习框架的转变，使代理能够通过战略环境和递归反馈循环自主改进。您的工作将塑造我们如何施加模拟压力以微调行为、增强推理能力，并构建能够最终创建其他代理的智能体。这个职位对我们中期路线图至关重要，专注于构建自我改进系统，并设定值得信赖的代理开发的新标准。您的工作内容 • 设计并实施推动代理性能的进化训练环境，以符合长期发展目标 • 开发与内部记忆、推理和知识系统紧密集成的强化学习策略 • 推进可验证结果的强化学习技术，利用外部评估信号和预言者 • 构建用于迭代提炼和放大的系统，实现递归技能增强 • 研究自我博弈方法，以促进代理驱动的任务创建和解决，尽量减少人类监督 • 创建分阶段的训练管道，在记忆系统、上下文引擎和评估支架之间层叠学习 • 优化跨任务和信心阈值的计算分配策略 • 在战略探索与利用学习行为之间寻求平衡的方法创新 • 探索基于递归的学习，以赋予代理构建和训练其他代理的能力 • 通过将学习资源指向高影响技能差距来推动有针对性的改进 • 与模拟和评估研究人员密切合作，构建集成训练生态系统 • 与代理研究人员合作，利用强化学习将行为扩展到更广泛的任务空间 • 参与研究出版物和技术文档的撰写 • 与工程团队合作，将实验框架投入生产我们所寻找的 • 具有机器学习、强化学习或相关学科的博士学位或可比研究背景 • 在现代强化学习技术方面的专业知识，特别是在语言模型或决策系统中的应用 • 具有强化学习人类反馈（RLHF）或类似反馈驱动学习范式的经验 • 在奖励建模、评估方法或课程设计方面的扎实基础 • 熟悉自我博弈、递归改进或高效提炼等技术 • 理解大规模系统中的计算高效学习 • 了解应用强化学习中的部署限制和安全考虑 • 在研究中有实验严谨性和创新性的良好记录 • 扎实的编程技能和实施可扩展学习管道的能力 • 在顶级会议或期刊发表的历史是加分项 • 对构建不仅具备能力而且稳健、安全、与人类目标一致的人工智能系统有深厚兴趣列出的薪资范围是基础薪资。此外还将有股权补偿。