人工智能研究员 - 强化学习

1天前全职
143.8万 - 215.7万 / 年 Alldus

Alldus

location 纽约
unsaved
机会 我的客户正在构建智能代理,这些代理能够在医疗、金融和法律等领域执行复杂且高风险的任务,具备可靠性、适应性和类人推理能力。他们的重点是创建不仅能在专家水平上执行的系统,还能通过反馈、模拟和自主学习不断进化。在他们的工作核心是一个新颖的代理架构,旨在克服人工智能中的核心信任和对齐挑战。 角色 作为强化学习研究员,您将在开发下一代人工智能代理的训练策略中发挥重要作用。您将引领从有支撑的系统向强化学习框架的转变,使代理能够通过战略环境和递归反馈循环自主改进。您的工作将塑造我们如何施加模拟压力以微调行为、增强推理能力,并构建能够最终创建其他代理的智能体。这个职位对我们中期路线图至关重要,专注于构建自我改进系统,并设定值得信赖的代理开发的新标准。 您的工作内容 • 设计并实施推动代理性能的进化训练环境,以符合长期发展目标 • 开发与内部记忆、推理和知识系统紧密集成的强化学习策略 • 推进可验证结果的强化学习技术,利用外部评估信号和预言者 • 构建用于迭代提炼和放大的系统,实现递归技能增强 • 研究自我博弈方法,以促进代理驱动的任务创建和解决,尽量减少人类监督 • 创建分阶段的训练管道,在记忆系统、上下文引擎和评估支架之间层叠学习 • 优化跨任务和信心阈值的计算分配策略 • 在战略探索与利用学习行为之间寻求平衡的方法创新 • 探索基于递归的学习,以赋予代理构建和训练其他代理的能力 • 通过将学习资源指向高影响技能差距来推动有针对性的改进 • 与模拟和评估研究人员密切合作,构建集成训练生态系统 • 与代理研究人员合作,利用强化学习将行为扩展到更广泛的任务空间 • 参与研究出版物和技术文档的撰写 • 与工程团队合作,将实验框架投入生产 我们所寻找的 • 具有机器学习、强化学习或相关学科的博士学位或可比研究背景 • 在现代强化学习技术方面的专业知识,特别是在语言模型或决策系统中的应用 • 具有强化学习人类反馈(RLHF)或类似反馈驱动学习范式的经验 • 在奖励建模、评估方法或课程设计方面的扎实基础 • 熟悉自我博弈、递归改进或高效提炼等技术 • 理解大规模系统中的计算高效学习 • 了解应用强化学习中的部署限制和安全考虑 • 在研究中有实验严谨性和创新性的良好记录 • 扎实的编程技能和实施可扩展学习管道的能力 • 在顶级会议或期刊发表的历史是加分项 • 对构建不仅具备能力而且稳健、安全、与人类目标一致的人工智能系统有深厚兴趣 列出的薪资范围是基础薪资。此外还将有股权补偿。