研究工程师,ChatGPT 强化学习与人类反馈

1个月前全职
86.2万 - 129.3万 / 年 OpenAI

OpenAI

location 旧金山
unsaved
关于团队 ChatGPT 强化学习与人类反馈(RLHF)团队是后期培训组织中的一个专业子团队,专注于通过人类反馈的强化学习(RLHF)及相关方法,使 ChatGPT 模型与用户需求保持一致。我们的使命是通过学习大规模反馈,使 ChatGPT 对用户更加有帮助和个性化,从而创造更好的体验。团队开发奖励建模的科学,扩大基于反馈的训练,并确保我们的模型提供正确性和细致入微的人类偏好行为。 我们与研究、产品和应用团队紧密合作,提供可衡量的模型质量和用户体验改进。我们的工作直接影响全球数百万用户,并为 OpenAI 的使命做出贡献,即广泛分发安全的人工智能。 关于角色 作为 ChatGPT RLHF 团队的研究工程师或科学家,您将为开发先进的奖励模型和 RL 技术做出贡献,以使 ChatGPT 模型与用户偏好保持一致。这个角色结合了前沿研究与工程,要求对构建有影响力的、以用户为中心的人工智能系统充满热情。 工作地点 该角色位于加利福尼亚州旧金山。我们采用每周 3 天在办公室的混合工作模式,并为新员工提供搬迁援助。 在这个角色中,您将: • 推进强化学习和奖励建模的研究,以增强 ChatGPT 对不同用户偏好的对齐。 • 构建强大的离线评估和指标,以预测对产品的影响。 • 与跨职能团队合作,在生产中部署模型,并根据现实反馈快速迭代。 如果您符合以下条件,您可能会在这个角色中表现出色: • 拥有 2 年以上强化学习、RLHF 或大规模机器学习系统的经验,并具备面向用户的应用经验。 • 拥有机器学习、计算机科学或相关领域的博士学位或同等研究经验,展现出推动有影响力研究的强大能力。 • 具备 RLHF、推荐系统或基于反馈的模型训练的实践经验,并深入理解如何将这些集成到现实系统中。 为什么选择这个角色? ChatGPT RLHF 团队在研究和产品的交汇处运作,塑造 AI 驱动互动的未来。您将有机会处理有影响力的、面向用户的问题,同时应对 AI 对齐和模型优化中一些最令人兴奋的挑战。 关于 OpenAI OpenAI 是一家人工智能研究和部署公司,致力于确保通用人工智能惠及全人类。我们推动人工智能系统能力的边界,并寻求通过我们的产品安全地将其部署到世界。人工智能是一种极其强大的工具,必须在安全和人类需求的核心下创建,为实现我们的使命,我们必须包容和重视形成整个人类全景的多种不同视角、声音和经验。 我们是一个平等机会的雇主,不会因种族、宗教、国籍、性别、性取向、年龄、退伍军人身份、残疾或任何其他法律保护状态而歧视。 OpenAI 平权行动和就业机会政策声明 对于美国候选人:根据旧金山公平机会法令,我们将考虑具有逮捕和定罪记录的合格申请者。 我们致力于为残疾申请者提供合理的便利,申请可通过此链接提出。 OpenAI 全球申请者隐私政策 在 OpenAI,我们相信人工智能有潜力帮助人们解决巨大的全球挑战,我们希望人工智能的好处能够广泛分享。加入我们,共同塑造技术的未来。