关于团队 ChatGPT 强化学习与人类反馈（RLHF）团队是后期培训组织中的一个专业子团队，专注于通过人类反馈的强化学习（RLHF）及相关方法，使 ChatGPT 模型与用户需求保持一致。我们的使命是通过学习大规模反馈，使 ChatGPT 对用户更加有帮助和个性化，从而创造更好的体验。团队开发奖励建模的科学，扩大基于反馈的训练，并确保我们的模型提供正确性和细致入微的人类偏好行为。我们与研究、产品和应用团队紧密合作，提供可衡量的模型质量和用户体验改进。我们的工作直接影响全球数百万用户，并为 OpenAI 的使命做出贡献，即广泛分发安全的人工智能。关于角色作为 ChatGPT RLHF 团队的研究工程师或科学家，您将为开发先进的奖励模型和 RL 技术做出贡献，以使 ChatGPT 模型与用户偏好保持一致。这个角色结合了前沿研究与工程，要求对构建有影响力的、以用户为中心的人工智能系统充满热情。工作地点该角色位于加利福尼亚州旧金山。我们采用每周 3 天在办公室的混合工作模式，并为新员工提供搬迁援助。在这个角色中，您将： • 推进强化学习和奖励建模的研究，以增强 ChatGPT 对不同用户偏好的对齐。 • 构建强大的离线评估和指标，以预测对产品的影响。 • 与跨职能团队合作，在生产中部署模型，并根据现实反馈快速迭代。如果您符合以下条件，您可能会在这个角色中表现出色： • 拥有 2 年以上强化学习、RLHF 或大规模机器学习系统的经验，并具备面向用户的应用经验。 • 拥有机器学习、计算机科学或相关领域的博士学位或同等研究经验，展现出推动有影响力研究的强大能力。 • 具备 RLHF、推荐系统或基于反馈的模型训练的实践经验，并深入理解如何将这些集成到现实系统中。为什么选择这个角色？ ChatGPT RLHF 团队在研究和产品的交汇处运作，塑造 AI 驱动互动的未来。您将有机会处理有影响力的、面向用户的问题，同时应对 AI 对齐和模型优化中一些最令人兴奋的挑战。关于 OpenAI OpenAI 是一家人工智能研究和部署公司，致力于确保通用人工智能惠及全人类。我们推动人工智能系统能力的边界，并寻求通过我们的产品安全地将其部署到世界。人工智能是一种极其强大的工具，必须在安全和人类需求的核心下创建，为实现我们的使命，我们必须包容和重视形成整个人类全景的多种不同视角、声音和经验。我们是一个平等机会的雇主，不会因种族、宗教、国籍、性别、性取向、年龄、退伍军人身份、残疾或任何其他法律保护状态而歧视。 OpenAI 平权行动和就业机会政策声明对于美国候选人：根据旧金山公平机会法令，我们将考虑具有逮捕和定罪记录的合格申请者。我们致力于为残疾申请者提供合理的便利，申请可通过此链接提出。 OpenAI 全球申请者隐私政策在 OpenAI，我们相信人工智能有潜力帮助人们解决巨大的全球挑战，我们希望人工智能的好处能够广泛分享。加入我们，共同塑造技术的未来。

研究工程师，ChatGPT 强化学习与人类反馈

OpenAI