混元大模型增强学习算法研究员（深圳/北京） - Tencent Holdings Limited招聘

角色与职责 1. 负责大型语言模型的强化学习算法的研究与开发，包括奖励模型、强化学习算法的开发与实施以及效果调优。 2. 负责探索和追踪行业和技术中的前沿强化学习算法，并将其应用于大型模型场景，以提高大型模型的对齐能力。资格要求 1. 计算机、数学、机器学习等相关专业的硕士学位及以上学历，具备良好的数学基础。 2. 熟悉深度学习的常见理论和方法，熟练使用PyTorch等主流深度学习框架。 3. 熟悉强化学习和大型语言模型对齐相关技术，有大型语言模型奖励模型、强化学习开发和调优经验者优先考虑。 4. 具有较强的问题分析与解决能力，以及良好的数据洞察力和研究能力。 5. 具有强烈的进取精神、求知欲和团队合作精神，热衷于追求技术创新。