角色与职责
1. 负责大型语言模型的强化学习算法的研究与开发,包括奖励模型、强化学习算法的开发与实施以及效果调优。
2. 负责探索和追踪行业和技术中的前沿强化学习算法,并将其应用于大型模型场景,以提高大型模型的对齐能力。
资格要求
1. 计算机、数学、机器学习等相关专业的硕士学位及以上学历,具备良好的数学基础。
2. 熟悉深度学习的常见理论和方法,熟练使用PyTorch等主流深度学习框架。
3. 熟悉强化学习和大型语言模型对齐相关技术,有大型语言模型奖励模型、强化学习开发和调优经验者优先考虑。
4. 具有较强的问题分析与解决能力,以及良好的数据洞察力和研究能力。
5. 具有强烈的进取精神、求知欲和团队合作精神,热衷于追求技术创新。