机器学习研究科学家 / 研究工程师，LLM 评估 - Scale AI招聘

作为前沿人工智能公司的领先数据和评估合作伙伴，Scale 致力于推进大语言模型（LLMs）的评估和基准测试。我们正在构建行业领先的 LLM 排行榜，为模型性能评估设定新的标准。我们的使命是开发严格、可扩展和公平的评估方法，以推动下一代人工智能能力的发展。我们正在寻找具有 LLM 评估专业知识的研究科学家和研究工程师。您将在开发和实施新颖的评估方法、指标和基准方面发挥关键作用，以评估我们尖端 LLM 的能力和局限性。我们鼓励与行业和学术界的合作，并支持研究成果的发表。成功的候选人将与顶级基础模型实验室合作，提供有关下一代生成 AI 模型开发的技术和战略输入。您将： • 设计和开发大型语言模型的新颖评估基准，涵盖编码、指令跟随、事实性、鲁棒性和公平性等领域。 • 研究现有 LLM 评估技术的有效性和局限性。 • 与内部团队和外部合作伙伴合作，完善指标并创建标准化评估协议。 • 使用现代机器学习框架实施可扩展和可重复的评估流程。 • 在顶级人工智能会议上发表研究成果，并为开源基准测试倡议做出贡献。理想情况下，您具备： • 计算机科学、机器学习、人工智能或相关领域的博士或硕士学位。 • 深度学习和 LLM 的扎实背景，具有模型评估经验。 • 熟悉 LLM 评估的基准工具和数据集。 • 具备大规模模型训练和部署的实践经验。 • 优秀的书面和口头沟通能力。 • 在主要会议（如 NeurIPS、ICML、ICLR、ACL、EMNLP、CVPR 等）和/或期刊上发表过机器学习领域的研究。 • 具有客户面对面角色的经验。请注意：我们的政策要求在重新考虑同一职位的候选人之前有 90 天的等待期。这使我们能够确保对所有申请者进行公平和全面的评估。关于我们：在 Scale，我们相信从传统软件到人工智能的过渡是我们时代最重要的转变之一。我们的使命是加速这一过程，覆盖每个行业，我们的团队正在改变组织构建和部署人工智能的方式。我们的产品为全球最先进的 LLM、生成模型和计算机视觉模型提供动力。我们受到生成 AI 公司（如 OpenAI、Meta 和微软）、政府机构（如美国陆军和美国空军）以及包括通用汽车和埃森哲在内的企业的信任。我们正在扩展团队，以加速 AI 应用程序的发展。我们相信每个人都应该能够在工作中展现真实的自我，这就是为什么我们自豪地成为一个包容性和平等机会的工作场所。我们承诺提供平等的就业机会，无论种族、肤色、血统、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾状态、性别认同或退伍军人身份。我们致力于与身体和精神残疾的申请者合作，并提供合理的便利。如果您由于残疾需要在申请或招聘过程中获得帮助和/或合理的便利，请通过 accommodations@scale.com 联系我们。有关更多信息，请参见美国劳动部的《了解您的权利》海报。我们遵守美国劳动部的薪酬透明度条款。请注意：我们收集、保留和使用个人数据用于我们的专业业务目的，包括通知您可能感兴趣的工作机会并与我们的附属公司分享。我们限制收集的个人数据为我们认为适当和必要的，以满足申请者的需求、提供我们的服务并遵守适用法律。我们在处理您的申请时收集的任何信息将根据我们的内部政策和旨在保护个人数据的程序进行处理。有关更多信息，请参见我们的隐私政策。