作为前沿 AI 公司的领先数据和评估合作伙伴,Scale 致力于推进大语言模型(LLM)的评估和基准测试。我们正在建立行业领先的 LLM 排行榜,设定模型性能评估的新标准。我们的使命是开发严格、可扩展和公平的评估方法,以推动下一代 AI 能力的发展。
我们正在寻找在 LLM 评估方面具有专业知识的研究科学家和研究工程师。您将在开发和实施新颖的评估方法、指标和基准方面发挥关键作用,以评估我们尖端 LLM 的能力和局限性。我们鼓励与行业和学术界的合作,并支持研究成果的发表。成功的候选人将与顶级基础模型实验室合作,提供技术和战略输入,以开发下一代生成 AI 模型。
您的工作将包括:
• 设计和开发大语言模型的新评估基准,涵盖编码、指令遵循、事实准确性、鲁棒性和公平性等领域。
• 研究现有 LLM 评估技术的有效性和局限性。
• 与内部团队和外部合作伙伴合作,完善指标并创建标准化评估协议。
• 使用现代 ML 框架实施可扩展和可复现的评估管道。
• 在顶级 AI 会议上发表研究成果,并为开源基准测试倡议做出贡献。
理想的候选人应具备:
• 计算机科学、机器学习、人工智能或相关领域的博士或硕士学位。
• 深度学习和 LLM 的扎实背景,具备模型评估经验。
• 熟悉 LLM 评估的基准工具和数据集。
• 具备大规模模型训练和部署的实践经验。
• 优秀的书面和口头沟通能力。
• 在主要会议(如 NeurIPS、ICML、ICLR、ACL、EMNLP、CVPR 等)和/或期刊上发表过机器学习领域的研究。
• 具备客户面对面的工作经验。
请注意:我们的政策要求在重新考虑同一职位的候选人之前有 90 天的等待期。这使我们能够确保对所有申请者进行公平和全面的评估。
关于我们:
在 Scale,我们相信从传统软件到 AI 的转变是我们这个时代最重要的变革之一。我们的使命是加快这一转变在各个行业的进程,我们的团队正在改变组织构建和部署 AI 的方式。我们的产品为全球最先进的 LLM、生成模型和计算机视觉模型提供支持。我们受到 OpenAI、Meta 和 Microsoft 等生成 AI 公司的信任,以及美国陆军和美国空军等政府机构,以及包括通用汽车和埃森哲等企业的信任。我们正在扩展团队,以加速 AI 应用的发展。
我们相信每个人都应该能够在工作中展现真实的自我,这就是为什么我们自豪地成为一个包容和机会平等的工作场所。我们致力于提供平等的就业机会,不论种族、肤色、祖籍、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾状况、性别认同或退伍军人身份。
我们致力于与身体和心理残疾的申请者合作并提供合理的便利。如果您因残疾需要在申请或招聘过程中获得帮助和/或合理的便利,请通过 accommodations@scale.com 联系我们。有关更多信息,请参阅美国劳动部的《了解您的权利》海报。
我们遵守美国劳动部的薪酬透明度条款。
请注意:我们收集、保留和使用个人数据用于我们的专业业务目的,包括通知您可能感兴趣的工作机会,并与我们的附属公司分享。我们限制收集的个人数据,仅限于我们认为适当和必要的,以管理申请者的需求、提供我们的服务并遵守适用法律。与您的申请相关的任何信息将根据我们的内部政策和旨在保护个人数据的程序进行处理。有关更多信息,请参阅我们的隐私政策。