LLM科学家在Resaro的职位 Resaro成立于相信人工智能将以我们无法想象的方式改变世界，但每项新技术都需要保障措施来推进。我们正在寻找一位具有深度学习语言模型经验的高级数据科学家，与一个定义类别的AI保障企业合作，帮助公司测试和审核其AI系统。您将帮助评估和压力测试AI模型，以确保它们适合用途并安全部署。我们重视强大的技术能力和实际经验，并且有机会解决具有挑战性的问题，将尖端技术应用于商业应用。您的职责包括： - 领导设计、实施和执行强大的框架，以评估生成式AI系统的性能，包括文本和多模态模型。这将适用于基础模型、微调模型以及端到端系统。 - 建立和完善模型质量的指标和基准，包括输出保真度、多样性、创造力和偏见检测。 - 对大型语言模型进行技术AI评估、基准测试和“红队”测试，包括评估其性能的稳健性、嵌入的偏见、对越狱和提示注入攻击的脆弱性。 - 与客户和更初级的团队成员合作，使用最新的科学研究设计定制评估方法，以满足客户的需求。 - 与产品管理团队合作，开发一套由科学研究和方法支持的技术和分析AI评估框架和工具。这些工具应评估AI和机器学习系统的稳健性、可解释性、公平性、隐私、安全性和安全性，重点关注大型语言模型。 - 领导大型语言模型（LLMs）的评估框架的设计和实施，包括但不限于基于GPT的模型、BERT、T5和其他最先进的架构。 - 定义和完善评估模型性能的指标，如困惑度、BLEU、ROUGE、准确性、一致性、事实一致性和偏见检测。 - 领导策划和管理大型高质量数据集的工作，以评估LLMs，确保数据具有代表性、公正性和伦理来源。 - 指导初级数据科学家，引导他们掌握LLM评估的最佳实践和NLP的最新进展。 - 及时了解自然语言处理（NLP）和LLM评估的最新进展，应用尖端方法和工具来提高模型性能。您能够： - 从第一原则思考，并希望从多学科方法（如设计、工程和社会科学）解决最具挑战性的技术问题。 - 无论您是经理还是个人贡献者，都能以身作则。您希望与充满激情和才华的人一起工作，人们也希望与您合作。 - 以开放、坦诚和尊重的方式沟通。 - 在快节奏的环境中茁壮成长。 - 愿意探索不确定性，同时始终专注于当前的任务。您具备： - 作为数据科学家在实际环境中训练或部署基于深度学习的自然语言模型/大型语言模型的丰富经验。大约5-8年的工作经验或相关的研究生学位，并有2年以上的工作经验构建和部署LLMs。 - 在使用困惑度、BLEU、ROUGE和以人为中心的评估技术评估LLMs方面的丰富经验。 - 管理和分析大型复杂语言数据集的成功经验，包括文本预处理和标记化。 - 出色的书面和口头沟通能力，能够清晰地向不同受众（包括非技术人员）解释复杂的技术概念。 - 扎实的Python编程技能和构建自动化管道以进行持续模型评估的经验。 - 对AI安全和负责任使用以及大型语言模型的应用研究的热情和兴趣。加分项： - 在生成式AI或模型评估领域发表过研究。 - 拥有模型可解释性工具和方法的实际经验。 - 熟悉基于云的平台（如AWS、GCP）用于可扩展的模型评估和部署。关于我们： Resaro是一家全球AI保障公司，开创了AI测试和评估领域。我们是由AI专家、工程师和数据科学家组成的团队。我们的使命是确保一个值得信赖的AI市场。资历水平：中高级就业类型：全职工作职能：工程和信息技术行业：软件开发和IT系统测试与评估 #J-18808-Ljbffr

LLM科学家

Resaro International