Resaro成立的信念是人工智能将以我们无法想象的方式改变世界,但每一项新技术都需要保障措施来推进。
我们正在寻找一位具有深度学习语言模型经验的高级数据科学家,与一个定义类别的AI保障企业合作,帮助公司测试和审计其AI系统。您将帮助评估和压力测试AI模型,以确保它们适合用途并安全部署。我们重视强大的技术能力和实际经验,并有机会解决具有挑战性的问题,将尖端技术应用于商业应用。
您的职责包括:
- 领导设计、实施和执行稳健的框架,以评估生成性AI系统的性能,包括文本和多模态模型。这将适用于基础模型、微调模型以及端到端系统。
- 建立和完善模型质量的指标和基准,包括输出保真度、多样性、创造力和偏见检测。
- 对大型语言模型进行技术AI评估、基准测试和“红队”测试,包括评估其性能的稳健性、内嵌偏见、对越狱和提示注入攻击的脆弱性。
- 与客户和较初级团队成员合作,使用最新的科学研究设计定制评估方法,以满足客户的需求。
- 与产品管理团队合作,开发一套由科学研究和方法支持的技术和分析AI评估框架和工具。这些工具应评估AI和机器学习系统的稳健性、可解释性、公平性、隐私、安全性和安全性,重点关注大型语言模型。
- 领导大型语言模型(LLM)评估框架的设计和实施,包括但不限于基于GPT的模型、BERT、T5和其他最先进的架构。
- 定义和完善评估模型性能的指标,如困惑度、BLEU、ROUGE、准确性、一致性、事实一致性和偏见检测。
- 领导策划和管理大型高质量数据集以评估LLM的工作,确保数据具有代表性、公正性和伦理来源。
- 指导初级数据科学家,指导他们在LLM评估的最佳实践和NLP的最新进展。
- 及时了解自然语言处理(NLP)和LLM评估的最新进展,应用尖端方法和工具来提高模型性能。
您能够:
- 从第一性原理出发思考,并希望从多学科方法(如设计、工程和社会科学)解决最具挑战性的技术问题。
- 以身作则,无论您是经理还是个人贡献者。您希望与充满激情和才华的人合作,人们也希望与您合作。
- 以开放、坦率和尊重的方式沟通。
- 在快节奏的环境中茁壮成长。
- 愿意探索不确定性,同时对手头的任务保持激光般的专注。
您具备:
- 作为数据科学家在实际环境中训练或部署基于深度学习的自然语言模型/大型语言模型的丰富经验。大约5-8年的工作经验或相关的研究生学位,并有2年以上的LLM构建和部署经验。
- 使用困惑度、BLEU、ROUGE等指标评估LLM的丰富经验,以及以人为中心的评估技术。
- 在管理和分析大型复杂语言数据集方面有成功的经验,包括文本预处理和标记化。
- 优秀的书面和口头沟通能力,能够清晰地向不同的受众(包括非技术人员)解释复杂的技术概念。
- 扎实的Python编程技能和构建自动化管道以进行持续模型评估的经验。
- 对AI和大型语言模型的安全和负责任使用的应用研究充满热情和兴趣。
加分项:
- 在生成性AI或模型评估领域发表过研究。
- 拥有模型可解释性工具和方法的实际经验。
- 熟悉云平台(如AWS、GCP)用于可扩展的模型评估和部署。
关于我们:
Resaro是一家全球AI保障公司,开创了AI测试和评估领域。我们是一支由AI专家、工程师和数据科学家组成的团队。我们的使命是确保一个值得信赖的AI市场。