角色:可解释的人工智能
简介
2024-0064,可解释的人工智能
地点:外部办公地点
开始日期:2024年3月18日
职责
根据本次工作范围的合同将:
• 进行分析、概念开发、模型创建、编码、撰写报告、进行外部讨论并报告进展情况。
• 承包商应分析使用机器学习方法的可能性,包括大型语言模型(LLMs),并评估它们在使用可解释的人工智能创建定义文件保密标签模型方面的适用性。
• 承包商应分析从NCI机构接收的示例数据集,该数据集由文件组成。该集合将包含指向其安全标签的段落级和整个文件级的注释子集。
• 承包商应开发一种从文件中提取元数据的机制。
• 承包商应根据提供的文件集识别一组确定文件保密级别的规则。此步骤的目的是提出足够大的规则集以评估文档分类自动化方法的可行性。
• 承包商应将规则应用于测试文件集。预计将使用大型语言模型(LLMs)以促进语言理解。
• 承包商应证明使用人工智能方法(包括LLMs)自动和半自动(用户辅助)分类文件的可行性
开发并交付技术报告,其中包括:
• 第一部分:分析的解决方案和工作方法。
• 第二部分:解决方案的架构和部署。
• 第三部分:结果验证。
• 第四部分:安装指南和手册,以及必要的代码(例如Python)和Jupiter笔记本。
参加项目会议并记录完成的工作。
与NCI机构员工进行基本的传播活动。
由NCI机构提供用于分析的文件数据集将在合同授予后交付给承包商。
因此,承包商需要:
• 提出元数据提取机制:
• 这应包括有监督学习方法和引导提取,旨在逐段检索元数据。
• b)能够识别:
• 文档详细信息,例如:分类级别(如果有)、ID、类型、日期和语言。
• 作者信息,例如:作者信息和起草部门或机构。
• 内容信息,例如:主题/主题、关键词、提取实体或特定名称。
• 地理数据,例如:在文件中提到的特定位置或地区。
• 提到的各方,例如:与文件中提到的相关实体有关的详细信息。
• vi)相关文档,例如:与关联、链接或引用的文件有关的参考。
• 根据STANAG 5636和4774的其他元数据。
• STANAGS 5636和4774将在合同授予后由NCI机构交付给承包商
提出一套规则来确定文件的保密级别
• 规则集应能够评估自动建议元数据和安全标签的整体提议模型。
• 规则应在不同的抽象和复杂性级别上进行定义,包括:使用提取的元数据、特定敏感术语、短语或需要对文本进行语义理解的上下文。
自动应用规则到测试集
• 为了评估句子/段落/整个文件的保密级别
• 在每个步骤中保持高度的透明度和问责制。
• 评估系统性能并收集用户体验。
NCI机构员工将提供监督和输入,应在工作进行中予以考虑,但不免除承包商对可交付成果的责任。