1.摘要
本数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭教授主持开发,是一个通用领域大规模条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。该数据集的提出能够为条件性知识图谱的研究提供数据支持。
2.条件性知识图谱
在大多数情况下,事实的成立都是有条件的。条件和事实起着同样重要的作用,然而目前的知识图谱只关注事实而忽略了条件的存在。与此同时,信息提取技术也只关注从给定文本中提取事实,而忽略了条件信息。
为了能够让知识图谱建模条件信息更加充分,我们提出了一个三层的网络结构条件性知识图谱(Conditional-KG)。条件性知识图谱和传统知识图谱都是由三元组组成,但是条件性知识图谱同时包含事实元组和条件元组,以及元组之间的条件关系。
3.数据集
为了支持条件性知识图谱的研究,我们手动标注了一个条件性知识图谱数据集。我们选择了AG News文本分类语料作为条件性知识图谱的语料。AG News语料具有三大优势:
AG News中的数据是新闻的标题和一部分正文,每条数据平均包含2.1个句子、6.4个元组和3.5个条件关系;
AG News中的数据具有完整的语法结构,长度较长,语言严谨,代词、口语、习语等较少。
AG News的文本数量足够大,多样性丰富。它包含12万条训练数据和7600条测试数据,涉及World、Sports、Business、 和Sci/Tech四个类别。
我们标注的数据集追求信息的完整性和元组的原子性。完整性的意思是标注者应该尝试从句子中提取所有断言和条件,我们将原子性定义为每个元组必须是一个不可分割的单元。只要有可能,标注者必须从带有连词的句子中提取多个原子元组。
我们通过两轮标注最终得到了人工标注的通用领域条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。
4.结语
为了建模条件信息,我们提出了一个具有三层网络结构的条件性知识图谱,并且为社区贡献了一个人工标注的通用领域大规模条件性知识图谱。
编辑:jq
-
数据集
+关注
关注
4文章
1230浏览量
26046 -
知识图谱
+关注
关注
2文章
132浏览量
8252
原文标题:赛尔笔记 | 通用领域条件性知识图谱数据集
文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
大规模专家并行模型在TensorRT-LLM的设计
基于大规模人类操作数据预训练的VLA模型H-RDT
伟创力高效电源模块在超大规模数据中心的应用
三维高斯泼溅大规模视觉SLAM系统解析
薄型、多频段、大规模物联网前端模块 skyworksinc
带耦合器的大规模物联网半双工前端模块 skyworksinc
轻轻松松学电工(识图篇)
典型电路原理、电路识图从入门到精通等资料
5G 大规模物联网系统级封装 skyworksinc
电路识图从入门到精通高清电子资料
AgiBot World Colosseo:构建通用机器人智能的规模化数据平台
传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖

通用领域大规模条件性知识图谱数据集
评论