0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用领域大规模条件性知识图谱数据集

深度学习自然语言处理 来源:哈工大SCIR 张宁 作者:哈工大SCIR 张宁 2021-06-08 15:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1.摘要

本数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭教授主持开发,是一个通用领域大规模条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。该数据集的提出能够为条件性知识图谱的研究提供数据支持。

2.条件性知识图谱

在大多数情况下,事实的成立都是有条件的。条件和事实起着同样重要的作用,然而目前的知识图谱只关注事实而忽略了条件的存在。与此同时,信息提取技术也只关注从给定文本中提取事实,而忽略了条件信息。

为了能够让知识图谱建模条件信息更加充分,我们提出了一个三层的网络结构条件性知识图谱(Conditional-KG)。条件性知识图谱和传统知识图谱都是由三元组组成,但是条件性知识图谱同时包含事实元组和条件元组,以及元组之间的条件关系。

3.数据集

为了支持条件性知识图谱的研究,我们手动标注了一个条件性知识图谱数据集。我们选择了AG News文本分类语料作为条件性知识图谱的语料。AG News语料具有三大优势:

AG News中的数据是新闻的标题和一部分正文,每条数据平均包含2.1个句子、6.4个元组和3.5个条件关系;

AG News中的数据具有完整的语法结构,长度较长,语言严谨,代词、口语、习语等较少。

AG News的文本数量足够大,多样性丰富。它包含12万条训练数据和7600条测试数据,涉及World、Sports、Business、 和Sci/Tech四个类别。

我们标注的数据集追求信息的完整性和元组的原子性。完整性的意思是标注者应该尝试从句子中提取所有断言和条件,我们将原子性定义为每个元组必须是一个不可分割的单元。只要有可能,标注者必须从带有连词的句子中提取多个原子元组。

我们通过两轮标注最终得到了人工标注的通用领域条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。

4.结语

为了建模条件信息,我们提出了一个具有三层网络结构的条件性知识图谱,并且为社区贡献了一个人工标注的通用领域大规模条件性知识图谱。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    8252

原文标题:赛尔笔记 | 通用领域条件性知识图谱数据集

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    SimData:基于aiSim的高保真虚拟数据生成方案

    01前言在自动驾驶感知系统的研发过程中,模型的性能高度依赖于大规模、高质量的感知数据。目前业界常用的数据包括KITTI、nuScenes
    的头像 发表于 11-07 17:35 5120次阅读
    SimData:基于aiSim的高保真虚拟<b class='flag-5'>数据</b><b class='flag-5'>集</b>生成方案

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 693次阅读
    TensorRT-LLM的<b class='flag-5'>大规模</b>专家并行架构设计

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源模型的设计原则也采用了类似的大规模细粒度 MoE 架构。但大规模 M
    的头像 发表于 09-06 15:21 916次阅读
    <b class='flag-5'>大规模</b>专家并行模型在TensorRT-LLM的设计

    基于大规模人类操作数据预训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示
    的头像 发表于 08-21 09:56 780次阅读
    基于<b class='flag-5'>大规模</b>人类操作<b class='flag-5'>数据</b>预训练的VLA模型H-RDT

    伟创力高效电源模块在超大规模数据中心的应用

    受云端存储和数据处理需求持续增长的推动,数据中心正以前所未有的速度扩张。当前全球超大规模数据中心,即规模最大的那些数据中心,总容量在过去四年
    的头像 发表于 07-07 15:41 903次阅读

    CMOS超大规模集成电路制造工艺流程的基础知识

    本节将介绍 CMOS 超大规模集成电路制造工艺流程的基础知识,重点将放在工艺流程的概要和不同工艺步骤对器件及电路性能的影响上。
    的头像 发表于 06-04 15:01 1899次阅读
    CMOS超<b class='flag-5'>大规模</b>集成电路制造工艺流程的基础<b class='flag-5'>知识</b>

    三维高斯泼溅大规模视觉SLAM系统解析

    仍未得到探索。本文提出一种基于立体相机的三维高斯泼溅大规模视觉SLAM系统LSG-SLAM。通过在EuRoC数据上的广泛评估,LSG-SLAM展示了其在大规模室外场景中的优越性能。在
    的头像 发表于 05-27 14:13 1137次阅读
    三维高斯泼溅<b class='flag-5'>大规模</b>视觉SLAM系统解析

    薄型、多频段、大规模物联网前端模块 skyworksinc

    电子发烧友网为你提供()薄型、多频段、大规模物联网前端模块相关产品参数、数据手册,更有薄型、多频段、大规模物联网前端模块的引脚图、接线图、封装手册、中文资料、英文资料,薄型、多频段、大规模
    发表于 05-15 18:32
    薄型、多频段、<b class='flag-5'>大规模</b>物联网前端模块 skyworksinc

    带耦合器的大规模物联网半双工前端模块 skyworksinc

    电子发烧友网为你提供()带耦合器的大规模物联网半双工前端模块相关产品参数、数据手册,更有带耦合器的大规模物联网半双工前端模块的引脚图、接线图、封装手册、中文资料、英文资料,带耦合器的大规模
    发表于 05-09 18:35
    带耦合器的<b class='flag-5'>大规模</b>物联网半双工前端模块 skyworksinc

    轻轻松松学电工(识图篇)

    内容介绍 结合广大电工人员的实际需要,主要介绍了常用电工电路识图的基础知识、方法及技巧,内容包括常用电气符号、电工识图基本方法,以及识读供配电系统图、建筑电气图、电力拖动系统电气图、PLC梯形图
    发表于 04-30 17:18

    典型电路原理、电路识图从入门到精通等资料

    1、电路识图从入门到精通高清电子资料 由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的
    的头像 发表于 04-15 15:53 1.9w次阅读
    典型电路原理、电路<b class='flag-5'>识图</b>从入门到精通等资料

    5G 大规模物联网系统级封装 skyworksinc

    电子发烧友网为你提供()5G 大规模物联网系统级封装相关产品参数、数据手册,更有5G 大规模物联网系统级封装的引脚图、接线图、封装手册、中文资料、英文资料,5G 大规模物联网系统级封装
    发表于 04-11 15:21
    5G <b class='flag-5'>大规模</b>物联网系统级封装 skyworksinc

    电路识图从入门到精通高清电子资料

    由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,以及典型小家电、电动车、洗衣机、
    发表于 04-10 16:22

    AgiBot World Colosseo:构建通用机器人智能的规模数据平台

    的匮乏,制约了通用操纵能力的突破。上海人工智能实验室与AgiBot公司联合研发的AgiBot World Colosseo平台,通过构建大规模、多模态的真实世界数据
    的头像 发表于 03-12 11:42 1692次阅读
    AgiBot World Colosseo:构建<b class='flag-5'>通用</b>机器人智能的<b class='flag-5'>规模</b>化<b class='flag-5'>数据</b>平台

    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获一等奖。该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和知识问答对
    的头像 发表于 12-16 17:04 867次阅读
    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖