0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用领域大规模条件性知识图谱数据集

深度学习自然语言处理 来源:哈工大SCIR 张宁 作者:哈工大SCIR 张宁 2021-06-08 15:23 次阅读

1.摘要

本数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭教授主持开发,是一个通用领域大规模条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。该数据集的提出能够为条件性知识图谱的研究提供数据支持。

2.条件性知识图谱

在大多数情况下,事实的成立都是有条件的。条件和事实起着同样重要的作用,然而目前的知识图谱只关注事实而忽略了条件的存在。与此同时,信息提取技术也只关注从给定文本中提取事实,而忽略了条件信息。

为了能够让知识图谱建模条件信息更加充分,我们提出了一个三层的网络结构条件性知识图谱(Conditional-KG)。条件性知识图谱和传统知识图谱都是由三元组组成,但是条件性知识图谱同时包含事实元组和条件元组,以及元组之间的条件关系。

3.数据集

为了支持条件性知识图谱的研究,我们手动标注了一个条件性知识图谱数据集。我们选择了AG News文本分类语料作为条件性知识图谱的语料。AG News语料具有三大优势:

AG News中的数据是新闻的标题和一部分正文,每条数据平均包含2.1个句子、6.4个元组和3.5个条件关系;

AG News中的数据具有完整的语法结构,长度较长,语言严谨,代词、口语、习语等较少。

AG News的文本数量足够大,多样性丰富。它包含12万条训练数据和7600条测试数据,涉及World、Sports、Business、 和Sci/Tech四个类别。

我们标注的数据集追求信息的完整性和元组的原子性。完整性的意思是标注者应该尝试从句子中提取所有断言和条件,我们将原子性定义为每个元组必须是一个不可分割的单元。只要有可能,标注者必须从带有连词的句子中提取多个原子元组。

我们通过两轮标注最终得到了人工标注的通用领域条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。

4.结语

为了建模条件信息,我们提出了一个具有三层网络结构的条件性知识图谱,并且为社区贡献了一个人工标注的通用领域大规模条件性知识图谱。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24349
  • 知识图谱
    +关注

    关注

    2

    文章

    131

    浏览量

    7593

原文标题:赛尔笔记 | 通用领域条件性知识图谱数据集

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    。国内的文心一言就属于这一类。 垂直大模型,聚焦解决垂直领域问题,是在通用大模型的基础上训练行业专用模型,应用到金融、医疗、教育、养老、交通等垂直行业,使大模型领域化、商业化,做到实际应用落地。 为了使
    发表于 03-11 15:16

    大规模数据中心网络演进的七大主流趋势

    自动驾驶已经变成可能,大规模应用只是一个时间问题。大规模网络运维的自动化也必然是业界的趋势,要达到自动驾驶或自动化运维都需要两个共同的条件:一是有足够有效的数据,二是要有对
    发表于 03-11 11:21 157次阅读

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 272次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(下)

    商汤科技与库醇科技达成合作 为垂域大模型构建高质量大规模领域微调数据

    数字化转型,为垂域大模型构建高质量大规模领域微调数据。   本次合作将基于商汤通用大模型进行二次开发,给模型注入领域
    的头像 发表于 01-10 09:46 479次阅读
    商汤科技与库醇科技达成合作 为垂域大模型构建高质量<b class='flag-5'>大规模</b>的<b class='flag-5'>领域</b>微调<b class='flag-5'>数据</b>

    知识图谱基础知识应用和学术前沿趋势

    知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖掘等等方向的交叉学科。人工智能是以传统符号派
    的头像 发表于 01-08 10:57 435次阅读
    <b class='flag-5'>知识图谱</b>基础<b class='flag-5'>知识</b>应用和学术前沿趋势

    知识图谱与大模型结合方法概述

    本文作者 |  黄巍 《Unifying Large Language Models and Knowledge Graphs: A Roadmap》总结了大语言模型和知识图谱融合的三种路线
    的头像 发表于 10-29 15:50 603次阅读
    <b class='flag-5'>知识图谱</b>与大模型结合方法概述

    云知声亮相第十七届全国知识图谱与语义计算大会

    8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳成功举办。大会聚焦“知识图谱赋能通用AI”,邀请国内外知名学者、产业界知名发言人员介绍相关领域的最新进
    的头像 发表于 08-31 16:02 407次阅读
    云知声亮相第十七届全国<b class='flag-5'>知识图谱</b>与语义计算大会

    2023中国工业互联网技术发展的十大科技趋势

    知识图谱是一种基于语义网技术的知识表示方法,它将实体、属性和关系等元素进行抽象和建模,形成一个具有语义表达能力的图结构。在工业领域知识图谱可以将工业
    的头像 发表于 08-31 15:18 516次阅读
    2023中国工业互联网技术发展的十大科技趋势

    如何利用大模型构建知识图谱?如何利用大模型操作结构化数据

    上图是之前,我基于大语言模型构建知识图谱的成品图,主要是将金融相关的股票、人物、涨跌幅之类的基金信息抽取出来。
    的头像 发表于 08-24 16:56 8595次阅读
    如何利用大模型构建<b class='flag-5'>知识图谱</b>?如何利用大模型操作结构化<b class='flag-5'>数据</b>?

    大型语言模型与知识图谱:机遇与挑战

    这对知识表示领域来说是一个巨大的步骤。长时间以来,人们关注的是明确的知识,例如嵌入在文本中的知识,有时也被称为非结构化数据,以及以结构化形式
    的头像 发表于 08-24 14:50 425次阅读
    大型语言模型与<b class='flag-5'>知识图谱</b>:机遇与挑战

    知识图谱嵌入模型 (KGE) 的总结和比较

    知识图谱嵌入(KGE)是一种利用监督学习来学习嵌入以及节点和边的向量表示的模型。它们将“知识”投射到一个连续的低维空间,这些低维空间向量一般只有几百个维度(用来表示知识存储的内存效率)。向量空间中,每个点代表一个概念,每个点在空
    的头像 发表于 07-31 16:07 621次阅读
    <b class='flag-5'>知识图谱</b>嵌入模型 (KGE) 的总结和比较

    中国开源生态系列图谱 --人工智能领域

    为了解决之前Al模型的扩展性和通用性不高,以及依赖人工数据标注和标注数据量的问题,基础模型/大规模预训练模型提出了一种基于自监督学习的“预训练大模型+下游任务微调”的可行方案。
    发表于 06-13 11:03 220次阅读
    中国开源生态系列<b class='flag-5'>图谱</b> --人工智能<b class='flag-5'>领域</b>

    巨微文化携手IBM依托AI共塑知识图谱新篇章

    知识图谱是具有 AI 能力加持的智能“知识库”,借助于基于 AI 的自然语言处理 (NLP) 能力,打造智能搜索、智能问答、个性化推荐、辅助决策和异常监测等能力。对于教辅此类知识密集型行业,科目复杂度高,需要多个专家协同工作
    的头像 发表于 06-05 16:17 568次阅读

    2023年LMFP有望在动力领域大规模出货

    高工产研锂电研究所(GGII)调研数据显示,2022年磷酸锰铁锂正极材料出货量2000吨,目前主要在电动二轮车领域规模出货,并有望于2023年在动力领域
    的头像 发表于 05-17 09:03 541次阅读
    2023年LMFP有望在动力<b class='flag-5'>领域</b><b class='flag-5'>大规模</b>出货

    首个中文医学知识LLM:真正的赛华佗—华驼(HuaTuo)

    通过医学知识图谱和 GPT 3.5 API 构建了中文医学指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在医疗领域的问答效果。
    的头像 发表于 05-08 11:30 1240次阅读
    首个中文医学<b class='flag-5'>知识</b>LLM:真正的赛华佗—华驼(HuaTuo)