0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌重磅发布自然问题数据集,包含30万个自然发生的问题和人工注释的答案

DPVg_AI_era 来源:lq 2019-01-25 09:07 次阅读

今天,谷歌重磅发布自然问题数据集(Natural Questions),包含30万个自然发生的问题和人工注释的答案,16000个示例,并发起基于此数据集的问答系统挑战赛。有望成为自然语言理解领域的SQuAD!

开放领域问题回答(QA)是自然语言理解(NLU)中的一项基准任务,它的目的是模拟人类如何查找信息,通过阅读和理解整个文档来找到问题的答案。

比如,给定一个用自然语言表达的问题“为什么天空是蓝色的?”("Why is the sky blue?”),QA系统应该能够阅读网页(例如“天空漫射”的维基百科页面)并返回正确的答案,即使答案有些复杂和冗长。

然而,目前还没有可以用于训练和评估QA模型的大型、公开的自然发生问题(即由寻求信息的人提出的问题)和答案数据集。

这是因为构建用于QA任务的高质量数据集需要大量的真实问题来源,并且需要大量人力来为这些问题寻找正确答案。

为了促进QA领域的研究进展,谷歌今天发布自然问题数据集(Natural Questions, NQ),这是一个用于训练和评估开放领域问答系统的新的、大规模语料库,也是第一个复制人类查找问题答案的端到端流程的语料库。

Natural Questions数据集

NQ的规模非常庞大,包含30万个自然发生的问题,以及来自Wikipedia页面的人工注释答案,用于训练QA系统。

此外,NQ语料库还包含16000个示例,每个示例都由5位不同的注释人提供答案(针对相同的问题),这对于评估所学习的QA系统的性能非常有用。

Natural Questions数据集中的示例

由于回答NQ中的问题比回答琐碎问题(这些问题对计算机来说已经很容易解决)需要有更深入的理解,谷歌还发起了一项基于此数据集的挑战赛,以帮助提高计算机对自然语言的理解。

NQ挑战赛排行榜

NQ数据集包含307K训练示例、8K开发示例和8K测试示例。

目前,NQ挑战赛排行榜上只有谷歌的BERT模型和DecAtt-DocReader模型的成绩。在论文中,谷歌证明在长答案选择任务上的人类的最优成绩为87% F1,在短答案选择任务上人类的最优成绩为76%。

来自谷歌搜索的真实问题

NQ是第一个使用自然发生的查询创建的数据集,并专注于通过阅读整个页面来查找答案,而不是从一个短段落中提取答案。

为了创建NQ,我们从用户提交给Google搜索引擎的真实、匿名、聚合的查询开始。

然后,我们要求注释者通过通读整个维基百科页面来找到答案,就好像这个问题是他们自己提出的一样。注释者需要找到一个长答案和一个短答案,长答案涵盖推断问题所需的所有信息,短答案需要用一个或多个实体的名称简洁地回答问题。

对NQ语料库的注释质量进行评估,显示准确率达到90%。

注释包含一个长答案和一个短答案

研究人员在论文《自然问题:问答研究的基准》(Natural Questions: a Benchmark for Question Answering Research)中对数据收集的过程进行了全面描述,论文已发表在《计算语言学协会会刊》(Transactions of the Association for computing Linguistics)。大家也可以在NQ网站上查看更多来自数据集的示例。

自然语言理解挑战

NQ的目的是使QA系统能够阅读和理解完整的维基百科文章,其中可能包含问题的答案,也可能不包含问题的答案。

系统首先需要确定这个问题的定义是否足够充分,是否可以回答——许多问题本身基于错误的假设,或者过于模糊,无法简明扼要地回答。

然后,系统需要确定维基百科页面中是否包含推断答案所需的所有信息。我们认为,相比在知道长答案后在寻找短答案,长答案识别任务——找到推断答案所需的所有信息——需要更深层次的语言理解。

我们希望NQ的发布以及相关的挑战赛将有助于推动更有效、更强大的QA系统的开发。我们鼓励NLU社区参与进来,并帮助缩小目前最先进方法的性能与人类上限之间的巨大差距。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5804

    浏览量

    103145
  • 数据集
    +关注

    关注

    4

    文章

    1174

    浏览量

    24289
  • 自然语言
    +关注

    关注

    1

    文章

    265

    浏览量

    13176

原文标题:NLP新基准!谷歌重磅发布开放问答数据集,30万自然提问+人工注释答案

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌交互世界模型重磅发布

    谷歌模型
    北京中科同志科技股份有限公司
    发布于 :2024年02月28日 09:13:06

    基于微流控的人造蜘蛛腺纺出“自然丝”

    近期,日本研究人员研发了一种微流控器件,可纺出与自然产生的蛛丝非常接近的人造蜘蛛丝。
    的头像 发表于 01-25 09:42 212次阅读

    自然对话语音数据:人机交互的新纪元与挑战

    自然对话语音数据是指以自然语言进行交流的语音数据,它代表着人机交互技术的巨大进步。随着人工智能和语音识别技术的飞速发展,我们正逐渐迈入一个可
    的头像 发表于 11-08 17:01 183次阅读

    适用作自然接地线的设施

    一、可作为自然接地体的设备或构件 接地体是接地装置的主要组成部分,其选择与装设是能否取得合格接地电阻的关键。接地体可分为两类,即自然接地体与人工接地体。 在设计与选择接地体时,要首先充分利用
    的头像 发表于 09-22 14:30 607次阅读

    户外电源:释放自由能量,畅享自然之旅

    随着现代科技的不断进步,户外电源作为一种新兴的便携式能源设备,正逐渐成为户外探险和旅行中的得力伴侣。这些便携的电源装置为探险者们提供了持久稳定的能源供应,让他们在自然中畅游时不再受限于电力的限制
    发表于 08-31 18:09

    自然语言处理和人工智能的区别

      自然语言处理(Natural Language Processing,NLP)是人工智能(AI)中的一个分支,它利用计算机技术对自然语言进行处理,使得电脑能够理解和操作人类语言。自然
    发表于 08-28 17:32 818次阅读

    自然语言处理和人工智能的概念及发展史 自然语言处理和人工智能的区别

    自然语言处理(Natural Language Processing, NLP)的定义是通过电脑软件程序实现人们日常语言的机器自动处理。为了帮助计算机理解,掌握自然语言处理的基本原理,需要涉及到自然语言处理的发展史和
    发表于 08-23 18:22 487次阅读

    自然语言处理的概念和应用 自然语言处理属于人工智能吗

      自然语言处理(Natural Language Processing)是一种人工智能技术,它是研究自然语言与计算机之间的交互和通信的一门学科。自然语言处理旨在研究机器如何理解人类语
    发表于 08-23 17:31 735次阅读

    人工智能包含哪些领域

    自然语言处理(NLP)是AI的另一个重要领域。NLP主要研究如何构建计算机程序,使其能够理解、解释、生成和处理人类自然语言。自然语言处理技术可以帮助计算机理解人类的语言、意图和文化。NLP已经广泛应用于
    的头像 发表于 08-14 14:08 1345次阅读

    自然语言理解问答对话文本数据,赋予计算机智能交流的能力

    自然语言理解(Natural Language Understanding,简称NLU)问答对话文本数据是现代人工智能领域的一项重要资源。这些数据集涵盖了用户与计算机之间的
    的头像 发表于 08-07 18:11 390次阅读

    自然语言处理#计算思维与人工智能

    人工智能自然语言
    未来加油dz
    发布于 :2023年07月31日 21:12:44

    PyTorch教程16.4之自然语言推理和数据

    电子发烧友网站提供《PyTorch教程16.4之自然语言推理和数据集.pdf》资料免费下载
    发表于 06-05 10:57 0次下载
    PyTorch教程16.4之<b class='flag-5'>自然</b>语言推理和<b class='flag-5'>数据</b>集

    ChatGPT系统开发AI人功智能方案

    。ChatGPT是一由OpenAI开发的人工智能语言模型,可以实现自然语言处理、对话生成等功能。要开发一类似ChatGPT的人工智能系统
    发表于 05-18 10:16

    语音识别:自然对话语音数据是推动人工智能时代的基石

    。为了提高语音识别的准确性和稳定性,需要建立大量高质量、多样化、真实性强的自然对话语音数据集作为训练数据集。 自然对话语音数据集的概念和意义
    的头像 发表于 04-24 11:14 511次阅读

    ChatGPT在自然语言处理中的局限性和挑战

    随着人工智能技术的不断发展,自然语言处理已经成为人工智能领域中备受瞩目的重要研究方向。ChatGPT作为自然语言处理技术中的一种,已经在自然
    的头像 发表于 04-18 16:25 946次阅读