0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

zhKF_jqr_AI 来源:未知 作者:工程师曾玲 2018-08-18 11:43 次阅读

编者按:今天,卡内基梅隆大学助理教授Zachary C. Lipton推荐了自己的一个有趣研究:让模型学会阅读理解究竟需要多少文本。在之前的ICML 2018研讨会上,他和斯坦福大学研究生Jacob Steinhardt曾撰文痛批学界“歪风”,在学界引起巨大反响。其中提到的一个弊端就是有些学者会对“进步”错误归因,把调参获得的性能改善强加到架构调整上。结合这篇论文,也许他的研究能让我们获得一些见解。

摘要

近期,学界发表了不少有关阅读理解的论文,它们使用的样本都是(问题、段落、答案)这样的三元组。对此,一种常规的想法是,如果模型的目标是预测相应答案,它们就必须结合来自问题和段落的信息。这是个很有趣的点,但考虑到现在有数百篇已发表的论文正在争夺排行榜第一的宝座,围绕这些流行基线的基础问题还是迟迟没能得到解决。

在本文中,我们为bAbI、SQuAD、CBT、CNN和Whodid-What数据集构建了合理的基线,发现如果样本中只包含纯问题或纯段落,模型的表现通常会很好。用纯段落样本进行训练后,模型在14个bAbI问题上取得了高于50%的准确率(一共20个),其中部分结果甚至可以媲美正常模型。

另外,我们也发现了一个奇怪的点:在CBT任务中,研究人员通常会用一个问题和一个包含前20个句子的段落预测第21个句子中的缺失词,但实验证实,模型可能只需第21句话就能完成预测。相比之下,CNN和SQuAD这两个数据集似乎构造得很好。

数据集&基线

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

实验结果

bAbI任务

下表是基线KV-MemNet在bAbI数据集上的具体表现,第一行使用的是常规样本,包含问题和段落;第二行只使用问题;第三行只使用段落。可以发现,在第2,7,13,20个问题中,用段落训练的模型性能惊人,准确率在80%以上。在第3,13,16和20个问题中,它的准确率甚至超过了使用常规样本的模型。而在第18个问题中,用问题训练的模型的准确率也达到了91%,和正常的93%非常接近。

这个发现给我们的启示是,bAbI的某些问题可能并没有我们想象中那么复杂。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

CBT任务

CBT任务的“答案”根据词性可分为命名实体(NE)、公共名词(CN)、动词(V)、介词(P)四类,由于后两种根据上下文就能预测,通常我们在阅读理解问题里会更重视前两种词性。

同样是基线KV-MemNet,如下表所示,这次使用的三类样本成了三列:如果是预测NE和CN,使用完整样本训练的模型准确率更高,但用了问题的模型和它也很接近;如果是预测V和P,只用问题训练效果更佳。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

那么如果把“段落”从前20个句子改成第21句呢?下表是只用“段落”的实验结果,可以发现,用最后一句效果更好,也就是说,它和正常模型的性能更接近。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

CNN任务

在这里,Gated Attention Reader在CNN任务上的准确率就差距较大了。这种下降可能是因为实体匿名化导致模型无法构建特定于实体的信息。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

SQuAD任务

这个结果表明,SQuAD这个数据集针对阅读理解任务做了精心设计,它最具挑战性。

流行基线基础问题迟迟没能解决,让模型学会阅读理解究竟需要多少文本

讨论

从实验数据可知,虽然同属阅读理解任务,但这些数据集存在不同的缺陷,也有各种漏洞可以钻。下面是我们为评估新的基线和算法设想的一些指导原则。这不是在指责以前的数据集制作者,相反地,这些纰漏能为未来的研究提供不小的价值。

提供严格的RC基线:已发布的RC数据集应包含表明任务难度的合理基线,尤其是它们所需的“问题”“段落”信息量,如果没有这些标准,我们就无法知道模型进步究竟取决于什么。

测试完整信息的必要性:在需要“问题”信息和“段落”信息的问题中,有时候真正起作用的只是部分信息。就像CBT任务,虽然只有二十几句话,但是我们用最后一句话就能训练媲美正常性能的模型。每个模型究竟需要多少信息量,这是研究人员应该标明的。

使用完型填空式的RC数据集时,保持谨慎:这类数据集通常是由程序批量制造的,很少有人参与。如果用它们训练模型,我们会找不到目前技术的局限,也排查不了。

此外,各类会议在推荐收录论文的数据集时,也应更注重严谨性,而不是只看创新性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47687
  • 基线
    +关注

    关注

    0

    文章

    10

    浏览量

    7924

原文标题:基线调研:让模型学会阅读理解需要多少信息?

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于LabVIEW的文本(txt)阅读

    本帖最后由 zhihuizhou 于 2011-11-25 14:57 编辑 基于LabVIEW的文本(txt)阅读器,虽然用处不是很大 ,但是还是可以作为labview练习提高自己对labview的认识和理解。。。。基于
    发表于 11-25 14:38

    学会阅读Datasheet的基础信息

    学会阅读Datasheet?我们学会阅读Datasheet 也是为了解决我们的问题,关联到Arduino,则问题表现为:这个零件能否和Arduino系统直接连接起来,并
    发表于 10-07 21:34

    如何阅读文本文件?

    嗨团队,谢谢你总是支持我,但我对阅读文本文件有一些问题?附件是我需要阅读文本文件。 BR;希博伊 以上来自于谷歌翻译 以下为原文Hi T
    发表于 01-29 06:39

    分享一种comsol磁场与结构场耦合模型建模

    的专业知识,无需在意,不求甚解主要学习本专业的建模,要及时补充专业知识、了解相关知识(指一些术语、名词)遇到问题难以理解的,且暂时没能解决,先记住,以后遇到再深究COMSOL学习自学(孤家寡人),主要学习磁场与结构场耦合模型建模
    发表于 07-09 06:40

    eplan_路径功能文本能解决什么问题

    eplan_路径功能文本是什么?eplan_路径功能文本能解决什么问题?eplan_路径功能文本可能存在哪些问题?
    发表于 09-06 07:24

    基线管理与数据库健康度评估模型

    基线管理与数据库健康度评估模型
    发表于 09-08 10:23 3次下载
    <b class='flag-5'>基线</b>管理与数据库健康度评估<b class='flag-5'>模型</b>

    基于微博文本的词对主题演化模型

    针对传统主题模型忽略了微博短文本文本动态演化的问题,提出了基于微博文本的词对主题演化( BToT)模型,并根据所提
    发表于 12-03 11:31 14次下载
    基于微博<b class='flag-5'>文本</b>的词对主题演化<b class='flag-5'>模型</b>

    基于文本摘要和引用关系的可视辅助文献阅读系统

    近年来,科技论文发表数量与日俱增,科研人员需要阅读文献的数量也随之迅速增长.如何快速而有效地阅读一篇科技论文,逐渐成为一个重要的研究课题.另一方面,在阅读科技论文时,
    发表于 01-14 15:19 0次下载

    剥开机器阅读理解的神秘外衣

    所谓的机器阅读理解,基本概念跟咱们上学时做的阅读理解题很相似,同样都是给出一段材料和问题,让“考生”给出正确答案。所不同的,仅仅是机器阅读
    发表于 03-19 18:47 648次阅读
    剥开机器<b class='flag-5'>阅读</b><b class='flag-5'>理解</b>的神秘外衣

    会话式机器阅读理解概述

    理解的类型: 第一种是标准的阅读理解,该模式是指,给定一篇描述型的文章和一个基于事实型的问题,通过匹配文章和问题,从文章中抽取一个span来回答这个问题; 第二种是会话式的问答,与标准的单轮问答不同,
    的头像 发表于 11-25 16:07 2083次阅读

    一种基于多任务联合训练的阅读理解模型

    机器阅读理解是一项针对给定文本和特定问题自动生成或抽取相应答案的问答任务,该任务是评估计机系统对自然语言理解程度的重要任务之一。相比于传统的阅读
    发表于 03-16 11:41 10次下载
    一种基于多任务联合训练的<b class='flag-5'>阅读</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    基于LSTM的表示学习-文本分类模型

    文本表示和分类是自然语言理解领域的研究热点。目前已有很多文本分类方法,包括卷积网络、递归网络、自注意力机制以及它们的结合。但是,复杂的网络并不能从根本上提高文本分类的性能,好的
    发表于 06-15 16:17 18次下载

    面向文本多片段答案的抽取式阅读理解模式

    面向文本多片段答案的抽取式阅读理解模式
    发表于 06-24 16:35 6次下载

    摘要模型理解或捕获输入文本的要点

    Abstract Intro   尽管基于预训练的语言模型的摘要取得了成功,但一个尚未解决的问题是生成的摘要并不总是忠实于输入文档。造成不忠实问题的原因可能有两个:   (1)摘要模型未能理解或捕获
    的头像 发表于 11-01 11:37 743次阅读

    深度揭秘工字电感究竟需要测量哪些参数的好坏

    展开剖析一些究竟工字电感要测量哪些参数。工字电感怎么测量好坏,关于测量的方法倒不是这个问题的重点,毕竟测量只需要借助专业的仪器设备就可以了。这个问题的重点是要弄明白究竟需要测量工字电感的哪些信息。根据我
    的头像 发表于 03-04 20:14 495次阅读
    深度揭秘工字电感<b class='flag-5'>究竟需要</b>测量哪些参数的好坏