搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

自然语言推理数据集“人工痕迹”严重，模型性能被高估

编者按：自然语言推理所用的数据集再近年得到了研究和发展，但是在本文中，来自华盛顿大学、卡内基梅隆大学和纽约大学等机构的研究人员发现，这些数据集中不可避免出现了明显的“人工痕迹”，使得模型的表现被高估了，评估自然语言推理模型的问题仍然存在。以下是论智的编译。

自然语言推理是NLP领域被广泛研究的领域之一，有了这一技术，许多复杂的语义任务如问题回答和文本总结都能得到解决。而用于自然语言推理的大规模数据集是通过向众包工作者提供一个句子（前提）p，然后让他们创作出三个新的与之相关的句子（假设）h创造出来的。自然语言推理的目的就是判断是否能根据p的语义推断出h。我们证明，利用这种方法，使得数据中的很大一部分只需查看新生成的句子，无需看“前提”，就能了解到数据的标签。具体来说，一个简单的文本分类模型在SNLI数据集上对句子分类的正确率达到了67%，在MultiNLI上的正确率为53%。分析表明，特定的语言现象，比如否定和模糊与某些推理类别非常相关。所以这一研究表示，目前的自然语言推理模型的成功被高估了，这一问题仍然难以解决。

2015年，Bowman等人通过众包标记的方法创造了大规模推断数据集SNLI；2018年，Williams等人又推出了MultiNLI数据集。在这一过程中，研究人员从一些语料中抽取某个前提句子p，让众包标注者基于p创作三个新句子，创作的句子与p有三种关系标准：

包含（Entailment）：h与p非常相关；

中立（Neutral）：h与p可能相关；

矛盾（Contradiction）：h与p绝对不相关。

下面是SNLI数据集中具体的例子：

在这篇论文中，我们发现，通过众包生成的句子人工痕迹太过明显，以至于分类器无需查看条件句子p就能将其正确分类。下面我们将详细讲解分析过程。

注释中的“人工痕迹”其实很明显

我们猜想，注释任务的框架对众包人员编写句子时会产生显著的影响，这一影响会反映在数据中，我们称之为“人工注释（annotation artifacts）”。

为了确定这种人为行为对数据的影响程度，我们训练一个模型来预测生成句子的标签，无需查看前提句子。具体来说，我们使用现成的文本分类器fastText，它可以将文本模型化为许多单词和二元语法（bigrams），以预测句子的标签。

下表显示，每个测试集中大部分数据都能在不看前提句子的情况下被正确分类，这也证明了即使不用对自然语言推理建模，分类器也能表现得很好。

人工注释的特点

之前我们说到，超过一半的MultiNLI数据和三分之二的SNLI数据都有明显的人工痕迹，为了从中总结出它们的特点，我们将对数据进行大致分析，重点关注词汇的选择和句子的长度。

词汇选择

为了了解特定词汇的选择是否会影响句子的分类，我们计算了训练集中每个单词和类别之间的点互信息（PMI）：

下表显示了每个分类中与类别最相关的几个单词，以及训练语句中包含这些单词的比例。

相关句子（Entailment）

与前提句子完全相关的生成句子都含有通用词汇，如动物、乐器和户外等，这些词语还有可能衍生出更具体的词语例如小狗、吉他、沙滩等等。另外，这些据此都会用确切的数字代替近似值（一些、至少、各种等等），并且会移除明确的性别。有些还会带有具体的环境，例如室内或室外，这些都是SNLI数据集中图片的个性特征。

中立句子

中立关系的句子中，最常见的就是修饰词（高、悲伤、受欢迎）和最高级词语（第一、最爱、最多）。除此之外，中立句子比较常见的是原因和目的从句，例如因为。

不相关句子

否定词例如“没有人”、“不”、“从不”、“没有”等都是不相关句子的常见词语。

句子长度

我们发现，生成句子中tokens的数量在不同的推理类别中并不是平均分配的。下图显示，中性的句子中token往往较长，而相关句子往往较短。句子长度的差异可能表明，众包工作者在生成相关句子时只是简单地从前提句子p中删除了几个单词。而事实上，当每个句子都用bag of words表示时，SNLI中有8.8%的相关生成句子完全包含在前提句子之中，而只有0.2%的中性和矛盾句子包含前提。

结论

通过观察结果，并对比其他人工注释分析，我们得到了三个主要结论。

很多数据集都包含有“人工痕迹”

监督模型需要利用人工注释。Levy等人证明了监督词汇推理模型在很大程度上以来数据集中人工生成的词汇。

人工注释会高估模型性能。大多数测试集都能单独依靠人工注释解决问题，所以我们鼓励开发额外的标准，能够给让人了解NLI模型的真实性能。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自然语言

自然语言

+关注

关注
1

文章
271

浏览量
13211

原文标题：自然语言推理数据集“人工痕迹”严重，模型性能被高估

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

评论

相关推荐

python自然语言

学和人工智能，但同样受到诸如机器学习，计算统计学和认知科学这些相对新兴的学科影响。python下面只要安装自然语言工具包nltk，下面版主开始正式进入学习。Natural Language

发表于 05-02 13:50

【推荐体验】腾讯云自然语言处理

自然语言处理技术的功劳。可以说，只要有大量文本数据的应用场景，几乎都涉及到NLP技术，也都可以使用相关自然语言处理产品的接口来做智能分析。比如：社交媒体上的用户言论，可以使用腾讯云NLP的情感分析接口，来做

发表于 10-09 15:28

关于自然语言处理之54 语言模型(自适应)

自然语言处理——54 语言模型(自适应)

发表于 04-09 08:20

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

发表于 04-16 11:11

什么是自然语言处理

什么是自然语言处理？自然语言处理任务有哪些？自然语言处理的方法是什么？

发表于 09-08 06:51

什么是人工智能、机器学习、深度学习和自然语言处理？

领域，包括机器学习、深度学习、数据挖掘、计算机视觉、自然语言处理和其他几个学科。首先，人工智能涉及使计算机具有自我意识，利用计算机视觉、自然语言理解和模仿其他感官。其次，

发表于 03-22 11:19

自然语言处理常用模型解析

自然语言处理常用模型使用方法一、N元模型二、马尔可夫模型以及隐马尔可夫模型及目前常用的自然语言处

发表于 12-28 15:42 •5465次阅读

<b class='flag-5'>自然语言</b>处理常用<b class='flag-5'>模型</b>解析

自然语言处理的优点有哪些_自然语言处理的5大优势

在自然语言处理领域，深度学习的承诺是：给新模型带来更好的性能，这些新模型可能需要更多数据，但不再需要那么多的

发表于 12-29 13:52 •2.7w次阅读

Salesforce发布了一项新的研究成果：decaNLP十项自然语言任务的通用模型

自然语言推理。自然语言推理(NLI)模型接受两个输入句子:一个前提和一个假设。模型必须将前提和假

的头像

发表于 06-25 08:47 •4615次阅读

Salesforce发布了一项新的研究成果：decaNLP十项<b class='flag-5'>自然语言</b>任务的通用<b class='flag-5'>模型</b>

一种注意力增强的自然语言推理模型aESIM

在自然语言处理任务中使用注意力机制可准确衡量单词重要度。为此，提出一种注意力增强的自然语言推理模型aESM。将词注意力层以及自适应方向权重层添加到ESIM模型的双向LSTM网络中，从而

发表于 03-25 11:34 •9次下载

一种注意力增强的<b class='flag-5'>自然语言</b><b class='flag-5'>推理模型</b>aESIM

PyTorch教程16.4之自然语言推理和数据集

电子发烧友网站提供《PyTorch教程16.4之自然语言推理和数据集.pdf》资料免费下载

发表于 06-05 10:57 •0次下载

PyTorch教程16.4之<b class='flag-5'>自然语言</b><b class='flag-5'>推理</b>和<b class='flag-5'>数据</b>集

PyTorch教程16.5之自然语言推理：使用注意力

电子发烧友网站提供《PyTorch教程16.5之自然语言推理：使用注意力.pdf》资料免费下载

发表于 06-05 10:49 •0次下载

PyTorch教程16.5之<b class='flag-5'>自然语言</b><b class='flag-5'>推理</b>：使用注意力

PyTorch教程16.7之自然语言推理：微调BERT

电子发烧友网站提供《PyTorch教程16.7之自然语言推理：微调BERT.pdf》资料免费下载

发表于 06-05 10:52 •0次下载

PyTorch教程16.7之<b class='flag-5'>自然语言</b><b class='flag-5'>推理</b>：微调BERT

PyTorch教程-16.4。自然语言推理和数据集

16.4。自然语言推理和数据集¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax

的头像

发表于 06-05 15:44 •340次阅读

PyTorch教程-16.5。自然语言推理：使用注意力

实验室在 SageMaker Studio Lab 中打开笔记本我们在16.4 节介绍了自然语言推理任务和 SNLI 数据集。鉴于许多基于复杂和深层架构的模型， Parikh

的头像

发表于 06-05 15:44 •350次阅读