建立一个源于StackExchange的新数据集-电子发烧友网

ACL、EMNLP、NAACL和COLING是NLP领域的四大国际顶会，其中ACL（Annual Meeting of the Association for Computational Linguistics）一直以受关注度更广、论文投递数量多著称。7月15日至20日，第56届年度ACL会议将在澳大利亚墨尔本举办，辛苦码论文的你，准备好了吗？

作为顶会，评选“最佳论文”和“终身成就奖”几乎已经是一项“标配”，ACL也不例外。往年会议通常会在正会上宣布获奖论文/嘉宾，但今年主办单位计算语言学协会却一反常态，在会议前一个月就提前放出了“最佳论文”的评选结果——三篇“最佳长论文”和两篇“最佳短论文”。

Best Long Papers

Best Short Papers

虽然Finding syntax in human encephalography with beam search（用集束搜索在人体脑电图中寻找语法）这篇论文从标题上看起来似乎更具吸引力，但考虑到这5篇论文中只公开了2、3两篇长论文，因此论智在这里只能简要介绍这两篇的内容。如果读者有条件看到会场海报，欢迎随时分享。

论文2：Learning to Ask Good Questions

询问是沟通的基础，如果一台机器连提问都不会，那它也绝对做不到高效地和人类沟通。在日常交流中，提问的主要目标是进一步澄清问题，填补信息空白，如当用户在论坛上向机器人询问Ubuntu操作系统使用问题时，为了筛选原因，机器人会根据条件产生几个提问选项：

(a) 您的系统是哪个版本的？

(b) 您的无线网卡有哪些功能？

在这种情况下，机器人不该问(b)，因为这是个无效问题；它也不该选(c)，因为这个问题的答案面太狭窄了，如果用户的回复是“不是”“不知道”，这也成了个无效问题。所以这三个选项中唯一符合人类风格的只有(a)。

本文主要做了两方面工作，一是构建了一个新型神经网络模型，它能基于获得完美信息的期望值为问题排序；二是建立了一个源于StackExchange的新数据集，它是模型的学习基础。

新型神经网络模型

这个神经模型的灵感来自完全信息期望值（EVPI），即拥有此随机事件的完全信息时的最大期望值与未拥有此随机事件完全信息时的最大期望值之差。当然这里不用算最大，通俗来讲，本文关注的是如果我们对Ubuntu操作问题有一个已知信息X，那X的用处到底有多大？

因为现在没有这个X，所以我们要先找出所有可能的X，并根据似然值加权计算。在提问场景中，对于模型的给定问题qi（前提是能回答），用户可能有A个可能的回答；对于每个可能的回答aj∈A，模型有概率从中抽取信息，能为得出最终答案提供作用。因此qi的期望值是：

其中，

p是用户发表的提问帖；

qi是候选问题集Q中的一个可能的问题；

aj是针对Q的候选回答集A里的一个答案；

P[aj|p, qi]计算了对于帖子p和提问qi，模型获得回答aj的概率；

U(p+aj)是微观经济学中常见的效用函数，用来描述获得答案aj后，它对帖子p的信息补充程度；

下图展示了模型在测试期间的逻辑：

给定一个帖子p，模型先检索10个类似p的帖子，并生成相应的问题集Q和答案集A。然后输入p和提问qi，获得神经网络的输出，也就是回答表征F(p, qi)，计算P[aj|F(p, qi)]和P[aj|p, qi]的接近程度。之后，用U(p+aj)计算把回答改成aj后，p的信息补充提升效果。最后，再根据这个期望效果对问题集Q里的问题一一排序。

看到这里，这个模型要解决的问题就只剩下两个了：

概率分布P[aj|p, qi]；

效用函数U(p+aj)。

那么它们背后的原理是什么呢？考虑到篇幅有限，小编这里不再展开介绍了，如果好奇，请大家去读原文——结构清晰美观，强烈推荐。

新数据集

关于这个数据集，内容不多。它的原型是StackExchange上的评论数据，共77,097条内容。论文作者围绕【帖子】【问题】【答案】三个内容创建了一个数据集，其中帖子都是未经编辑的原帖，问题是包含问题的评论，答案是作者对帖子的修改和他对其他留言的评论。

实验结果

从上图数据可以看出，论文提出的EVPI模型表现不错，它在问题生成任务上非常有前景，能切实帮助机器人在论坛上写出高质量回复。

论文地址：arxiv.org/pdf/1805.04655.pdf

论文3：Let’s do it “again”

这同样是一篇有趣的论文，它在2010年Layth Muthana Khaleel那篇An Analysis of Presupposition Triggers in English Journalistic Texts的基础上再次研究了语用学中的“预设”（Presupposition）问题。

什么是语用预设？

预设一词来自英国著名哲学家Strawson的《逻辑理论导论》：“一个命题S预设P，而且仅当P是S有真值或价值的必要条件。”在语用学中，预设指的是参与对话者在言语交流时都已经知道的信息和假设，同时这些共知信息无需被说出来。它在日常自然对话中随处可见，如：

(1) John is going to the restaurant again.

(2) John has been to the restaurant.

在这个例子中，因为存在一个“again”，所以只有当(2)为真时，(1)的表述才是合理的。表示因为John之前去过一次饭店，所以他能“再”去一次。语用预设和语义预设不同，其中最明显的是它不会因在句子中添加否定而改变，如John is not going to the restaurant again，(2)同样是这句话的预设。

我们把像“again”这样表示预设存在的表达称为预设触发语，它可以是实际的副词、动词，也可以是一段明确的表述。而本文的研究内容则是一个可以检测状语预设触发语的模型。

新数据集

为了训练模型，论文作者也自制了数据集。他们从Penn Treebank（PTB）和English Gigaword第三版子集这两个语料库里提取数据，其中PTB里的22、23两章和Gigaword里的700-760章是测试集，剩余数据里的90%是训练集，最后的10%则被用来提升模型。

对于每个数据集，他们的关注目标是这5个副词：too、again、also、still和yet。由于它们在英语中一般就充当预设触发语，这就相当于整个学习问题被简化成了副词预设触发语是否存在——一个二元分类问题。他们把包含这些副词的句子标记为positive，不包含的则是negative。

学习模型

这是一个引入了注意力机制的模型，从某种程度上来说，它扩展了双向LSTM模型，通过计算每个时间步的隐藏状态之间的相关性，在这些相关性上应用注意力机制。

下图是论文提出的加权池化（WP）神经网络架构：

模型输入序列u = {u1, u2,..., uT}在数据集原始序列基础上经过one-hot编码而来，时间步长为T；

输入网络后，序列中的每个单词ut会嵌入预训练的嵌入矩阵We∈R|V|×d，其中V表示数据集V中的单词数，d则是嵌入空间大小；

嵌入后所得的单词向量xt∈Rd可以简单地用xt= utWe来表示，其中，因为xt可能还包含单词的词性标注，所以其实这个等式还应该加上经one-hot编码的词性标注pt：xt= utWe||pt（||：向量级联运算符）。

我们获得了双向LSTM的输入，之后用LSTM进行编码；

将编码馈送进注意力机制，计算出注意力权重后，对编码状态进行加权平均；

将输出依次连接到全连接层，预测状语预设触发语。

（上述过程中的双向LSTM和注意力机制运算非常常规，请看原文）

实验结果

从结果上看他们的模型还是不错的，但考虑到我们使用的是中文，语用预设更加复杂，英语语境下的这种二元分类方法可能并不适用，但这也为其他语言研究提供了一个比较可行的思路。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98748
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24351

原文标题：ACL 2018：最佳论文评选结果提前出炉

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

如何在CCS3.3中建立一个简单的工程_DSP28335

会遇到很多问题，关于各种文件表示的含义是什么，如何才能建立一个简单的工程。理论来源于实践，我们必须要亲自动手去试才能让自己加深记忆，更重要的是，在不断的实验当中我们才能真正的掌握DSP

发表于 12-26 15:27

谷歌的Dataset Search开放至今，为什么还搜不到我的数据集？

`本月早些时候，谷歌推出了数据集搜索专用引擎 Dataset Search，这是一个建立在元数据

发表于 09-28 16:22

VDSP建立会话出现了一个窗口

是这样子的，我需要建立会话跟踪数据，我根据书本建立了一个非模拟器环境下的会话窗口，他提示了我这样一

发表于 12-06 09:21

开发集和测试集应该服从同一分布

”和“其它地区”的数据归于测试集。也就是说我们可以随机地将其中两个区域的数据分配给开发集，另外两个

发表于 12-10 10:15

建立开发集和测试集（总结）

• 被选择作为开发集和测试集的数据，应当与你未来计划获取并对其进行良好处理的数据有着相同的分布，而不一定和训练

发表于 12-14 10:56

怎么删除分析中的“Ghost”数据集

Genesys 2007.03我添加了一个分析，例如“分析1”。然后我删除了这个分析。现在，其数据集“Analysis 1_Data”的名称仍保留在各种下拉列表中。已删除分析的虚假

发表于 02-20 09:12

如何建立芯片模型数据？

最近抄板一电路，想仿真试试结果。结果第一步就卡住了，因为电路板上用了HV3-2405E这种芯片。在网上找不到这个芯片的库，个人建立元件模型，也卡在了模型数据上！向大神们求助，如何

发表于 03-06 10:15

网络数据集进行一个最短路径分析的例子

如何通过网络数据集进行一个最短路径分析的例子。一、网络数据集

发表于 05-21 06:17

PTB数据集建立语言模型

《实战Google深度学习框架》之RNN学习笔记2 LSTM对PTB数据集的建模

发表于 09-26 16:21

怎么建立一个驱动为SQL D 的数据源？

怎么建立一个驱动为SQL D 的数据源

发表于 12-09 14:46

探讨一下关于电机轴承的数据集

这篇和大家探讨一下关于电机轴承的数据集电机轴承的数据集目前较多采用的是CWRU（凯斯西储大学轴承数据

发表于 09-08 06:52

如何从零建立一个STM32的工程

前言本篇文章的主要内容是建立第一个是STM32的工程，学习过C51的都应该了解，在写一个单片机程序时第一步就是

发表于 11-29 07:43

一个benchmark实现大规模数据集上的OOD检测

评价算法的性能。为此，这份工作建立了新的benchmark，在ImageNet-1k级别的数据集上设立了一个全新的benchmark。并提出

发表于 08-31 15:11

怎么建立一个基于串口的IAP应用

这文档主要引导用户怎么建立一个基于串口的IAP应用

发表于 12-01 07:44

搜索历史

建立一个源于StackExchange的新数据集

评论

如何在CCS3.3中建立一个简单的工程_DSP28335

一个完整的程序集说明，什么都行

谷歌的Dataset Search开放至今，为什么还搜不到我的数据集？

VDSP建立会话出现了一个窗口

开发集和测试集应该服从同一分布

建立开发集和测试集（总结）

怎么删除分析中的“Ghost”数据集

如何建立芯片模型数据？

网络数据集进行一个最短路径分析的例子

PTB数据集建立语言模型

怎么建立一个驱动为SQL D 的数据源？

探讨一下关于电机轴承的数据集

如何从零建立一个STM32的工程

一个benchmark实现大规模数据集上的OOD检测

怎么建立一个基于串口的IAP应用