NLP中的4个主要开放问题-电子发烧友网

本文基于专家调查和学术会议讨论，总结了NLP中的4个主要开放问题，分别涉及自然语言理解、数据可用性、多文档推理以及模型评估问题。

本文作者Sebastian Ruder 是一名很活跃的自然语言处理 (NLP) 研究员。Sebastian 是 AYLIEN（爱尔兰一家 NLP 公司）的一名研究科学家，还是都柏林大学Insight 研究中心数据分析组的博士生。

Sebastian Ruder

本文基于专家调查和Deep Learning Indaba论坛(非洲的一个最大的深度学习会议，得到DeepMind、谷歌等的赞助)上的讨论，讨论了NLP中的4个主要开放问题。

Sebastian Ruder向NLP专家提出了一些简单但重要的问题。根据这些回答，我们发现四个最常被提及的问题：

自然语言理解

用于低资源场景的NLP

对大型或多个文档进行推理

数据集、问题和评估

我们在小组讨论中讨论了这些问题。这篇文章主要是基于我们的专家的回答，以及小组成员Jade Abbott、Stephan Gouws、Omoju Miller和Bernardt Duvenhage的想法。我的目标是为那些有兴趣了解更多的人提供一些关于这些论点的背景知识。

自然语言理解

我认为最大的开放性问题都与自然语言理解有关。

[…]我们应该开发能够以人类的方式去阅读和理解文本的系统，通过形成一种文本表示的世界，其中有agent、对象、设置，以及agents之间的关系、目标、欲望、信念，以及其他一切人类为了理解一段文字而创造的东西。在做到这一点之前，所有的进展都是在改进我们的系统进行模式匹配的能力

—— Kevin Gimpel

在我们的调查中，许多专家认为自然语言理解(natural language understanding, NLU)是一个核心问题，因为它是许多任务的先决条件，例如自然语言生成(NLG)。大家的共识是，我们目前的模型没有一个显示出对自然语言的“真正”理解。

先天的偏见vs.从头开始学习

一个关键的问题是，为了更接近自然语言理解，我们应该将什么样的偏见和结构显式地构建到我们的模型中？在我们的调查中，许多回复提到模型应该包含常识。此外，对话系统(和聊天机器人)也多次被提及。

另一方面，对于强化学习，David Silver认为人们最终会希望模型自己学习所有东西，包括算法、特征和预测。许多专家持相反的观点，他们认为你应该在模型中构建一些理解。在2018年2月Yann LeCun和Christopher Manning之间的辩论中，也探讨了模型应该学习什么，以及应该将什么作为模型的固有先验(hard-wired priors)。

程序合成(Program synthesis)

Omoju认为，只要我们不了解自然语言理解背后的机制和如何评估这些机制，就很难将理解纳入其中。她认为，我们可能希望从program synthesis中获取想法，并自动学习基于高级规范的程序。这种观点与神经模块网络和神经编程解释器(neural programmer-interpreter)有关。

她还建议，我们应该回顾80、90年代时最初开发的方法和框架，比如FrameNet，并将这些与统计方法结合起来。这应该有助于我们推断出对象的常识属性，比如推断一辆车(car)是否属于车辆(vehicle)，具有把手(handles)，等等。推断出这些常识知识也是NLP领域近期的一个焦点问题。

具身学习(Embodied learning)

Stephan认为，我们应该使用可用的结构化资源和知识库(如Wikidata)。他指出，人类通过体验和互动，融入到环境中来学习语言。有人可能会争辩说，存在一种单一的学习算法，只要agent嵌入在足够丰富的环境中，并具有适当的奖励机制，就可以从头开始学习NLU。然而，对这样的环境的计算量将是巨大的。相比之下，AlphaGo需要庞大的基础架构才能解决有明确定义的棋类游戏。创建一个可以持续学习的通用算法这种观点，与过去提出的终身学习和通用问题解决器有关。

虽然许多人认为我们正朝着具身学习(embodied learning)的方向前进，但是我们不应该因此低估一个embodied agent所需的基础架构和计算。因此，等待一个成熟的embodied agent来学习语言似乎是不明智的。但是，我们可以采取一些步骤使我们更接近这个极限，例如在模拟环境中进行基础语言学习、结合交互或利用多模态数据。

情感

Omoju认为将与情感相关的人类因素融入到一个embodied agent中是非常困难的。然而，情感与对语言更深层次的理解是息息相关的。另一方面，我们可能不需要真正具有人类情感的agent。Stephan认为，图灵测试被定义为模仿，虽然没有情感，但却能愚弄人们，让人们认为它有情感。因此，我们应该能够找到解决方案，不需要embodied，也不需要情感，但能了解人们的情感并帮助人们解决问题。事实上，基于传感器的情感识别系统一直在改进，文本情感检测系统也是。

认知和神经科学

一位听众问，我们在模型中利用和构建了多少神经科学和认知科学的知识。神经科学和认知科学的知识可以给你带来很大的启发，并成为塑造你的思维的准则。例如，有一些模型试图模仿人类快速和慢速思考的能力[1]。正如Surya Ganguli在这篇文章中所阐述的，人工智能和神经科学在许多方面是互补的。

Omoju建议从认知科学理论中汲取灵感，比如Piaget和Vygotsky的认知发展理论。她还敦促大家开展跨学科的工作，这一观点得到了其他专家的响应。

用于低资源场景的NLP

处理 low-data的设置(低资源语言、方言(包括社交媒体文本这种“方言”)，等等)。这不是一个完全“开放性”的问题，因为已经有很多有前途的想法；但我们仍然没有一个通用的办法能够解决这个普遍问题。

– Karen Livescu

我们探讨的第二个主题是在低资源场景中，超出训练数据的限制进行泛化。考虑到Indaba是在非洲举行的会议，一个自然的关注点就是低资源语言。第一个问题集中在是否有必要为特定的语言开发专门的NLP工具，还是研究通用NLP就够了。

通用语言模型

Bernardt认为，语言之间存在普遍的共性，可以被一个通用语言模型所利用。接下来的挑战是获取足够的数据和计算力来训练这样的语言模型。这与最近训练跨语言的Transformer模型和跨语言句子嵌入的工作密切相关。

跨语言表示(Cross-lingual representations)

Stephan指出，使用低资源语言的人不够多。仅非洲就有1250-2100种语言，其中大多数语言很少受到NLP社区的关注。专用工具的问题也取决于正在处理的NLP任务。当前模型的主要问题是样本效率。跨语言的词汇嵌入非常高效，因为它们只需要单词翻译对，甚至只需要单语数据。它们可以很好地对齐词嵌入空间，以完成主题分类这样的粗粒度任务，但不支持机器翻译这样的细粒度任务。然而，最近的研究表明，这些嵌入为无监督机器翻译形成了重要的构建块。

另一方面，用于更复杂的高级任务的模型(如问题回答)则需要数千个训练示例来进行学习。将需要实际自然语言理解的任务从高资源语言转移到低资源语言仍然是非常具有挑战性的。随着针对此类任务的跨语言数据集的开发，例如XNLI，为更多推理任务开发强大的跨语言模型有望变得更容易。

好处和影响

另一个问题是，鉴于资源不足的语言本身只有少量文本可用，NLP在此类环境中的好处是否也会受到限制？Stephan强烈反对这点，他提醒说，作为ML和NLP的从业者，我们通常倾向于以信息理论的方式看待问题，例如最大化数据的可能性或改进基准。退一步说，我们研究NLP问题的真正原因是为了构建能够打破障碍的系统。我们希望构建一个模型，使人们能够阅读不是用他们的语言写的新闻，在他们不能去看医生的时候询问他们的健康问题，等等。

考虑到潜在的影响，为低资源语言构建系统实际上是最重要的研究方向之一。虽然一种低资源语言可能没有很多数据，但是低资源语言的数量很多；事实上，这个星球上的大多数人说的都是某种资源贫乏的语言。因此我们需要找到一种方式让我们的ML系统能够在这种设置中工作。Jade认为，具有讽刺意味的是，作为一个社区，我们一直专注于拥有大量数据的语言。我们更应该关注的是资源贫乏的语言，这些语言没有太多数据可用。值得庆幸的是，有研究人员正在研究这种低资源语言，并取得了进展。由于缺乏数据，即使是像词袋(bag-of-words )这样简单的系统也会对现实世界产生巨大的影响。

激励和技能

另一位听众指出，人们被激励去从事数据多的基准工作，如英德机器翻译，但在低资源语言方面缺乏激励。Stephan认为激励以“未解决的问题”形式存在。但是，缺乏解决这些问题的技能。我们应该关注的是机器翻译这类的技能，以帮助人们解决这些问题。不幸的是，学术进步并不一定与资源贫乏的语言有关。但是，如果跨语言基准变得更加普遍，那么这也会促使在低资源语言方面取得更多进展。

数据可用性

Jade最后指出，一个大问题是，对于资源较少的语言，例如非洲语言，没有可用的数据集。如果我们创建数据集并使其易于获得，这将激励人们研究并降低进入这个领域的壁垒。使用多种语言提供测试数据通常就足够了，因为这将允许我们评估跨语言模型并跟踪进度。

对大型或多个文档进行推理

有效地表示大规模的上下文。我们目前的模型大多基于递归神经网络，不能很好地表示较长的上下文。受图形启发的RNN的工作具有潜在的前景，尽管目前只有有限的改进，而且还没有被广泛采用，因为它们远不如普通的RNN那样易于训练。

——Isabelle Augenstein

另一个大的开放问题是关于大型或多个文档的推理。最近的NarrativeQA数据集就是这种设置的基准测试的一个很好的例子。使用大规模上下文进行推理与NLU密切相关，需要大幅扩展我们当前的系统，直到它们能够阅读整本的书籍和电影脚本。这里的一个关键问题是：我们是需要更好的模型，还是仅仅需要更多的训练数据？

在Dota2游戏中完胜人类职业玩家的OpenAI Five模型表明，如果增大现有模型的大小，让它们处理更多的数据和更多的计算，那么它们可以做很多事情。有了足够的数据量，我们当前的模型在更大型的上下文中也可以做得更好。问题是，拥有大量有标签的文件数据是稀缺且昂贵的。类似于语言建模，我们可以想象一个文档级的无监督任务，它需要预测一本书的下一段或下一章，或者决定下一章是哪一章。然而，这个目标很可能过于低效，无法学习有用的表示。

因此，更有用的方向似乎是开发能够更有效地表示上下文，并能够在阅读文档时更好地跟踪相关信息的方法。多文档摘要(Multi-document summarization)和多文档问答(multi-document question answering)方面已经有进展。同样，我们也可以在语言模型的基础上提高记忆能力和终身学习能力。

数据集、问题和评估

也许最大的问题是正确定义问题本身。通过正确地定义一个问题，我的意思是建立数据集和评估程序，以适当地衡量具体目标的进展。如果我们能把所有事情都简化成Kaggle风格的竞赛，事情会变得更容易!

– Mikel Artetxe

囿于时间限制，我们没有继续讨论当前的基准和评估设置的问题，但以前的调查有许多相关的回答：

https://docs.google.com/document/d/18NoNdArdzDLJFQGBMVMsQ-iLOowP1XXDaSVRmYN0IyM/edit

最后一个问题是，非洲社会应该解决哪些最重要的NLP问题。 Jade 认为，最重要的问题是解决资源不足的问题。特别是能够在教育中使用翻译，使人们能够用自己的语言获得他们想知道的一切，这是非常重要的。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉