基于部分可观察马尔可夫决策过程思考自然语言处理和强化学习问题的一些想法-电子发烧友网

【编者按】Microsoft Semantic Machines资深研究科学家、UC Berkeley计算机科学博士Jacob Andreas讨论了基于部分可观察马尔可夫决策过程思考自然语言处理和强化学习问题的一些想法。

AI研究应该操心话语含义的明确表示吗？我这里说的“含义的明确表示”指具备预定义的解释的结构化变量——语义学家关心的那类事情。长期以来，这样的含义表示一直是将语义与其他任务连接起来的成功努力的中心，这些任务涉及推理、感知、行动（从SHRDLU到现代语义解析器）。另外，长期以来，结构化的含义表示同时也是一些不成功的工作的中心，这些工作包括机器翻译、句法等。这种表示使用了许多不同的表示形式化系统——新戴维森逻辑形式（AZ13），组合子逻辑（LJK11），其他非逻辑结构（TK+11）——不过，从某种角度上来说，它们基本上都属于基于预测-论据结构实现的模型-理论语义，也许预言主体有几个自由变量。

这类方法看起来正在消失。现在所有一切都是端到端的，接受手工设计的逻辑语言的值，带有这样的显式潜变量的模型非常罕见。话语传入模型，模型产生行为，我们并不怎么操心中间进行的运算的结构。从某种标准上来说，这是一件好事：在更形式化的方法中，机器学习和表示的紧密耦合意味着，数据中出现新的语义现象导致模型突然变得无用的风险始终存在。足够一般的学习表示的机制（非逻辑）让这一风险不那么可怕了。当然，在旧模型中毫不费力就能得到的一些特定种类的概括和归纳偏置，我们尚未完全搞清楚如何重建。不过，结构化正则器（OS+17）和我们的NMN工作（AR+16）这样的混合方法的成功，暗示我们将逐渐达到这一步。

但是端到端世界的态度看起来是，既然我们不再进行逻辑推理，那么我们完全没有必要考虑含义。突然之间，所有人都喜欢称引维特根斯坦，主张我们应该以下游任务的成功来评估“语言理解”，而不是通过预测正确的逻辑形式（WLM16、GM16、LPB16）——这很棒！——但是这背后似乎有这么一种哲学：“含义即使用，所以如果我们能以很高的精确度预测使用，那么我们就已经理解了我们需要理解的关于含义的一切”。特别是考虑到我们实际上并没有解决“使用”，我认为机器学习在等式的含义这边有很多需要学、需要说的。而且我从不认为这是维特根斯坦《哲学研究》中的主张——就算使用（而不是指代）是我们应该尝试解释的主要内容，《哲学研究》则对依据哪种语言使用是可能的判断~~心智表示~~过程表示特别感兴趣。

本文的主张是，p(世界状态|话语)形式的信念状态的明确表示，适合作为“非结构”机器学习模型的含义表示。这类表示很自然地源于社区最近热衷的决策任务，但也和语言学的经典表示理论很像。这一综合暗示了同时训练和解释语言处理模型的道路。

信念状态和内涵

考虑这样一个问题，在部分观察的世界中，通过和人们交谈降低不确定性，决定如何行动。你应该如何选择应该采取的最佳行动？给定单一话语w，可能真实的世界状态x，就某风险函数R而言，最小化贝叶斯风险的行动为：

任何希望在这个世界成功的听话人需要至少成功地逼近这一优化问题的解，在实践中，听话人大概需要表示分布p(x|w)，至少隐式地表示。在POMDP中，我们称p(x|w)为信念状态；对一给定w而言，这是一个映射可能世界x至变量可信度判断的函数——给定我们观察到某人说了w这一事实，x是真实世界的可能性有多大？

和蒙塔古语义学中的内涵概念对比一下：“映射可能世界和时刻至真值的函数”（J11）。大多数（模型-理论）语义程序使用逻辑表达式（而不是表格）表示内涵。但逻辑形式只不过是表达类型正确的函数的一种方式；在蒙塔古传统下，“含义的明确表示”正是内涵——类似p(x|w)的离散版。

信念状态是包含概率的内涵。含义的内涵表示很有用，不仅是因为它们有助于解决语言学问题，还因为它们逼近一个量，我们知道，这个量有助于语言使用者利用从语言中获取的信息进行有用之事。另一方面，POMDP告诉我们，我们需要在听到话语后进行的计算，差不多是语言学家至始自终告诉我们需要计算的东西。或者，几乎就是语言学习家已经告诉我们的东西——比起回答p(x|w)请求的黑箱，如果是带一点结构的东西就更好了，也许是某种分解表示，让我们可以通过检查所有可信世界共有的一组属性高效地找出MBR行动。也许是关于个体的断言、他们的性质、他们之间的关系……等的乘积。要是逻辑语义学不存在的话，我们将不得不发明它。

准确地说，作为“含义”的p(x|w)应该理解为听话人含义：已经计入格莱斯说话人含义类型效应（寓意）以及说话人也许不想让听话人进行的进一步推理（例如，w是谎言的概率）的精确信念状态。我们这里不在乎p(x|w)来自何处，所以也许可以通过RSA之类的技术计算（使用不同的内嵌句含义概念）（FG12）。

最后一项调整：现实世界听话人并不从白板开始：所有话语都基于现存信念状态p(x)的上下文进行解读，与其将句子的含义直接视作p(x|w)，不如将其视作一个更新函数p(x) ↦ p(x∣w)。就“Pat loves Lou”这样的句子而言，我想这一更新基本上一直是连续的；即p(x) ↦ (1/Z)⋅p(x)⋅p(x∣w). 但要处理指示词和Quine问题中bachelor的含义（译者注：bachelor既可以指学士，也可以指单身汉），我们需要更新函数的一般版本。

实际影响

这些都很好，不过我们注意到明确指称含义表示（逻辑、概率或其他形式）并没有在实践中表现良好的那些模型中得到应用。所以这有什么可在意的？

语言理解系统要想工作良好，必定选择了类似最小贝叶斯风险的行动。奥妙在于：深度网络的后缀是一个通过固定回路转换输入表示至输出行动的函数；如果这个后缀可以为每个输入表示选择良好的行动，那么它实际上实现了类似MBR解码算法的东西（尽管也许只是逼近，同时在表示的经验分布上特化）；呈现给这一部分网络的语言上下文表示必须足以解决优化问题，所以会是类似p(x|w)表示的东西。

这不是一个很好的论据：模型的“句子表示”和“优化”部分之间可能实际上没有明显的界限。但在实践中，我们确实看到了含义类的句子表示出现（特别是在句子表示独立于听话人具备的关于世界状态的初始信息计算的模型中（DP+18））。当在较大规模网络中使用专门化的优化模块时（TW+17、LFK18），我们可以很明确地看到两者的差别。

在任何情形下，我们模型的某种中间表示解码（或应该能解码）知识为世界状态分布，并为我们提供了两种工具：

可解释性：通过估计p(x|rep(w))可以测试表示是否捕捉了正确的语义（或者识别表示捕捉了什么奇异的不规则性），其中rep(w)是模型学习到的话语w的表示。判断这是否对应于w的真实（即人类听话人的）指称。我们发表的一些论文（ADK17、AK17）在这一技术上取得了一些进展。我们组的其他一些学生使用这一技术分析遵循指令的模型的预训练方案。不过，某种程度上，应用这一技术学习自然语言自身的表示要比应用于学习到的消息/抽象行动的空间更加自然。

辅助目标：指令遵循/QA问题的一般目标是p(行动|话语, 听话人观测)。不过，如果碰到了过拟合问题，在说话人观测可用的情况下，可以直接加上一项p(说话人观测, 听话人观测|话语)。对某些问题而言（例如GeoQuery类的语义解析），在“说话人观测”和“行动”之间不存在有意义的差别；对另一些问题而言，这看起来像是完全不同的学习问题。在指代表达任务中，指称辅助问题是“生成/获取图像对，在这一对对图像之间，这将是不同的描述”；在指令遵循模型中，它是“生成目标状态（但未必是能让我到达那里的行动）”。

结语

在语言任务中思考POMDP风格的解答，我们得到了疑似模型-理论语义学中的含义的描述。这一类比提供了解释学习到的模型的工具，并暗示了提升模型精确度的辅助目标。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

强化学习

强化学习

+关注

关注
4

文章
259

浏览量
11114
自然语言处理

自然语言处理

+关注

关注
1

文章
509

浏览量
13101

原文标题：AI研究应该关注语含义的明确表示吗？

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

自然语言处理的研究内容

自然语言处理（NLP）的最新发展改变了我们与AI系统的交互方式： 1. 预训练模型：像 GPT-3 这样的模型已经进步，使人工智能能够在聊天机器人和虚拟助手中生成更连贯的上下文感知响应。 2.

发表于 01-18 16:39 •201次阅读

2023年科技圈热词“大语言模型”，与自然语言处理有何关系

电子发烧友网报道（文/李弯弯）大语言模型（LLM）是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种

发表于 01-02 09:28 •1389次阅读

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《

发表于 10-30 11:36 •1642次阅读

自然语言处理和人工智能的区别

　　自然语言处理(Natural Language Processing，NLP)是人工智能(AI)中的一个分支，它利用计算机技术对自然语言进行处理，使得电脑能够理解和操作人类

发表于 08-28 17:32 •932次阅读

自然语言处理和人工智能的概念及发展史 自然语言处理和人工智能的区别

自然语言处理(Natural Language Processing, NLP)的定义是通过电脑软件程序实现人们日常语言的机器自动处理。为了帮助计算机理解，掌握

发表于 08-23 18:22 •531次阅读

自然语言处理的概念和应用 自然语言处理属于人工智能吗

　　自然语言处理(Natural Language Processing)是一种人工智能技术，它是研究自然语言与计算机之间的交互和通信的一门学科。自然语言

发表于 08-23 17:31 •853次阅读

自然语言处理的优缺点有哪些 自然语言处理包括哪些内容

自然语言处理（Natural Language Processing）是一种人工智能的技术及领域，它致力于让计算机理解及处理人类语言。它可以帮助计算机对人类

发表于 08-23 17:26 •2561次阅读

亚马逊云科技结合大语言模型和自然语言问答，加速的数据决策

任务，包括：基于Amazon QuickSight Q全新的视觉创作体验功能，在几秒钟内创建数据可视化图表；使用自然语言微调和格式化图表效果；无需学习

发表于 08-14 19:04 •390次阅读

自然语言处理包括哪些内容 自然语言处理技术包括哪些

自然语言处理(Natural Language Processing, NLP)一般包括以下内容：语音识别(Speech Recognition)：将人类语言转换为计算机可以理解的形式。语音合成

发表于 08-03 16:22 •3897次阅读

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

体的发展，从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato，智能体的训练方法和能力都在不断演进。从中不难发现，随着大模型越来越成为人工智能发展的主流趋势，DeepMind 在智能体的开发中不断尝试将强化学习与自然语言

发表于 07-24 16:55 •332次阅读

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

发表于 07-19 14:35 •0次下载

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1186次阅读

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来

发表于 06-09 09:23 •370次阅读

PyTorch教程-16.7。自然语言推理：微调 BERT

实验室在 SageMaker Studio Lab 中打开笔记本在本章前面的部分中，我们为 SNLI 数据集上的自然语言推理任务（如第 16.4 节所述）设计了一个基于注意力的架构（第16.5

发表于 06-05 15:44 •997次阅读

自动驾驶决策概况

（Ontologies-based） 2.2 基于统计的决策算法 2.2.1 贝叶斯网络（BN） 2.2.2 马尔可夫决策过程（MDP） 2.2.3

发表于 06-01 16:24 •0次下载