用语言建模世界：UC伯克利多模态世界模型利用语言预测未来-电子发烧友网

当前，人与智能体（比如机器人）的交互是非常直接的，你告诉它「拿一块蓝色的积木」，它就会帮你拿过来。但现实世界的很多信息并非那么直接，比如「扳手可以用来拧紧螺母」、「我们的牛奶喝完了」。这些信息不能直接拿来当成指令，但却蕴含着丰富的世界信息。智能体很难了解这些语言在世界上的含义。

图源：谷歌机器人团队论文「Interac tive Language: Talking to Robots in Real Time」。

UC 伯克利 Dynalang 研究的关键思想是，我们可以将语言看作是帮助我们更好地对世界进行预测的工具，比如「我们的牛奶喝完了」→打开冰箱时没有牛奶；「扳手可以用来拧紧螺母」→使用工具时螺母会旋转。Dynalang 在一个模型中结合了语言模型（LM）和世界模型（WM），使得这种范式变成多模态。研究者认为，将语言生成和行动统一在一个智能体架构中是未来研究的一个令人兴奋的方向。

论文概览 人工智能长期以来的目标是开发能够在物理世界中与人类自然交互的智能体。当前的具身智能体可以遵循简单的低层指令，比如「拿一块蓝色的积木」或者「经过电梯，然后向右转」。然而，要实现自由交流的互动智能体，就需要理解人们在「此时此地」之外使用语言的完整方式，包括：传递知识，比如「左上角的按钮是关掉电视的」；提供情境信息，如「我们的牛奶喝完了」；以及协同，比如跟别人说「我已经吸过客厅了」。我们在文本中阅读的很多内容或者从他人口中听到的信息都在传递有关世界的知识，无论是关于世界如何运行还是关于当前世界状态的知识。我们如何使智能体能够使用多样化的语言呢？一种训练基于语言的智能体解决任务的方法是强化学习（RL）。然而，目前的基于语言的 RL 方法主要是学习从特定任务指令生成行动，例如将目标描述「拿起蓝色的积木」作为输入，输出一系列运动控制。然而，当考虑到自然语言在现实世界中所服务的多样功能时，直接将语言映射到最优行动是一个具有挑战性的学习问题。以「我把碗放好了」为例：如果任务是清洗，智能体应该继续进行下一个清洗步骤；而如果是晚餐服务，智能体应该去取碗。当语言不涉及任务时，它只与智能体应该采取的最优行动弱相关。将语言映射到行动，尤其是仅使用任务奖励，对于学会使用多样化语言输入完成任务来说是一个弱学习信号。不同的是，UC 伯克利的研究者提出，智能体使用语言的一种统一方法是帮助它们预测未来。前面提到的语句「我把碗放好了」有助于智能体更好地预测未来的观察结果（即，如果它采取行动打开橱柜，它将在那里看到碗）。我们遇到的很多语言可以通过这种方式与视觉体验联系起来。先前的知识，比如「扳手可以用来拧紧螺母」，帮助智能体预测环境变化。诸如「包裹在外面」的陈述有助于智能体预测未来的观察结果。这个框架还将标准指令遵循归入预测范畴：指令帮助智能体预测自己将如何受到奖励。类似于下一个 token 预测允许语言模型形成关于世界知识的内部表示，研究者假设预测未来的表示为智能体理解语言以及它与世界的关系提供了丰富的学习信号。

基于此，他们提出了 Dynalang，一种从在线经验中学习语言和图像世界模型，并利用该模型学习如何行动的智能体。 Dynalang 将学习用语言对世界建模（带有预测目标的监督学习）与学习根据该模型采取行动（带有任务奖励的强化学习）分离开来。该世界模型接收视觉和文本输入作为观察模态，并将它们压缩到潜在空间。研究者通过在线收集的经验训练世界模型，使其能够预测未来的潜在表示，同时智能体在环境中执行任务。他们通过将世界模型的潜在表示作为输入，训练策略来采取最大化任务奖励的行动。由于世界建模与行动分离，Dynalang 可以在没有行动或任务奖励的单模态数据（仅文本或仅视频数据）上进行预训练。此外，他们的框架还可以统一语言生成：智能体的感知可以影响智能体的语言模型（即其对未来 token 的预测），使其能够通过在动作空间输出语言来描述环境。

论文链接：https://arxiv.org/pdf/2308.01399.pdf项目主页：https://dynalang.github.io/代码链接：https://github.com/jlin816/dynalang 研究者在具有不同类型语言上下文的多样化环境中对 Dynalang 进行了评估。在一个多任务家庭清洁环境中，Dynalang 学会利用关于未来观察、环境动态和修正的语言提示，更高效地完成任务。在 Messenger 基准测试中，Dynalang 可以阅读游戏手册来应对最具挑战性的游戏阶段，优于特定任务的架构。在视觉 - 语言导航中，研究者证明 Dynalang 可以学会在视觉和语言复杂的环境中遵循指令。

Dynalang 学会使用语言来预测未来的（文本 + 图像）观察结果和奖励，从而帮助解决任务。在这里，研究者展示了在 HomeGrid 环境中真实的模型预测结果。智能体在接收环境中的视频和语言观察的同时，探索了各种房间。根据过去的文本「瓶子在客厅」，在时间步 61-65，智能体预测将在客厅的最后一个角落看到瓶子。根据描述任务的文本「拿起瓶子」，智能体预测将因为拿起瓶子而获得奖励。智能体还可以预测未来的文本观察：在时间步 30，给定前半句「盘子在」，并观察到橱柜上的盘子，模型预测下一个最可能的 token 是「厨房」。

研究者考虑了一系列具有视觉输入和多样化语言的环境。HomeGrid 是一个具有指令和多样化提示的具有挑战性的视觉网格世界。Messenger 是一个具有符号输入的基准测试，包含数百个人工编写的游戏手册，需要进行多次推理。Habitat 是一个模拟逼真的 3D 家居环境，用于视觉 - 语言导航，在其中智能体必须在数百个场景中定位物体。LangRoom 是一个简单的视觉网格世界，具有部分可观察性，智能体需要同时生成动作和语言。 详解 Dynalang 工作原理 使用语言来理解世界很自然地符合世界建模范式。这项工作构建在 DreamerV3 的基础之上，DreamerV3 是一种基于模型的强化学习智能体。Dynalang 不断地从经验数据中学习，这些数据是智能体在环境中执行任务时收集到的。如下图（左）所示，在每个时间步，世界模型将文本和图像压缩成潜在表示。通过这个表示，模型被训练用于重建原始观察结果、预测奖励，并预测下一个时间步的表示。直观地说，世界模型根据它在文本中读到的内容，学习它应该期望在世界中看到什么。如下图（右）所示，Dynalang 通过在压缩的世界模型表示之上训练策略网络来选择行动。它通过来自世界模型的想象的模拟结果进行训练，并学会采取能够最大化预测奖励的行动。

与之前逐句或逐段消耗文本的多模态模型不同，研究者设计的 Dynalang 将视频和文本作为一个统一的序列来建模，一次处理一帧图像和一个文本 token。直观来说，这类似于人类在现实世界中接收输入的方式 —— 作为一个单一的多模态流，人需要时间来聆听语言。将所有内容建模为一个序列使得模型可以像语言模型一样在文本数据上进行预训练，并提高强化学习的性能。 HomeGrid 中的语言提示 研究者引入了 HomeGrid 来评估一个环境中的智能体。在这个环境中，智能体除了任务指令外还会收到语言提示。 HomeGrid 是一个具有指令和多样化提示的具有挑战性的视觉网格世界。HomeGrid 中的提示模拟了智能体可能从人类那里学到或从文本中获取的知识，提供了对解决任务有帮助但不是必需的信息：未来观察：描述了智能体未来可能观察到的情况，比如「盘子在厨房里」。

Correction：提供了基于智能体当前行为的交互式反馈，比如「转身」。

Dynamics：描述了环境的动态变化，比如「踩踏板打开垃圾桶」。

HomeGrid 环境将与代码一起发布，以鼓励大家进一步在这个方向上进行研究。尽管智能体没有明确地接受有关文本对应于什么观察结果的明确监督，但 Dynalang 通过未来预测目标学会了将各种类型的语言与环境相联系。Dynalang 的性能优于基于语言的 IMPALA 和 R2D2，这两种方法在使用不同类型的语言上遇到困难，通常在超出指令范围的语言任务上表现更差。

Messenger 中的游戏手册 研究者在 Messenger 游戏环境中进行评估，以测试智能体如何从更长、更复杂的文本中学习，这需要对文本和视觉观察进行多次推理。智能体必须对描述每个任务动态的文本手册进行推理，并将其与环境中实体的观察结果结合起来，以确定哪些实体应该接收消息，哪些应该避免。Dynalang 的表现优于 IMPALA、R2D2 以及使用专门架构对文本和观察进行推理的任务特定 EMMA 基线，特别是在最困难的第三阶段。

Habitat 中的指令遵循 研究者还展示了 Dynalang 能够处理逼真的视觉观察，并在 Habitat 中执行指令跟随。智能体必须遵循自然语言指令，在家庭逼真扫描中导航到目标位置。在 Dynalang 中，指令遵循可以统一在相同的预测框架中，将其视为未来奖励预测。

基于 LangRoom 的语言生成 就像语言可以影响智能体对将要看到的事物的预测一样，智能体观察到的内容也会影响它对将要听到的语言的期望（例如，关于它所看到的内容的真实陈述）。通过在 LangRoom 中将语言输出到动作空间，研究者展示了 Dynalang 可以生成与环境相关联的语言，从而进行具身问答。LangRoom 是一个简单的视觉网格世界，具有部分可观察性，智能体需要在其中产生运动动作和语言。

文本预训练 由于使用语言进行世界建模与基于世界模型的行动学习解耦，Dynalang 可以使用离线数据进行预训练，而无需行动或奖励标签。这种能力使得 Dynalang 能够从大规模的离线数据集中受益，全部都在单一的模型架构内实现。研究者使用仅包含文本数据的数据对 Dynalang 进行预训练，从零开始学习 token 嵌入。在通用文本数据（TinyStories，2M 个短故事）上预训练模型，提高了模型在 Messenger 上的下游强化学习任务表现，超过了使用预训练的 T5 嵌入的结果。

研究者表示，尽管他们的工作专注于用于在世界中行动的语言理解，但它也可以像一个仅文本语言模型一样从世界模型中生成文本。研究者在潜在空间中对预训练的 TinyStories 模型进行模拟的抽样，然后在每个时间步骤从表示中解码 token 观察。尽管生成的文本质量仍然低于当前语言模型的水平，但模型生成的文本令人惊讶地连贯。他们认为将语言生成和行动统一在一个智能体架构中是未来研究的一个令人兴奋的方向。

原文标题：用语言建模世界：UC伯克利多模态世界模型利用语言预测未来

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2870

文章
41659

浏览量
358429

原文标题：用语言建模世界：UC伯克利多模态世界模型利用语言预测未来

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

fpga通用语言是什么

FPGA（现场可编程门阵列）的通用语言主要是指用于描述FPGA内部逻辑结构和行为的硬件描述语言。目前，Verilog HDL和VHDL是两种最为广泛使用的FPGA编程语言。

发表于 03-15 14:36 •178次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据，为更丰富的交互和查询响应提供了可能性。

发表于 01-19 16:11 •284次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •127次阅读

机器人基于开源的多<b class='flag-5'>模态</b><b class='flag-5'>语言</b>视觉大<b class='flag-5'>模型</b>

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频

发表于 12-28 11:45 •212次阅读

自动驾驶和多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的发展历程

计算机视觉迎来GPT时刻！UC伯克利三巨头祭出首个纯CV大模型！

在损失函数上，研究者从自然语言社区汲取灵感，即掩码 token 建模已经「让位给了」序列自回归预测方法。一旦图像、视频、标注图像都可以表示为序列，则训练的模型可以在

发表于 12-05 15:34 •555次阅读

计算机视觉迎来GPT时刻！<b class='flag-5'>UC</b><b class='flag-5'>伯克利</b>三巨头祭出首个纯CV大<b class='flag-5'>模型</b>！

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言模型

发表于 12-04 15:51 •411次阅读

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

目前的 VL 预训练方法通常仅适用于视觉和语言模态，而现实世界中的应用场景往往包含更多的模态信息，如深度图、热图像等。如何整合和分析不同模态

发表于 11-23 15:46 •288次阅读

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态

发表于 11-09 14:53 •258次阅读

ESL事务级建模语言简介

任何系统级建模语言，都需要具备在较高层次的抽象能力和对不同来源的IP的集成能力。建模方法的选择通常基于语言熟悉程度、建模支持、

发表于 11-02 15:10 •340次阅读

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些

发表于 09-01 17:14 •1118次阅读

语言模型的发展历程基于神经网络的语言模型解析

简单来说，语言模型能够以某种方式生成文本。它的应用十分广泛，例如，可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上，语言

发表于 07-14 11:45 •517次阅读

LeCun世界模型首项研究来了：自监督视觉，已开源

LeCun 认为，构造自主 AI 需要预测世界模型，而世界模型必须能够执行多模态

发表于 06-14 16:53 •399次阅读

邱锡鹏团队提出SpeechGPT：具有内生跨模态能力的大语言模型

虽然现有的级联方法或口语语言模型能够感知和生成语音，但仍存在一些限制。首先，在级联模型中，LLM 仅充当内容生成器。由于语音和文本的表示没有对齐，LLM 的知识无法迁移到语音模态中。

发表于 05-22 10:19 •423次阅读

利用大语言模型做多模态任务

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。

发表于 05-10 16:53 •748次阅读

UML统一建模语言

UML-Unified Modeling Language 统一建模语言，又称标准建模语言。是用来对软件密集系统进行可视化建模的一种

发表于 05-05 10:15 •601次阅读