0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大语言模型火爆的今天,我们为什么还要拥抱世界模型?

脑极体 来源:脑极体 作者:脑极体 2025-04-11 14:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZO2f3wmiAPyRWAAnbq_XukYE361.jpg

图灵奖得主杨立昆认为,目前AI界持续追捧的大语言模型并非十全十美,它隐藏着四个难以突破的致命弱点:一是理解物理世界,二是拥有持久记忆,三是具备推理能力,四是复杂规划能力。

而能够克服第一个“致命弱点”的技术,叫作世界模型。

这听起来或许很抽象,但你一定知道谷歌的3D游戏、特斯拉自动驾驶

世界模型意味着机器能够像人一样辨别物理空间、理解物理规律、根据经验做出推理决策。

与大语言模型不同的是,世界模型不再遵循从海量文本语料生成概率的逻辑,而是在深度分析大规模现实世界视频后推测因果。

就像人类世界的婴儿一样,在交互学习中构建对这个世界的认知。

wKgZO2f3wmmAMlNZAAJG7j7X5f8486.jpg

想象一个刚出生的婴儿,她的眼睛尚未完全聚焦,却能通过触摸、温度、声音的碎片拼凑出世界的轮廓。人类大脑用数百万年进化出这种能力——将感官信息转化为对物理规律的理解。

而这恰是今天人工智能所欠缺的,世界模型正在努力发展的——从数据中重构对重力、时间等知识的理解。

世界模型的概念最早可追溯至1980s到1990s的认知科学和控制理论,那时的研究者受心理学影响,提出AI系统需要构建对环境的内部模拟,从而进行预测和决策,即AI的环境建模能力。

这里有一个重要的要素:环境。

从生物学上来讲,不论是微生物、动物还是人,行为都遵循着一个最基本的规则:刺激-反应模式,即生物反应是对环境刺激的直接响应。

随着生物千亿年漫长的进化,动物发展出感觉和心理,通过视觉、听觉、嗅觉等感官感知外界,产生出兴奋、恐惧等简单情绪;人类进一步发展出自我意识,而人类意识和动物感觉最大的区别是能否自主规划、有目的地进行决策和行动。

拿生物进化过程和AI的发展历程相比,我们不难发现,其实AI的终极形态AGI就是要发展出自主感知现实、自我规划、有目的决策的能力。

世界模型的雏形就萌芽于心理学家对人类和动物认知理解世界并做出决策的观察。这个理论叫作心智模型,1990年由David Rumelhart提出,强调智能体需对环境形成抽象表征。

以我们自身举例,人类大脑对周围世界有一种习得的内在认知框架,根据经验做决策,如看到乌云就联想到下雨。再比如,我们不会记住每片树叶的形状,却能瞬间判断树枝能否承受体重。同理,世界模型就是让机器构建起对周围环境和世界的理解和预测能力,比如看到火就联想到烫伤。这种抽象能力,正是这一时期学者希望机器具有的禀赋。

但是,这阶段的世界模型研究停留在理论构想阶段,虽有了较为清晰的定义和目标,仍没有具体的技术路径。

世界模型研究开始落地是2000s到2010s的计算建模阶段,随着强化学习和深度学习的深入发展,学者开始尝试用神经网络构建可训练的世界模型。

强化学习通过奖惩机制让其在与环境交互过程中不断习得策略,类似于“训狗”,深度学习通过分层特征提取让其从海量数据中自动学习规律,类似于“炼金”。

2018年,DeepMind 《World Models》(Ha & Schmidhuber)论文首次用“VAE+RNN+控制器”的三段式架构,构建可预测环境的神经网络模型,成为现代世界模型的里程碑。

这一过程类似于“造梦”——先通过自动编码器VAE将现实场景压缩成数据,再利用RNN循环神经网络推演未来可能的情节,最后用精简的控制器指导行动。这意味着世界模型首次具备了颅内推演的能力,像人类一样在行动前预判后果,大大降低了试错成本。

2022年后,世界模型进入大模型时代,借助Transformer的序列建模能力和多模态学习技术,应用范围从单一模态扩展到跨模态仿真,世界模型的推演也从2D走向3D(如OpenAI的GATO、DeepMind的Genie)。

近期研究如Meta的VC-1、Google的PaLM-E进一步将世界模型的概念带入公众视野,将世界模型与大语言模型结合以实现更通用的环境推理成为一种技术发展路径。

Google的PaLM-E(5620亿参数)模型成功将语言模型与视觉、传感器数据等物理世界信息结合,机器人能够理解复杂指令(如“捡起掉落的锤子”)并适应新环境执行任务。Meta Llama系列的开源多模态框架(如MultiPLY)进一步促进了对物理环境的3D感知研究。

由上,从概念推演到落地实践,世界模型在发展中逐步摸索,渐渐走出一条从混沌到清明的路。

wKgZO2f3wmqAEHVBAAIGV0l8Bw4836.jpg

Transformer架构的进化、多模态数据的爆发,让世界模型走出训练场,走进游戏场,再走向真实世界——谷歌、腾讯通过其生成逼真的游戏场景,特斯拉用神经网络预测车辆轨迹,DeepMind通过建模预测全球天气。

就这样,在实验室中蹒跚学步的世界模型开始了他对现实物理规律的探索之路。

就像人类幼年通过游戏感受规则完成社会化一样,世界模型的第一关也是游戏。

初期的模型应用仰赖规则明确的虚拟环境和边界清晰的离散空间,如Atari游戏(DQN)、星际争霸(AlphaStar),采用表格型模型(如Dyna),后期结合CNN/RNN处理图像输入。

进化至3D版后,谷歌DeepMind的Genie 2可通过单张图片生成可交互的无限3D世界,时长达1min,用户可自由探索动态环境(如地形变化、物体互动)。由腾讯、港科大、中国科大联合推出的GameGen-O模型可一键生成西部牛仔、魔法师、驯兽师等游戏角色,还能以更高保真度、更复杂的物理效果生成海啸、龙卷风、激光等各种场景。

经过大量训练后,世界模型由游戏过渡到工业场景。

游戏引擎的核心能力在于构建高保真、可交互的3D虚拟环境。这种能力被直接迁移到工业场景中,用于模拟工业场景中各种可能出现故障的复杂场景。

机器人公司波士顿动力在虚拟环境中预演机器人动作(如摔倒恢复),再迁移到实体机器;特斯拉2023年提出的世界模型直接整合了游戏引擎的仿真技术,利用合成数据训练自动驾驶系统,减少对真实路测数据的依赖;蔚来的智能世界模型能够在极短时间内推演数百种可能情境并做好预案和决策。

最近,世界模型还走进了基础研究领域。

DeepMind的GraphCast靠世界模型处理百万级网格气象变量,预测天气能力比传统数值模拟快1000倍,能耗降低1000倍。它通过图神经网络架构,能够直接从历史再分析数据中学习天气系统的复杂动力学,精准、高效预测全球天气。

从游戏般的虚拟场景到自动驾驶等现实场景,世界模型的本质是通过大量多模态资料理解物理世界的规律。未来,“世界模型+大语言模型”可能成为AGI的核心架构,让AI不仅能聊天,还能真正理解并做出决策改变现实世界。

不过,我们为何需要世界模型?在大语言模型火爆全球的今天,是什么让其显得不可替代呢?

wKgZO2f3wmyAb_ohAAJwYcdfFpw084.jpg

让AI真正从模仿表征到感知本质,克服其各种恐怖谷效应的关键是:让它真正理解这个世界,了解现实空间和物理规律,进而理解它为什么会做这件事,而不是机械地根据海量数据的关联概率推测下一个token是什么。

这是基于大规模文本语料的大语言模型和不断试错优化寻找最优路径的强化学习做不到的,只有世界模型能做到。

传统AI是数据驱动型的被动反应系统,而世界模型通过构建内部虚拟环境理解了物理、碰撞等现实规律,能够像人类一样通过想象预演行动后果,并在游戏、机器人等领域共享底层推理算力。

首先是通过底层建模和多模态整合构建出跟人类一样的心智模型。外部,世界模型不仅模拟物理规律,还试图理解社会规则和生物行为,从而在复杂场景中趋利避害。内部,世界模型根据感知、预测、规划和学习的协同,形成类似人类心智的时空认知能力。

其次是因果预测和反事实推理能力。世界模型能够基于当前状态和行动,预测未来的演变结果。其具备类似人类的常识库,能填补缺失信息并进行反事实推理(what if),即使未直接观察某事件,也能推断“如果采取不同行动会如何”。这种能力使其在数据稀缺时仍能有效决策,减少对海量标注数据的依赖,在自动驾驶领域应用较多。

最后,世界模型通过自监督学习构建对世界的通用表征,获得了跨任务、跨场景的泛化能力,而传统模型通常需针对特定领域的具体任务微调。

但是,这些能力,为什么火极一时的大语言模型做不到呢?

wKgZO2f3wm2AGQzNAAEnTczKTcE796.jpg

要弄清为什么世界模型的预测能力和大语言模型的推测token能力不一样,我们需要弄清一个概念:相关性≠因果性。前者是概率关联、后者是因果推理。

大语言模型(如GPT系列)侧重于大数据驱动的自回归学习,通过海量文本数据训练模型以生成文本,本质是预测概率,而世界模型学派认为自回归的Transformer无法通往AGI。AI需要具备真正的常识性理解能力,这些能力只能通过深度分析大量照片、音视频等多模态数据对世界的内在表征来获得。

模型结构层面,大语言模型主要依赖Transformer架构,通过自注意力机制处理文本序列。世界模型则包含多个模块,如配置器、感知、世界模型、角色等,能够估计世界状态、预测变化、寻找最优方案。

通俗地讲,大语言模型训练出的文本天才是纸上谈兵的文将,对常识可能一窍不通。而世界模型更像在建模环境里身经百战的武将,可以凭直觉和经验预判对手如何出招。

世界模型虽前景可期,目前依然面临着一些瓶颈。

算力上,训练世界模型所需要的计算资源远超大语言模型,且存在“幻觉”(错误预测)问题;泛化能力上,如何平衡模型复杂度与跨场景适应性仍需突破;训练集上,多模态的数据规模更少,且需深度标注,质量把关是重中之重。

如果说类似GPT一样的大语言模型已经到了能言善辩的青春期,世界模型实则还处于牙牙学语的幼年期。

总的来讲,世界模型是深度学习之外的另一条探索道路。如果未来深度学习陷入发展瓶颈,世界模型可能是一种备选方案。但现阶段,世界模型仍在探索期,我们仍要将主心骨放在大语言模型和深度学习这条技术线上。

多点发力,协同并进,才能让AI的成长有更多道路可走。

wKgZO2f3wm6ACDHBAAHebBTAgJE146.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38167

    浏览量

    296859
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11256
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界模型
    的头像 发表于 11-05 08:55 484次阅读
    VLA和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,谁才是自动驾驶的最优解?

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基
    的头像 发表于 09-02 13:34 3096次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>LLM原理

    声学世界模型将如何改变我们的生活

    近日,声智科技发表标题为“A Survey on World Models Grounded in Acoustic Physical Information”的声学世界模型综述文章,调研了全球研究
    的头像 发表于 06-27 11:36 824次阅读

    自动驾驶中常提的世界模型是个啥?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断成熟,车辆需要在复杂多变的道路环境中安全地行驶,这就要求系统不仅能“看见”周围的世界还要能“理解”和“推测”未来的变化。世界模型
    的头像 发表于 06-24 08:53 755次阅读
    自动驾驶中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是个啥?

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 1066次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,能够理解并生成与视觉内容相关的自然
    的头像 发表于 03-17 15:32 7623次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    小白学大模型:训练大语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的一项研究中,科学家们为了深入了解如何高效地训练大型
    的头像 发表于 03-03 11:51 1212次阅读
    小白学大<b class='flag-5'>模型</b>:训练大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    语言模型的解码策略与关键优化总结

    本文系统性地阐述了大型语言模型(LargeLanguageModels,LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面
    的头像 发表于 02-18 12:00 1076次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的解码策略与关键优化总结

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3271次阅读
    一文详解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    今天学习<基于大模型的RAG应用开发与优化>这本书。大模型微调是深度学习领域中的一项关键技术,它指的是在已经预训练好的大型深度学习模型基础上,使用新的、特定任务相关的数据
    发表于 01-14 16:51

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 573次阅读

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    阅读之旅。在翻开这本书之前,我对大模型的认知仅仅停留在它是一种强大的人工智能技术,可以进行自然语言处理、图像识别等任务。我知道像 ChatGPT 这样的应用是基于大模型开发的,能够与人类进行较为流畅
    发表于 12-24 13:10

    【「大模型启示录」阅读体验】对大模型更深入的认知

    ,大模型世界远比我想象的要复杂和深刻。 书中不仅详细介绍了大模型的构建过程,还探讨了它们的核心能力和所需的基础设施。我特别喜欢的是,书中用通俗易懂的语言,把大
    发表于 12-20 15:46

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述AI大语言
    的头像 发表于 12-19 11:29 1226次阅读

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    在客服领域是大模型落地场景中最多的,也是最容易实现的。本身客服领域的特点就是问答形式,大模型接入难度低。今天跟随《大模型启示录 》这本书,学习大模型
    发表于 12-17 16:53