0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Sora与世界模型:为何它未能成为全面代表?

新机器视觉 来源:算法进阶 2024-02-29 12:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟的视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野。那么什么是世界模型?Sora 到底是不是 world simulator 呢?南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题。Sora没有准确学到物理规律这一现象或许表明,简单的堆砌数据并不是通向更高级智能技术的道路。

俞扬 | 作者
随着媒体狂炒 Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一下什么是世界模型,以及讨论 Sora 是不是 world simulator。

什么是世界模型

当AI领域中讲到 世界/world、环境/environment 这个词的时候,通常是为了与 智能体/agent 加以区分。研究智能体最多的领域,一个是强化学习,一个是机器人领域。因此可以看到,world models、world modeling 最早也最常出现在机器人领域的论文中。而今天world models这个词影响最大的,可能是Jurgen 2018年放到arxiv的这篇以“world models”命名的文章,该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18。

62116b24-d6b8-11ee-a297-92fbcf53809c.png

论文题目:Recurrent World Models Facilitate Policy Evolution

论文地址:

https://worldmodels.github.io/

该论文中并没有定义什么是World models,而是类比了认知科学中人脑的mental model,引用了1971年的文献。

62258f96-d6b8-11ee-a297-92fbcf53809c.png

mental model是人脑对周边世界的镜像

Wikipedia 中介绍的 mental model,很明确的指出其可能参与认知、推理、决策过程。并且说到 mental model 主要包含 mental representations 和 mental simulation 两部分。

an internal representation of external reality, hypothesized to play a major role incognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到这里还是说得云雾缭绕,那么论文中的结构图一目了然的说明了什么是一个world model:

623b5c72-d6b8-11ee-a297-92fbcf53809c.png

图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。

也就是说,World model 主要包含状态表征和转移模型,这也正好对应mental representations 和 mental simulation。

看到上面这张图可能会想,这不是所有的序列预测都是world model了?其实熟悉强化学习的同学能一眼看出来,这张图的结构是错误(不完整)的,而真正的结构是下面这张图,RNN的输入不仅是z,还有动作action,这就不是通常的序列预测了(加一个动作会很不一样吗?是的,加入动作可以让数据分布自由变化,带来巨大的挑战)。

6243bf7a-d6b8-11ee-a297-92fbcf53809c.png

Jurgen的这篇论文属于强化学习领域。那么,强化学习里不是有很多model-based RL吗,其中的model跟world model有什么区别?答案是没有区别,就是同一个东西。Jurgen先说了一段:

625e446c-d6b8-11ee-a297-92fbcf53809c.png

基本意思就是,不管有多少model-based RL工作,我是RNN先驱,RNN来做model是我发明的,我就是要搞。

在Jurgen文章的早期版本中,还说到很多 model-based RL,虽然学了model,但并没有完全在model中训练RL。

62771406-d6b8-11ee-a297-92fbcf53809c.jpg

没有完全在model中训练RL,实际上并不是model-based RL的model有什么区别,而是model-based RL这个方向长久以来的无奈:model不够准确,完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。

编注:强化学习算法可以分为无模型(model-free)强化学习与有模型(model-based)强化学习,后者中的模型也被称为世界模型(World model)。在基于世界模型的强化学习方法中,智能体首先学习一个关于环境的内嵌的模型,在内嵌的模型中学习行为决策,从而提高在真实环境中的表现。

聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(发表在第一次从workshop变成conference的ICML上),管这个 model 叫 action model,强调预测action执行的结果。RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。

627aebe4-d6b8-11ee-a297-92fbcf53809c.png

62960866-d6b8-11ee-a297-92fbcf53809c.png

论文题目:Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming

论文地址:https://dl.acm.org/doi/10.1145/122344.122377

可以看到,world model对于决策十分重要。如果能获得准确的world model,那就可以通过在world model中反复试错,找到现实最优决策

这就是 world model 的核心作用:反事实推理/Counterfactual reasoning, 也就是说,即便对于数据中没有见过的决策,在world model中都能推理出决策的结果。

了解因果推理的同学会很熟悉反事实推理这个词,在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯:

最下层是“关联”,也就是今天大部分预测模型主要在做的事;

中间层是“干预”,强化学习中的探索就是典型的干预;

最上层是“反事实”,通过想象回答 what if 问题。

Judea为反事实推理绘制的示意图,是科学家在大脑中想象,这与Jurgen在论文中用的示意图异曲同工。

上:Jurgen论文中的世界模型示意图。下:Judea书中的因果阶梯。

到这里我们可以总结,AI研究人员对world model的追求,是试图超越数据,进行反事实推理,回答what if问题能力的追求。这是一种人类天然具备,而当前的AI还做得很差的能力。一旦产生突破,AI决策能力会大幅提升,实现全自动驾驶等场景应用。

Sora 是不是 world simulator

simulator这个词更多出现在工程领域,其作用与world model一样,尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组,但意思不变。

Sora生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答what if问题

甚至难以评价Sora的生成能力有多强,因为完全不清楚demo的视频与训练数据的差异有多大。

更让人失望的是,这些demo呈现出Sora并没有准确地学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处。(OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?https://www.zhihu.com/question/644478663/answer/3398992400)

我猜测OpenAI放出这些demo,应该基于非常充足的训练数据,甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI认为Sora证明了一条通往simulators of the physical world的路线,但看起来简单的堆砌数据并不是通向更高级智能技术的道路

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31510

    浏览量

    223893
  • AI
    AI
    +关注

    关注

    91

    文章

    41370

    浏览量

    302749
  • Sora
    +关注

    关注

    0

    文章

    88

    浏览量

    852

原文标题:Sora为什么不是世界模型?

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小鹏发布 X-World 世界模型:已全面应用第二代VLA

    电子发烧友网综合报道 近日,小鹏汽车正式发布 X-World 生成式世界模型技术报告,并同步公开 arXiv 技术论文,这是业内面向端到端自动驾驶、可工程化落地的多摄像头可控世界模型
    的头像 发表于 04-14 10:11 6051次阅读

    昆仑万维天工AI大模型SkyReels V4登上Artificial Analysis榜单全球第一

    、Google Veo 3.1、Vidu Q3、OpenAI Sora 2等全球主流模型成为全球AI视频生成能力最强的大模型,标志中国AI视频生成技术实现
    的头像 发表于 03-26 10:10 1030次阅读

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    因果一致、跨本体泛化、超长时交互、云侧实时生成、轻量化高效能、端侧本体控制” 为核心优势,性能全面领跑国内外主流具身世界模型
    的头像 发表于 03-14 16:54 2029次阅读
    大晓机器人开源实时生成<b class='flag-5'>世界</b><b class='flag-5'>模型</b>Kairos 3.0-4B

    广州唯创电子WT2605C-24SS音频蓝牙语音芯片:为何能成为标准蓝牙与多样化存储播放的理想选择?

    在无线音频技术飞速发展的今天,一款功能全面、性能卓越的语音芯片往往能成为众多智能设备的核心竞争力。作为国内知名的语音IC厂家,广州唯创电子推出的WT2605C-24SS音频蓝牙录放语音芯片,凭借其
    的头像 发表于 03-06 08:55 228次阅读
    广州唯创电子WT2605C-24SS音频蓝牙语音芯片:<b class='flag-5'>为何</b>它<b class='flag-5'>能成为</b>标准蓝牙与多样化存储播放的理想选择?

    智能戒指成新宠!元器件技术解锁穿戴设备新可能

    与微型化提出了全新挑战,这也为整个产业链带来了新的机遇。智能戒指:为何能成为“黑马”?以戒指形态为代表的新型智能穿戴设备,凭借其小巧便携、无感佩戴的优势,正快速抢占细分
    的头像 发表于 01-12 18:23 439次阅读
    智能戒指成新宠!元器件技术解锁穿戴设备新可能

    如何在瑞萨RL78/G15开发板实现LED的工作模式

    在嵌入式开发的世界里,即使只是一颗小小的LED灯,也能成为无尽创意的舞台。
    的头像 发表于 01-09 09:21 4134次阅读
    如何在瑞萨RL78/G15开发板实现LED的工作模式

    大晓机器人发布开悟3.0,国产世界模型让机器人拥有“超级大脑”

    电子发烧友网综合报道,当前,人工智能正加速从数字世界向物理世界延伸,具身智能成为AI演进的关键方向。大晓机器人董事长王晓刚表示,当前越来越多人意识到具身智能的瓶颈不在硬件,而是对世界
    的头像 发表于 12-25 09:25 2842次阅读
    大晓机器人发布开悟3.0,国产<b class='flag-5'>世界</b><b class='flag-5'>模型</b>让机器人拥有“超级大脑”

    VLA与世界模型有什么不同?

    Language Action,VLA),另一些则致力于构建并应用世界模型(World Model)。这两种路径有什么不同? 什么是VLA,什么是世界模型 先说说VLA。VLA是英文
    的头像 发表于 12-17 09:13 903次阅读
    VLA与<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    世界模型是让自动驾驶汽车理解世界还是预测未来?

      [首发于智驾最前沿微信公众号]世界模型在自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。到底是让自动驾驶汽车得以理解世界,还是为其提供了预测未来的视角?
    的头像 发表于 12-16 09:27 1045次阅读
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是让自动驾驶汽车理解<b class='flag-5'>世界</b>还是预测未来?

    场景化适配!K88 系列连接器为何能成为多行业首选?

    一款优质的连接器,不仅需要具备出色的性能参数,更要能适配多元场景的实际需求。日本端子K88系列SMT连接器凭借全面的功能设计与稳定的核心性能,已在消费电子、工业控制、汽车电子、物联网设备等多个领域
    的头像 发表于 12-10 17:26 756次阅读
    场景化适配!K88 系列连接器<b class='flag-5'>为何能成为</b>多行业首选?

    稀土为何能成为中国反制的关键筹码?#国产芯片

    行业资讯
    芯广场
    发布于 :2025年11月25日 17:00:01

    广凌智慧教室基础建设解析,精准破解行业痛点!

    在教育数字化转型的浪潮中,智慧教室已成为推动教学模式创新的核心场景。然而,许多学校对智慧教室的建设基础仍存在疑问:究竟以什么为核心支撑?而广凌智慧教室整体解决方案为何能成为行业标杆?一起来了解一下吧~
    的头像 发表于 10-29 10:54 619次阅读
    广凌智慧教室基础建设解析,精准破解行业痛点!

    OpenAI Sora 2模型上线微软Azure AI Foundry国际版

    我们非常激动地宣布,OpenAI 的新一代多模态视频生成模型 Sora 2 现已在 Azure AI Foundry(国际版)上线,进入公共预览阶段。
    的头像 发表于 10-22 09:44 996次阅读
    OpenAI <b class='flag-5'>Sora</b> 2<b class='flag-5'>模型</b>上线微软Azure AI Foundry国际版

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战之一。
    的头像 发表于 07-23 10:34 2603次阅读
    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    视觉检测为何能成为工业质检的主流?

    视觉检测技术因其成熟稳定、检测精度高、速度快、灵敏度高、经济性好、性价比高、通用性强,长期独占鳌头。
    的头像 发表于 07-13 11:37 856次阅读
    视觉检测<b class='flag-5'>为何能成为</b>工业质检的主流?