0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Sora与世界模型:为何它未能成为全面代表?

新机器视觉 来源:算法进阶 2024-02-29 12:37 次阅读

新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野。那么什么是世界模型?Sora 到底是不是 world simulator 呢?南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题。Sora没有准确学到物理规律这一现象或许表明,简单的堆砌数据并不是通向更高级智能技术的道路。

俞扬 | 作者
随着媒体狂炒 Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一下什么是世界模型,以及讨论 Sora 是不是 world simulator。

什么是世界模型

当AI领域中讲到 世界/world、环境/environment 这个词的时候,通常是为了与 智能体/agent 加以区分。研究智能体最多的领域,一个是强化学习,一个是机器人领域。因此可以看到,world models、world modeling 最早也最常出现在机器人领域的论文中。而今天world models这个词影响最大的,可能是Jurgen 2018年放到arxiv的这篇以“world models”命名的文章,该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18。

62116b24-d6b8-11ee-a297-92fbcf53809c.png

论文题目:Recurrent World Models Facilitate Policy Evolution

论文地址:

https://worldmodels.github.io/

该论文中并没有定义什么是World models,而是类比了认知科学中人脑的mental model,引用了1971年的文献。

62258f96-d6b8-11ee-a297-92fbcf53809c.png

mental model是人脑对周边世界的镜像

Wikipedia 中介绍的 mental model,很明确的指出其可能参与认知、推理、决策过程。并且说到 mental model 主要包含 mental representations 和 mental simulation 两部分。

an internal representation of external reality, hypothesized to play a major role incognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到这里还是说得云雾缭绕,那么论文中的结构图一目了然的说明了什么是一个world model:

623b5c72-d6b8-11ee-a297-92fbcf53809c.png

图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。

也就是说,World model 主要包含状态表征和转移模型,这也正好对应mental representations 和 mental simulation。

看到上面这张图可能会想,这不是所有的序列预测都是world model了?其实熟悉强化学习的同学能一眼看出来,这张图的结构是错误(不完整)的,而真正的结构是下面这张图,RNN的输入不仅是z,还有动作action,这就不是通常的序列预测了(加一个动作会很不一样吗?是的,加入动作可以让数据分布自由变化,带来巨大的挑战)。

6243bf7a-d6b8-11ee-a297-92fbcf53809c.png

Jurgen的这篇论文属于强化学习领域。那么,强化学习里不是有很多model-based RL吗,其中的model跟world model有什么区别?答案是没有区别,就是同一个东西。Jurgen先说了一段:

625e446c-d6b8-11ee-a297-92fbcf53809c.png

基本意思就是,不管有多少model-based RL工作,我是RNN先驱,RNN来做model是我发明的,我就是要搞。

在Jurgen文章的早期版本中,还说到很多 model-based RL,虽然学了model,但并没有完全在model中训练RL。

62771406-d6b8-11ee-a297-92fbcf53809c.jpg

没有完全在model中训练RL,实际上并不是model-based RL的model有什么区别,而是model-based RL这个方向长久以来的无奈:model不够准确,完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。

编注:强化学习算法可以分为无模型(model-free)强化学习与有模型(model-based)强化学习,后者中的模型也被称为世界模型(World model)。在基于世界模型的强化学习方法中,智能体首先学习一个关于环境的内嵌的模型,在内嵌的模型中学习行为决策,从而提高在真实环境中的表现。

聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(发表在第一次从workshop变成conference的ICML上),管这个 model 叫 action model,强调预测action执行的结果。RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。

627aebe4-d6b8-11ee-a297-92fbcf53809c.png

62960866-d6b8-11ee-a297-92fbcf53809c.png

论文题目:Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming

论文地址:https://dl.acm.org/doi/10.1145/122344.122377

可以看到,world model对于决策十分重要。如果能获得准确的world model,那就可以通过在world model中反复试错,找到现实最优决策

这就是 world model 的核心作用:反事实推理/Counterfactual reasoning, 也就是说,即便对于数据中没有见过的决策,在world model中都能推理出决策的结果。

了解因果推理的同学会很熟悉反事实推理这个词,在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯:

最下层是“关联”,也就是今天大部分预测模型主要在做的事;

中间层是“干预”,强化学习中的探索就是典型的干预;

最上层是“反事实”,通过想象回答 what if 问题。

Judea为反事实推理绘制的示意图,是科学家在大脑中想象,这与Jurgen在论文中用的示意图异曲同工。

上:Jurgen论文中的世界模型示意图。下:Judea书中的因果阶梯。

到这里我们可以总结,AI研究人员对world model的追求,是试图超越数据,进行反事实推理,回答what if问题能力的追求。这是一种人类天然具备,而当前的AI还做得很差的能力。一旦产生突破,AI决策能力会大幅提升,实现全自动驾驶等场景应用。

Sora 是不是 world simulator

simulator这个词更多出现在工程领域,其作用与world model一样,尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组,但意思不变。

Sora生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答what if问题

甚至难以评价Sora的生成能力有多强,因为完全不清楚demo的视频与训练数据的差异有多大。

更让人失望的是,这些demo呈现出Sora并没有准确地学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处。(OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?https://www.zhihu.com/question/644478663/answer/3398992400)

我猜测OpenAI放出这些demo,应该基于非常充足的训练数据,甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI认为Sora证明了一条通往simulators of the physical world的路线,但看起来简单的堆砌数据并不是通向更高级智能技术的道路

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27043

    浏览量

    201418
  • AI
    AI
    +关注

    关注

    87

    文章

    26458

    浏览量

    264072
  • Sora
    +关注

    关注

    0

    文章

    73

    浏览量

    129

原文标题:Sora为什么不是世界模型?

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    汤姆猫正在推进申请接入OpenAI的Sora模型

    汤姆猫在互动平台上透露,公司正在积极推进申请接入OpenAI的Sora模型,并计划进行相关素材制作的测试。目前,汤姆猫尚未正式接入Sora模型
    的头像 发表于 03-05 10:20 341次阅读

    sora模型发布 sora模型对现实产生的影响有多大

    Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ),于2024年2月15日(美国当地时间)正式对
    的头像 发表于 02-22 17:05 612次阅读

    sora模型是什么意思 sora模型引发行业变革

    时其估值约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨 。与此同时,受Sora发布的
    的头像 发表于 02-22 17:00 1179次阅读

    sora模型中国可以使用吗 sora模型是哪个公司

    Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器” ,于2024年2月15日(美国当地时间)正式对外
    的头像 发表于 02-22 16:52 1746次阅读

    sora模型上市公司 sora模型对现实的影响

    内容的补充和完善。 Sora对于需要制作视频的艺术家、电影制片人或学生来说,都带来了无限可能。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞
    的头像 发表于 02-22 16:46 529次阅读

    sora模型怎么使用 sora模型对现实的影响

    ”了行业目前大概只有平均“4s”的视频生成长度 Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多
    的头像 发表于 02-22 16:42 662次阅读

    sora如何使用 sora是什么软件

    主体在暂时离开视野时仍保持一致。 Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特
    的头像 发表于 02-21 17:20 1542次阅读

    sora最新消息 sora是什么意思

    Sora,是美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”,于2024年2月15日(美国当地时间)正式对外
    的头像 发表于 02-21 16:38 1287次阅读

    sora系列是哪个公司的 sora视频怎么用

    sora系列是哪个公司的 Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“
    的头像 发表于 02-21 16:35 3250次阅读

    OpenAI发布Sora模型,瞬间生成高清大片

    近日,人工智能领域的领军企业OpenAI发布了一款名为“Sora”的视频生成AI模型,再次展示了其在AI技术领域的创新实力。Sora以其出色的视频生成能力,瞬间成为业界的焦点。
    的头像 发表于 02-20 13:33 324次阅读

    Sora到底懂不懂物理世界? Sora开启更多可能

    OpenAI的视频生成模型Sora持续引发关注,而围绕Sora到底懂不懂物理世界?这个讨论越发火热,甚至是在讨论Sora 到底是不是物理引擎
    的头像 发表于 02-20 11:08 390次阅读

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生视频模型
    的头像 发表于 02-18 17:41 595次阅读

    奥特曼发布王炸模型Sora

    奥特曼,作为科技界的先驱者,近日携手OpenAI发布了其首个视频生成模型——Sora。这一创新模型完美继承了DALL·E 3的卓越画质和强大指令遵循能力,能够生成长达一分钟的高清视频。
    的头像 发表于 02-18 10:06 657次阅读

    AVR单片机为何能成为8位机中的佼佼者?

    AVR单片机为何能成为8位机中的佼佼者? AVR单片机是一种高性能、低功耗、高可靠性、方便编程的微控制器。它可以广泛应用于消费电子、汽车电子、通信、医疗、工业自动化等领域。为什么AVR单片机能成为
    的头像 发表于 10-29 17:29 439次阅读

    玩转单片机的重要功能-DMA,你的MCU编程设计有可能成为卷王!

    玩转单片机的重要功能-DMA,你的MCU编程设计有可能成为卷王!
    的头像 发表于 09-18 10:56 976次阅读
    玩转单片机的重要功能-DMA,你的MCU编程设计有可<b class='flag-5'>能成为</b>卷王!