0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌大脑的“世界模型”简述与启发

mK5P_AItists 来源:lq 2019-01-30 09:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

摘要:我们的视觉看到什么,部分取决于大脑预测未来会看到什么。

我们的视觉看到什么,部分取决于大脑预测未来会看到什么,例如下图中,如果你预计要看到突出的球体,那也许你就会看到,如果让机器也具有了这样的能力,会带来什么了?

18年谷歌大脑提出“世界模型”(World Models)可以在复杂的环境中通过自我学习产生相应的策略,例如玩赛车游戏。

下面是世界模型的整体架构:

整个模型分为3个组件:视觉组件(V),记忆组件(M),控制组件(C)。视觉组件V用来压缩图片信息到一个隐变量z上(其实只是一个VAE编码解码器):

记忆组件M的输入是一帧帧的游戏图片(论文中的一帧图像似乎叫一个rollout),输出是预测下一帧图像的可能分布,其实就是比一般LSTM更高级一些的MDN-RNN:

最后控制组件C的目标,就是把前面视觉组件V和记忆组件M的输出一起作为输入,并输出这个时刻智能体agent应该做出的动作(action)。

在所谓的“世界模型”,其中的组件模型几乎没有是谷歌大脑自己创新研制的。但世界模型会很大提高强化学习训练稳定性和成绩 从而使其与其他强化学习相比有一些明显优势,如下表所示;

世界模型有如下的3个特点

1. 模型拼接得足够巧妙,这个巧妙的拼接模型做到所谓的世界想象能力,就是模型在学习时,自身对环境假想一个模拟的环境,甚至可以在没有环境训练的情况下,自己想象一个环境去训练。其实就是我们人类镜像神经元的功能。

2. 抓住了一些“强视觉”游戏的“痛点”。记忆组件M中的RNN是生成序列的能手,所以根据之前游戏图像再“想象”一些图像帧应该不成问题(RNN生成一些隐变量z,再根据隐变量z,由视觉组件VAE的decode生成的图像帧即可)。所以对于“强视觉”的游戏,把RNN的记忆能力用在视觉预测和控制上是个好主意 。

3不同于我们常见的“不可生”智能算法,例如遗传算法和进化策略只是强调了基因的“变异”与在解空间中进行搜索,神经网络只是固定网络结构;而生物界的基因却可以指导蛋白质构成并且“生长”。如果基因可以构造自身个体,外部环境和个体情况也可以反过来影响基因,而我们的模型都太固定呆板了,模型结构不能随内部隐变量改进,当然最佳的设计形式也许谁也不知道。而世界模型做到了让在内部”幻想“的环境中产生的策略转移到外部世界中。

最后简单看一下世界模型的训练过程:

world models代码基于chainer计算框架,步骤如下:

1. 准备数据集,随机玩游戏生成训练帧(rollouts意思应该就是多少帧):

python random_rollouts.py--gameCarRacing-v0 --num_rollouts10000

2. 训练视觉组件V,即前面提到的VAE:

python vision.py--gameCarRacing-v0 --z_dim32--epoch1

3. 训练记忆组件M,即前面提到的RNN:

python model.py--gameCarRacing-v0 --z_dim32--hidden_dim256--mixtures5--epoch20

4. 训练控制组件C,即前面提到的CMA-ES算法(其实就是支持更复杂输入和更新的ES):

python controller.py--gameCarRacing-v0 --lambda_64--mu0.25--trials16--target_cumulative_reward900--z_dim32--hidden_dim256--mixtures5--temperature1.0--weights_type1[--cluster_mode]

5. 测试训练结果:

python test.py--gameCarRacing-v0 --z_dim32--hidden_dim256--mixtures5--temperature1.0--weights_type1--rollouts100[--record]

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6245

    浏览量

    110269
  • 机器
    +关注

    关注

    0

    文章

    796

    浏览量

    41774
  • 智能体
    +关注

    关注

    1

    文章

    390

    浏览量

    11521

原文标题:谷歌大脑的“世界模型”简述与启发

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Gemini AI 再进化:谷歌联合XREAL发布Project Aura, 打开“看见世界”的新能力

    被定位为迄今为止最完整、最接近 Android XR 理想形态的硬件样本。作为谷歌官方认可的系统级参考硬件,Project Aura 标志着 Gemini AI 第一次真正拥有“看见世界”的能力
    发表于 12-09 11:06 716次阅读
    Gemini AI 再进化:<b class='flag-5'>谷歌</b>联合XREAL发布Project Aura, 打开“看见<b class='flag-5'>世界</b>”的新能力

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVIDIA Omniverse 库和 Cosmos,开发者可以大规模生成基于物理学的合
    的头像 发表于 12-01 09:25 513次阅读

    谷歌AlphaEarth和维智时空AI大模型的核心差异

    谷歌AlphaEarth和维智时空AI大模型在技术理念上存在诸多共性,但两者在目标尺度、数据来源、技术实现和应用模式上存在显著差异。
    的头像 发表于 10-22 14:50 530次阅读

    谷歌AlphaEarth和维智时空AI大模型的技术路径

    谷歌AlphaEarth和维智时空AI大模型在应用场景和技术实现上各有侧重,但两者在底层技术理念上存在显著共性。
    的头像 发表于 10-22 14:48 609次阅读

    谷歌DeepMind重磅发布Genie 3,首次实现世界模型实时交互

    电子发烧友网综合报道 当地时间2025年8月5日,谷歌DeepMind正式推出第三代通用世界模型Genie3。这款被英伟达科学家Jim Fan誉为“游戏引擎2.0”的模型,通过单文本提
    的头像 发表于 08-13 08:27 6529次阅读

    自动驾驶中常提的世界模型是个啥?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断成熟,车辆需要在复杂多变的道路环境中安全地行驶,这就要求系统不仅能“看见”周围的世界,还要能“理解”和“推测”未来的变化。世界模型可以被看作一种
    的头像 发表于 06-24 08:53 751次阅读
    自动驾驶中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是个啥?

    世界模型:多模态融合+因果推理,解锁AI认知边界

    电子发烧友网综合报道 在人工智能的蓬勃发展进程中,世界模型正崭露头角,成为推动其迈向更高智能水平的关键力量。世界模型作为 AI 系统对外部世界
    的头像 发表于 06-23 04:49 3455次阅读

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI 大模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验
    的头像 发表于 02-07 15:07 1091次阅读

    英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

    CES 2025展会上,英伟达推出了基石世界模型Cosmos,World Foundation Model基石世界模型,简称WFM。 物理 AI
    的头像 发表于 01-14 11:04 2103次阅读
    英伟达推出基石<b class='flag-5'>世界</b><b class='flag-5'>模型</b>Cosmos,解决智驾与机器人具身智能训练数据问题

    华为、理想、特斯拉、商汤的世界模型是做什么用的

    最近世界模型(World Model)很火,甚至有人说世界模型是终极自动驾驶解决方案,实际上它只是端到端大模型的一种,和VLM没有本质区别。
    的头像 发表于 01-14 09:27 1782次阅读
    华为、理想、特斯拉、商汤的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是做什么用的

    英伟达发布Cosmos世界基础模型

    近日,在2025年1月6日于拉斯维加斯拉开帷幕的国际消费类电子产品展览会(CES)上,英伟达宣布了一项重大创新——Cosmos世界基础模型平台。该平台集成了先进的生成世界基础模型,旨在
    的头像 发表于 01-09 10:23 942次阅读

    NVIDIA Cosmos世界基础模型平台发布

    NVIDIA 宣布推出NVIDIA Cosmos,该平台由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,将推动自动驾驶汽车(AV)和机器人等物理 AI 系统的发展。
    的头像 发表于 01-08 10:39 1035次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3 模型根据这些提示生成高质
    的头像 发表于 01-03 10:38 1351次阅读
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen<b class='flag-5'>模型</b>生成高质量图像

    【「大模型启示录」阅读体验】对本书的初印象

    对大模型的利用还停留在非常表层的阶段,远未达到其真正的潜力。我对大模型的深层作用和深远影响的理解还相当有限。我渴望能够更深入地了解大模型,探索它们如何塑造我们的世界,以及如何更好地将这
    发表于 12-16 14:05

    谷歌发布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名为“深度研究”的新特性,旨在为用户提供更加全面和深入的复杂主题探索与报告撰写辅助。 Gemini 2.0通过高级推理和长上
    的头像 发表于 12-12 10:13 971次阅读