谷歌大脑的“世界模型”简述与启发-电子发烧友网

摘要：我们的视觉看到什么，部分取决于大脑预测未来会看到什么。

我们的视觉看到什么，部分取决于大脑预测未来会看到什么，例如下图中，如果你预计要看到突出的球体，那也许你就会看到，如果让机器也具有了这样的能力，会带来什么了？

18年谷歌大脑提出“世界模型”(World Models)可以在复杂的环境中通过自我学习产生相应的策略，例如玩赛车游戏。

下面是世界模型的整体架构:

整个模型分为3个组件：视觉组件（V），记忆组件（M），控制组件（C）。视觉组件V用来压缩图片信息到一个隐变量z上（其实只是一个VAE编码解码器）：

记忆组件M的输入是一帧帧的游戏图片（论文中的一帧图像似乎叫一个rollout），输出是预测下一帧图像的可能分布，其实就是比一般LSTM更高级一些的MDN-RNN：

最后控制组件C的目标，就是把前面视觉组件V和记忆组件M的输出一起作为输入，并输出这个时刻智能体agent应该做出的动作（ac tion）。

在所谓的“世界模型”，其中的组件模型几乎没有是谷歌大脑自己创新研制的。但世界模型会很大提高强化学习训练稳定性和成绩从而使其与其他强化学习相比有一些明显优势，如下表所示;

世界模型有如下的3个特点

1. 模型拼接得足够巧妙，这个巧妙的拼接模型做到所谓的世界想象能力，就是模型在学习时，自身对环境假想一个模拟的环境，甚至可以在没有环境训练的情况下，自己想象一个环境去训练。其实就是我们人类镜像神经元的功能。

2. 抓住了一些“强视觉”游戏的“痛点”。记忆组件M中的RNN是生成序列的能手，所以根据之前游戏图像再“想象”一些图像帧应该不成问题（RNN生成一些隐变量z，再根据隐变量z，由视觉组件VAE的decode生成的图像帧即可）。所以对于“强视觉”的游戏，把RNN的记忆能力用在视觉预测和控制上是个好主意。

3不同于我们常见的“不可生”智能算法，例如遗传算法和进化策略只是强调了基因的“变异”与在解空间中进行搜索，神经网络只是固定网络结构；而生物界的基因却可以指导蛋白质构成并且“生长”。如果基因可以构造自身个体，外部环境和个体情况也可以反过来影响基因，而我们的模型都太固定呆板了，模型结构不能随内部隐变量改进，当然最佳的设计形式也许谁也不知道。而世界模型做到了让在内部”幻想“的环境中产生的策略转移到外部世界中。

最后简单看一下世界模型的训练过程：

world models代码基于chainer计算框架，步骤如下:

1. 准备数据集，随机玩游戏生成训练帧（rollouts意思应该就是多少帧）：

python random_rollouts.py--gameCarRacing-v0 --num_rollouts10000

2. 训练视觉组件V，即前面提到的VAE：

python vision.py--gameCarRacing-v0 --z_dim32--epoch1

3. 训练记忆组件M，即前面提到的RNN：

python model.py--gameCarRacing-v0 --z_dim32--hidden_dim256--mixtures5--epoch20

4. 训练控制组件C，即前面提到的CMA-ES算法（其实就是支持更复杂输入和更新的ES）：

python controller.py--gameCarRacing-v0 --lambda_64--mu0.25--trials16--target_cumulative_reward900--z_dim32--hidden_dim256--mixtures5--temperature1.0--weights_type1[--cluster_mode]

5. 测试训练结果：

python test.py--gameCarRacing-v0 --z_dim32--hidden_dim256--mixtures5--temperature1.0--weights_type1--rollouts100[--record]

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5858

浏览量
103250
机器

机器

+关注

关注
0

文章
756

浏览量
40491
智能体

智能体

+关注

关注
1

文章
111

浏览量
10424

原文标题：谷歌大脑的“世界模型”简述与启发

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

谷歌发布全新AI基础世界模型Genie

谷歌近日宣布推出其最新研发的AI基础世界模型——Genie。这款模型拥有惊人的110亿参数，其独特之处在于，仅需一张图片，便能生成一个充满活力和交互性的虚拟

发表于 03-04 14:02 •262次阅读

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架，其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习框架，由谷歌的机器学习团队开发，用于构建和

发表于 03-01 16:25 •236次阅读

谷歌模型训练软件有哪些？谷歌模型训练软件哪个好？

谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。

发表于 03-01 16:24 •278次阅读

谷歌模型怎么用手机打开

要使用手机打开谷歌模型，首先需要明确一点：谷歌模型本身是在计算机上运行的程序或算法，而不是可以直接在手机上打开的应用程序。然而，你可以通过手机访问谷

发表于 03-01 16:23 •204次阅读

谷歌模型软件有哪些功能

谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具，其中最具代表性的是Google Gemini。Google Gemini是谷歌

发表于 03-01 16:20 •207次阅读

谷歌模型合成软件有哪些

谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前，谷歌推出的模型合成

发表于 02-29 18:20 •893次阅读

谷歌模型软件有哪些好用的

谷歌模型软件的好用程度可能因个人需求和技能水平而异，但以下是一些广受欢迎的谷歌模型软件，它们在各自的领域内有着出色的表现。

发表于 02-29 18:17 •550次阅读

谷歌模型框架是什么？有哪些功能和应用？

谷歌模型框架（Google Model Framework）并不是一个特定的框架，而是指谷歌开发的一系列软件框架，用于支持机器学习和人工智能的应用。以下是一些与谷歌

发表于 02-29 18:11 •661次阅读

谷歌模型合成工具怎么用

谷歌模型合成工具主要是指Dreamfusion，这是Google的大型AI图像模型Imagen与NeRF的3D功能相结合的一种技术。Dreamfusion是Dream Fields的演变，Dream Fields是

发表于 02-29 17:33 •386次阅读

谷歌发布全新AI模型Genie

谷歌近日发布了其全新的AI模型Genie，这一模型彻底改变了我们与数字世界的互动方式。Genie不仅可以接收文本提示、草图或想法，还能将这些创意迅速转化为一个可互动和玩耍的虚拟

发表于 02-28 18:25 •1141次阅读

谷歌发布基础世界模型Genie，世界模型领域竞争升温

继OpenAI和Meta之后，谷歌也在世界模型领域公布了其最新进展。据谷歌官网介绍，Genie是一个基于互联网视频训练的基础世界

发表于 02-28 18:20 •1055次阅读

谷歌发布AI基础世界模型Genie

谷歌近日宣布了其生成式AI的全新里程碑——全新AI基础世界模型Genie。这一创新技术允许用户通过单张图像提示，生成一个可玩的、交互式的虚拟环境，从而开启了一个全新的数字体验时代。

发表于 02-28 17:41 •392次阅读

谷歌发布新型AI模型Genie

近日，谷歌推出了一款革命性的AI模型——Genie。这款模型能够将简单的文本提示、草图或初步想法迅速转化为一个可以互动和游戏的虚拟世界。这一突破性的技术无疑将改变人们创建和体验虚拟

发表于 02-28 10:05 •292次阅读

谷歌交互世界模型重磅发布

谷歌模型

北京中科同志科技股份有限公司
发布于 :2024年02月28日 09:13:06

谷歌开源70亿参数大语言模型，全方位超越Meta Llama-2？

基于Gemini打造的开源模型Gemma。谷歌加入AI模型开源阵营，Gemma横空出世根据谷歌的介绍，Gemma是由谷歌Deep

发表于 02-23 00:15 •3092次阅读

搜索历史

谷歌大脑的“世界模型”简述与启发

评论

谷歌发布全新AI基础世界模型Genie

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型训练软件有哪些？谷歌模型训练软件哪个好？

谷歌模型怎么用手机打开

谷歌模型软件有哪些功能

谷歌模型合成软件有哪些

谷歌模型软件有哪些好用的

谷歌模型框架是什么？有哪些功能和应用？

谷歌模型合成工具怎么用

谷歌发布全新AI模型Genie

谷歌发布基础世界模型Genie，世界模型领域竞争升温

谷歌发布AI基础世界模型Genie

谷歌发布新型AI模型Genie

谷歌交互世界模型重磅发布

谷歌开源70亿参数大语言模型，全方位超越Meta Llama-2？