谷歌DeepMind重磅发布了基础世界模型：Genie（精灵）-电子发烧友网

大家都喜欢玩游戏吧？因为游戏最大的吸引力是让我们逃避现实、幻想一个远离我们眼前现实的世界，掌控这个虚拟的现实世界。现在，我们可以想象一下，如果我们有能力创造自己的世界，那该多好了。让我们激动的这一天来了！北美时间26号下午，GoogleGenie团队的负责人Tim Rocktäschel非常兴奋地宣布：Google DeepMindOpen Endedness团队开发的基于互联网视频训练的基础世界模型（foundation world model）——Genie

（幽灵）发布了，它可以根据图像提示生成无穷无尽的可控动作2D世界的各种变化。这个110亿参数大模型Genie，能从一张图片就能创造出可玩的虚拟世界，动作可控，这也预示着，AI已经真正杀到视频游戏领域了。

什么是Genie（精灵）？

根据 Google DeepMind 的官方博客文章，Genie 是一个基础世界模型，它是根据来自互联网的视频进行训练的。该模型可以“从合成图像、照片甚至草图中生成无穷无尽的可玩（动作可控）世界”。研究论文 “Genie：Generative Interactive Environments” 指出，Genie是第一个从未标记的互联网视频中以无监督方式训练的生成式交互式环境。在大小方面，Genie 的参数为 11B，由时空视频标记器（spatiotemporal videotokenizer）、自回归动力学模型（autoregressive dynamics model）和简单且可扩展的潜在动作模型（simple and scalable latent action model）组成。

这些技术规范允许 Genie 在生成的环境中逐帧运行，即使在没有训练、标注或任何其他特定领域要求的情况下也是如此。

Genie 能做什么的？

根据这篇研究论文，Genie是一种新型的生成式人工智能，它使任何人（甚至是儿童）都能梦想并进入类似于人类设计的模拟环境的生成世界。可以提示 Genie 生成一组不同的交互式和可控环境，尽管它是在纯视频数据上训练的。

简而言之，我们已经看到了许多生成式 AI 模型，它们使用语言、图像甚至视频生成创意内容。Genie 是一个突破，因为它可以从单个图像提示中创建可玩的环境。

试着记住《哈利·波特与魔法石》中哈利和他的朋友们在前往格兰芬多公共休息室的路上进入霍格沃茨城堡的场景。年轻的学生们看到一面墙上挂满了画作，每个角色都在他们的画面中慢慢地移动，这些画作栩栩如生。Genie能使静止图像栩栩如生，赋予我们一个自己的世界。

根据 Google DeepMind 的说法，Genie 可以收到它从未见过的图像提示，这包括现实世界的照片、草图，允许人们与他们想象的虚拟世界互动，这就是称之为“基础世界模型”。在培训方面，研究论文强调，他们更关注2D平台游戏和机器人技术的视频。Genie 使用通用方法进行训练，使其能够在任何类型的域上运行，并且可以扩展到更大的 Internet 数据集。

为什么Genie很重要？

Genie 的突出之处在于它能够从互联网视频中学习和重现游戏中角色的控制。这是值得注意的，因为互联网视频没有关于视频中执行的动作的标签，甚至没有关于应该控制图像的哪一部分的标签。

Google 博客文章写道：“Genie不仅可以学习观察的哪些部分通常是可控的，还可以推断出在生成的环境中一致的各种潜在行为。请注意，相同的潜在动作如何在不同的提示图像中产生相似的行为，“ 根据 Google DeepMind 的说法，该模型最独特的方面是：它允许您从单个图像创建一个全新的交互式环境。这开辟了许多可能性，尤其是创建和进入虚拟世界的新方法。为了证明这一点，研究人员使用文本到图像模型Imagen 2创建了一个图像，然后将其用作创建虚拟世界的提示。草图也可以做同样的事情。

有了 Genie，任何人都可以创建自己完全想象的虚拟世界。此外，该模型学习和开发新世界模型的能力标志着向通用人工智能代理（一个独立的程序或实体，通过传感器感知其周围环境来与环境交互）的重大飞跃。开启另一个旅程：

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉