0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌DeepMind重磅发布了基础世界模型:Genie(精灵)

vliwulianw 来源:软件质量报道 2024-02-28 10:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大家都喜欢玩游戏吧?因为游戏最大的吸引力是让我们逃避现实、幻想一个远离我们眼前现实的世界,掌控这个虚拟的现实世界。现在,我们可以想象一下,如果我们有能力创造自己的世界,那该多好了。 让我们激动的这一天来了! 北美时间26号下午,GoogleGenie团队的负责人Tim Rocktäschel非常兴奋地宣布:Google DeepMindOpen Endedness团队开发的基于互联网视频训练的基础世界模型(foundation world model)——Genie

(幽灵)发布了,它可以根据图像提示生成无穷无尽的可控动作2D世界的各种变化。这个110亿参数大模型Genie,能从一张图片就能创造出可玩的虚拟世界,动作可控,这也预示着,AI已经真正杀到视频游戏领域了。

084845f0-d5db-11ee-a297-92fbcf53809c.png

0853455e-d5db-11ee-a297-92fbcf53809c.png

什么是Genie(精灵)?

根据 Google DeepMind 的官方博客文章,Genie 是一个基础世界模型,它是根据来自互联网的视频进行训练的。该模型可以“从合成图像、照片甚至草图中生成无穷无尽的可玩(动作可控)世界”。 研究论文 “Genie:Generative Interactive Environments” 指出,Genie是第一个从未标记的互联网视频中以无监督方式训练的生成式交互式环境。在大小方面,Genie 的参数为 11B,由时空视频标记器(spatiotemporal videotokenizer)、自回归动力学模型(autoregressive dynamics model)和简单且可扩展的潜在动作模型(simple and scalable latent action model)组成。

这些技术规范允许 Genie 在生成的环境中逐帧运行,即使在没有训练、标注或任何其他特定领域要求的情况下也是如此。

Genie 能做什么的?

根据这篇研究论文,Genie是一种新型的生成式人工智能,它使任何人(甚至是儿童)都能梦想并进入类似于人类设计的模拟环境的生成世界。可以提示 Genie 生成一组不同的交互式和可控环境,尽管它是在纯视频数据上训练的。

简而言之,我们已经看到了许多生成式 AI 模型,它们使用语言、图像甚至视频生成创意内容。Genie 是一个突破,因为它可以从单个图像提示中创建可玩的环境。

试着记住《哈利·波特与魔法石》中哈利和他的朋友们在前往格兰芬多公共休息室的路上进入霍格沃茨城堡的场景。年轻的学生们看到一面墙上挂满了画作,每个角色都在他们的画面中慢慢地移动,这些画作栩栩如生。Genie能使静止图像栩栩如生,赋予我们一个自己的世界。

根据 Google DeepMind 的说法,Genie 可以收到它从未见过的图像提示,这包括现实世界的照片、草图,允许人们与他们想象的虚拟世界互动,这就是称之为“基础世界模型”。在培训方面,研究论文强调,他们更关注2D平台游戏和机器人技术的视频。Genie 使用通用方法进行训练,使其能够在任何类型的域上运行,并且可以扩展到更大的 Internet 数据集。

为什么Genie很重要?

Genie 的突出之处在于它能够从互联网视频中学习和重现游戏中角色的控制。这是值得注意的,因为互联网视频没有关于视频中执行的动作的标签,甚至没有关于应该控制图像的哪一部分的标签。

Google 博客文章写道:“Genie不仅可以学习观察的哪些部分通常是可控的,还可以推断出在生成的环境中一致的各种潜在行为。请注意,相同的潜在动作如何在不同的提示图像中产生相似的行为,“ 根据 Google DeepMind 的说法,该模型最独特的方面是:它允许您从单个图像创建一个全新的交互式环境。这开辟了许多可能性,尤其是创建和进入虚拟世界的新方法。为了证明这一点,研究人员使用文本到图像模型Imagen 2创建了一个图像,然后将其用作创建虚拟世界的提示。草图也可以做同样的事情。

有了 Genie,任何人都可以创建自己完全想象的虚拟世界。此外,该模型学习和开发新世界模型的能力标志着向通用人工智能代理(一个独立的程序或实体,通过传感器感知其周围环境来与环境交互)的重大飞跃。 开启另一个旅程:




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6257

    浏览量

    111942
  • 人工智能
    +关注

    关注

    1819

    文章

    50287

    浏览量

    266826
  • 大模型
    +关注

    关注

    2

    文章

    3747

    浏览量

    5268

原文标题:基础世界模型Google Genie诞生了:根据提示生成无穷无尽的、可交互的2D世界

文章出处:【微信号:软件质量报道,微信公众号:软件质量报道】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小马智行发布PonyWorld世界模型2.0

    4月10日,小马智行正式发布其在物理AI领域的最新技术成果——PonyWorld世界模型2.0。
    的头像 发表于 04-10 17:21 1076次阅读

    小鹏汽车正式发布世界模型X-World技术报告

    近日,小鹏汽车正式发布世界模型X-World技术报告,从数据、模型、训练、验证及应用等多层面详解X-World的构建与使用。
    的头像 发表于 04-02 10:27 2371次阅读
    小鹏汽车正式<b class='flag-5'>发布</b><b class='flag-5'>世界</b><b class='flag-5'>模型</b>X-World技术报告

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 —
    的头像 发表于 03-14 16:54 1988次阅读
    大晓机器人开源实时生成<b class='flag-5'>世界</b><b class='flag-5'>模型</b>Kairos 3.0-4B

    如何构建适合自动驾驶的世界模型

    [首发于智驾最前沿微信公众号]世界模型经历系统动力学阶段(1960年~2000年)、认知科学阶段(2001年~2017年)、深度学习阶段(2018年至今),但将其应用到自动驾驶汽车上,还是近几年才
    的头像 发表于 02-18 08:14 1.1w次阅读
    如何构建适合自动驾驶的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    云知声山海知音大模型2.0重磅发布

    随着智能体时代到来,云知声在“山海·Atlas”通用智算基座持续演进基础上,年前实现“山海·知医”5.0医疗大模型升级,今天迎来了“山海·知音”2.0的重磅发布,正在完成“一基两翼”
    的头像 发表于 01-27 14:08 318次阅读
    云知声山海知音大<b class='flag-5'>模型</b>2.0<b class='flag-5'>重磅</b><b class='flag-5'>发布</b>

    谷歌正式发布Gemma Scope 2模型

    大语言模型 (LLM) 具备令人惊叹的推理能力,但其内部决策过程在很大程度上仍然不透明。如果系统未按预期运行,对其内部运作机制缺乏可见性将难以准确定位问题根源。过去,我们通过发布 Gemma
    的头像 发表于 01-24 14:01 709次阅读

    VLA与世界模型有什么不同?

    [首发于智驾最前沿微信公众号]当前自动驾驶行业,各车企的技术路径普遍选择单车智能方向。而在实际落地过程中,不同企业选择差异化的技术实现方式,部分车企侧重于视觉—语言—动作模型(Vision
    的头像 发表于 12-17 09:13 854次阅读
    VLA与<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    泰凌微:布局端侧AI,产品支持谷歌LiteRT、TVM开源模型

    。   公司发布的基于TL721X系列芯片的TL-EdgeAI平台,支持谷歌LiteRT、TVM等开源模型,是目前世界上功耗最低的智能物联网连接协议平台。其芯片已在
    的头像 发表于 12-15 08:21 1w次阅读

    Gemini AI 再进化:谷歌联合XREAL发布Project Aura, 打开“看见世界”的新能力

    [2025年12月9日,美国加利福尼亚州山景城] —— 在今日举行的 The Android Show 上,谷歌首次公布 Project Aura产品和 Android XR系统的关键细节,该产品
    发表于 12-09 11:06 1401次阅读
    Gemini AI 再进化:<b class='flag-5'>谷歌</b>联合XREAL<b class='flag-5'>发布</b>Project Aura, 打开“看见<b class='flag-5'>世界</b>”的新能力

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助
    的头像 发表于 12-01 09:25 1388次阅读

    中科曙光助力紫东太初4.0大模型重磅发布

    近日,全球首个“深度推理+多模态”大模型——“紫东太初”4.0在2025东湖国际人工智能高峰论坛上正式发布。中科曙光作为核心生态伙伴,依托中国首个AI计算开放架构,为“紫东太初”4.0提供图文多模态模型训推、大语言
    的头像 发表于 09-24 09:33 785次阅读

    谷歌DeepMind重磅发布Genie 3,首次实现世界模型实时交互

    电子发烧友网综合报道 当地时间2025年8月5日,谷歌DeepMind正式推出第三代通用世界模型Genie3。这款被英伟达科学家Jim Fa
    的头像 发表于 08-13 08:27 7154次阅读

    商汤大装置重磅发布多项标志性成果

    在2025世界人工智能大会(WAIC 2025)期间,作为“最懂大模型的AI基础设施”,商汤大装置重磅发布多项标志性成果,持续打造AI基础设施发展新范式,力推动产业生态与应用场景的系统
    的头像 发表于 08-05 10:07 1149次阅读

    爱芯元智重磅发布边缘计算战略

    近日,爱芯元智在2025世界人工智能大会上重磅发布边缘计算战略。展会现场汇聚了众多行业精英,共同见证爱芯元智边缘计算与AI融合发展的新路径,为AI普惠美好生活擘画新的蓝图。
    的头像 发表于 08-01 10:45 1485次阅读

    三张图深入分析京东开源Genie的8大亮点

    京东开源的Genie智能体的8大亮点: 可插拔多Agent和多种工具 迭代式规划 跨任务上下文和文件共享 数字员工提升用户体验 大模型+搜索构建深度搜素 CodeTool构建智能代码生命周期管理 精心打磨的System Prompt 可配置的MCP Server 审核编辑
    的头像 发表于 07-27 12:40 555次阅读
    三张图深入分析京东开源<b class='flag-5'>Genie</b>的8大亮点