0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

向欣电子 2024-02-19 12:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【新智元导读】刚刚,我们经历了LLM划时代的一夜。Gemini Ultra发布还没几天,Gemini 1.5就来了。卯足劲和OpenAI微软一较高下的谷歌,开始进入了高产模式。


自家最强的Gemini 1.0 Ultra才发布没几天,谷歌又放大招了。

就在刚刚,谷歌DeepMind首席科学家Jeff Dean,以及联创兼CEO的Demis Hassabis激动地宣布了最新一代多模态大模型——Gemini 1.5系列的诞生。

其中,最高可支持10,000K token超长上下文的Gemini 1.5 Pro,也是谷歌最强的MoE大模型。

不难想象,在百万级token上下文的加持下,我们可以更加轻易地与数十万字的超长文档、拥有数百个文件的数十万行代码库、一部完整的电影等等进行交互。

同时,为了介绍这款划时代的模型,谷歌还发布了达58页的技术报告。

毫不夸张地说,大语言模型领域从此将进入一个全新的时代!

1,000,000 token超超超长上下文,全面碾压GPT-4 Turbo

在上下文窗口方面,此前的SOTA模型已经「卷」到了200K token(20万)。

如今,谷歌成功将这个数字大幅提升——能够稳定处理高达100万token(极限为1000万token),创下了最长上下文窗口的纪录。

5964be8a-cedf-11ee-9118-92fbcf53809c.png

1000万token极限海底捞针几乎全绿

首先,我们看看Gemini 1.5 Pro在多模态海底捞针测试中的成绩。

597680de-cedf-11ee-9118-92fbcf53809c.png

对于文本处理,Gemini 1.5 Pro在处理高达530,000 token的文本时,能够实现100%的检索完整性,在处理1,000,000 token的文本时达到99.7%的检索完整性。

甚至在处理高达10,000,000 token的文本时,检索准确性仍然高达99.2%。

5980e952-cedf-11ee-9118-92fbcf53809c.png

音频处理方面,Gemini 1.5 Pro能够在大约11小时的音频资料中,100%成功检索到各种隐藏的音频片段。

5985f1e0-cedf-11ee-9118-92fbcf53809c.png

在视频处理方面,Gemini 1.5 Pro能够在大约3小时的视频内容中,100%成功检索到各种隐藏的视觉元素。

598a7332-cedf-11ee-9118-92fbcf53809c.png

此外,谷歌研究人员还开发了一个更通用的版本的「大海捞针」测试。

在这个测试中,模型需要在一定的文本范围内检索到100个不同的特定信息片段。

在这个测试中,Gemini 1.5 Pro在较短的文本长度上的性能超过了GPT-4-Turbo,并且在整个100万token的范围内保持了相对稳定的表现。

与之对比鲜明的是,GPT-4 Turbo的性能则飞速下降,且无法处理超过128,000 token的文本,表现惨烈。

599f5bb2-cedf-11ee-9118-92fbcf53809c.png

大模型视野,被「史诗级」拓宽

LLM发展到这个阶段,模型的上下文窗口已经成为了关键的掣肘。

模型的上下文窗口由许多token组成,它们是处理单词、图像、视频、音频、代码这些信息的基础构建。

模型的上下文窗口越大,它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。

而这次,谷歌通过一系列机器学习的创新,大幅提升了1.5 Pro的上下文窗口容量,从Gemini 1.0的原始32,000 token,直接提升到了惊人的1,000,000 token。

这就意味着,1.5 Pro能够一次性处理海量信息——比如1小时的视频、11小时的音频、超过30,000行的代码库,或是超过700,000个单词。

甚至,谷歌曾经一度成功测试了高达10,000,000的token。

深入理解海量信息

脱胎换骨的Gemini 1.5 Pro,已经可以轻松地分析给定提示中的海量内容!

它能够洞察文档中的对话、事件和细节,展现出对复杂信息的深刻理解。

59a4527a-cedf-11ee-9118-92fbcf53809c.png

我们甩给它一份阿波罗11号任务到月球的402页飞行记录,它对于多复杂的信息,都能表现出深刻的理解。

59b7a578-cedf-11ee-9118-92fbcf53809c.gif

让它从文件中列举出3个喜剧性的时刻,接下来,就是见证奇迹的时刻——

才过了30秒出头,答案就已经生成了!

59bc3822-cedf-11ee-9118-92fbcf53809c.gif

接下来,看看它的多模态功能。

把这张图输入进去,问它:这是什么时刻?

它会回答,这是阿姆斯特朗迈上月球的一小步,也是人类的一大步。

59c8e46e-cedf-11ee-9118-92fbcf53809c.gif

这次,谷歌还新增了一个功能,允许开发者上传多个文件(比如PDF),并提出问题。

更大的上下文窗口,就让模型能够处理更多信息,从而让输出结果更加一致、相关且实用。

横跨各种不同媒介

与此同时,Gemini 1.5 Pro还能够在视频中展现出深度的理解和推理能力!

得益于Gemini的多模态能力,上传的视频会被拆分成数千个画面(不包括音频),以便执行复杂的推理和问题解决任务。

比如,输入这部44分钟的无声电影——Buster Keaton主演的经典之作《小神探夏洛克》。

模型不仅能够精准地捕捉到电影的各个情节和发展,还能洞察到极易被忽略的细微之处。

59ce83e2-cedf-11ee-9118-92fbcf53809c.png

我们可以问它:找到一张纸从主角口袋中被拿出的瞬间,然后告诉我关于这个细节的信息。

令人惊喜的是,模型大约用了60秒左右就准确地找出,这个镜头是在电影的12:01,还描述出了相关细节。

59db9dc0-cedf-11ee-9118-92fbcf53809c.gif

果然,模型精准找出了这个镜头的时间点,所述细节也完全准确!

输入一张粗略的涂鸦,要求模型找到电影中的对应场景,模型也在一分钟内找到了答案。

高效处理更长代码

不仅如此,Gemini 1.5 Pro在处理长达超过100,000行的代码时,还具备极强的问题解决能力。

5a15691a-cedf-11ee-9118-92fbcf53809c.png

面对如此庞大的代码量,它不仅能够深入分析各个示例,提出实用的修改建议,还能详细解释代码的各个部分是如何协同工作的。

开发者可以直接上传新的代码库,利用这个模型快速熟悉、理解代码结构。

高效架构的秘密:MoE

Gemini 1.5的设计,基于的是谷歌在Transformer和混合专家(MoE)架构方面的前沿研究。

不同于传统的作为一个庞大的神经网络运行的Transformer,MoE模型由众多小型的「专家」神经网络组成。

这些模型可以根据不同的输入类型,学会仅激活最相关的专家网络路径。

这样的专门化,就使得模型效率大幅提升。

而谷歌通过Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4研究,早已成为深度学习领域中MoE技术的领航者。

Gemini 1.5的架构创新带来的,不仅仅是更迅速地掌握复杂任务、保持高质量输出,在训练和部署上也变得更加高效。

因此,团队才能以惊人的速度,不断迭代和推出更先进的Gemini版本。

性能比肩Ultra,大幅超越1.0 Pro

在涵盖文本、代码、图像、音频和视频的综合性测试中,1.5 Pro在87%的基准测试上超越了1.0 Pro。

与1.0 Ultra在相同基准测试的比较中,1.5 Pro的表现也相差无几。

5a709056-cedf-11ee-9118-92fbcf53809c.png

Gemini 1.5 Pro在扩大上下文窗口后,依然保持了高水平的性能。在「大海捞针(NIAH)」测试中,它能够在长达100万token的文本块中,在99%的情况下,准确找出隐藏有特定信息的文本片段。

此外,Gemini 1.5 Pro展现了卓越的「上下文学习」能力,能够仅凭长提示中提供的信息掌握新技能,无需进一步细化调整。

这一能力在「从一本书学习机器翻译 (MTOB)」基准测试中得到了验证,该测试检验了模型学习从未接触过的信息的能力。

对于一本关于全球不足200人使用的Kalamang语的语法手册,模型能够学会将英语翻译成Kalamang,学习效果与人类学习相似。

谷歌的研究者成功地增强了模型处理长文本的能力,而且这种增强并没有影响到模型的其他功能。

虽然这项改进只用了Gemini 1.0 Ultra模型训练时间的一小部分,但1.5 Pro模型在31项性能测试中的17项上超过了1.0 Ultra模型。

与1.0 Pro模型相比,1.5 Pro在31项测试中的27项上,表现更佳。

5a7fc364-cedf-11ee-9118-92fbcf53809c.png

具体结果如下:

5a8471ac-cedf-11ee-9118-92fbcf53809c.png

5a89cd1e-cedf-11ee-9118-92fbcf53809c.png

5a936306-cedf-11ee-9118-92fbcf53809c.png

细节表现如何?

分析和掌握复杂代码库

这款模型能够迅速吸收大型代码库,并解答复杂的问题,这一点非常引人注目。

例如,three.js是一个包含约10万行代码、示例和文档等的3D Javascript库。

借助这个代码库作为背景,系统能够帮助用户深入理解代码,并能够根据人们提出的高层次要求来修改复杂的示例。

比如:「展示一些代码,用于添加一个滑块控制动画速度。采用和其他演示相同的GUI风格。」

或者精确地指出需要修改的代码部分,以改变另一个示例中生成的地形的高度。

浏览庞大而陌生的代码库

并且,模型能够帮我们理解代码,或定位某个特定功能的实现位置。

在这个例子中,模型能够处理整个包含116个文件的JAX代码库(746k token),并协助用户找到实现自动微分反向传播的确切代码位置。

显然,在深入了解一个陌生的代码库或日常工作中使用的代码库时,长上下文处理能力的价值不言而喻。

许多Gemini团队成员已经发现,Gemini 1.5 Pro的长上下文处理功能,对于Gemini 代码库大有裨益。

5aa94838-cedf-11ee-9118-92fbcf53809c.png

长篇复杂文档的推理

同时,模型在分析长篇、复杂的文本文档方面也非常出色,例如雨果的五卷本小说《悲惨世界》(共1382页,含732,000个token)。

下面这个简单的实验,就展示了模型的多模态能力:粗略地画出一个场景,并询问「请看这幅图画中的事件发生在书的哪一页?」

模型就能给出准确的答案——1099页!

Kalamang语翻译

报告中一个特别引人注目的例子是关于Kalamang语的翻译。

卡拉曼语是新几内亚西部、印度尼西亚巴布亚东部不足200人使用的语言,几乎未在互联网上留下足迹。

Gemini Pro 1.5通过上下文学习掌握了Kalamang语的知识,其翻译质量可与使用相同材料学习的人相媲美。

在英语到卡拉曼语的翻译中,Gemini Pro 1.5的ChrF达到了58.3,大幅超过了以往最好的模型得分45.8 ChrF,并略高于MTOB论文报告的57.0 ChrF人类基准。

这一成就无疑带来了令人激动的可能性,提升稀有语言的翻译质量。

5abd4cd4-cedf-11ee-9118-92fbcf53809c.png

5ac20ea4-cedf-11ee-9118-92fbcf53809c.png

Gemini 1.5的诞生,意味着性能的阶段飞跃,标志着谷歌在研究和工程创新上,又迈出了登月般的一步。

接下来能跟Gemini 1.5硬刚的,大概就是GPT-5了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112195
  • AI
    AI
    +关注

    关注

    91

    文章

    42023

    浏览量

    303097
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    电子发烧友网报道(文/李弯弯)2025年8月8日凌晨1点,OpenAI以一场长达1小时的线上发布会正式推出GPT-5。这场被业界称为“AI进化分水岭”的发布,终结了长达两年的技术猜测,更以多维度性能
    的头像 发表于 08-09 07:44 1w次阅读
    <b class='flag-5'>GPT-5</b>震撼发布:AI领域的重大飞跃

    谷歌正式发布Gemini Spark

    5月20日,谷歌在I/O 2026上正式发布了Gemini Spark——一款全天候运行的个人AI助手。它基于Gemini 3.5打造,运行在Google Cloud虚拟机上,用户通过
    的头像 发表于 05-21 10:39 505次阅读

    Gemini 3.1 Pro镜像站技术架构升级解析——给开发者的能力变化速览

    Gemini 3.1 Pro 带来的不仅是参数量的常规增长,更在上下文窗口效率与模态融合推理上做了架构调整。对于国内开发者,无需特殊网络
    的头像 发表于 05-06 15:06 661次阅读
    <b class='flag-5'>Gemini</b> 3.1 Pro镜像站技术架构升级解析——给开发者的能力变化速览

    海光DCU完成Qwen3.5模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰模态模型、Qwen3.5-35B-A3B MoE
    的头像 发表于 03-26 09:35 882次阅读

    Ultrahuman使用Android Studio中的Gemini解决技术障碍并提升性能

    Android Studio 中 Gemini上下文感知工具,Ultrahuman 团队得以简化和加速其开发流程。
    的头像 发表于 03-12 09:31 399次阅读

    Gemini CLI 中转站配置使用教程

    :访问 100 token 上下文窗口 ? 内置工具 :Google 搜索基础功能、文件操作、Shell 命令、网页抓取 ? 可扩展 :支持 MCP(模型上下文协议)进行自定义集
    发表于 02-10 17:29

    NVIDIA BlueField-4为推理上下文记忆存储平台提供强大支持

    随着代理式 AI 工作流将上下文窗口扩展到数百万个 token,并将模型规模扩展到数百万亿个参数,AI 原生企业正面临着越来越多的扩展挑战。这些系统目前依赖于智能体长期记忆来存储跨轮、工具和会话持续保存的上下文,以便智能体能够
    的头像 发表于 02-02 10:29 1408次阅读
    NVIDIA BlueField-4为推理<b class='flag-5'>上下文</b>记忆存储平台提供强大支持

    商汤科技正式开源模态自主推理模型SenseNova-MARS

    今日,商汤正式开源模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在模态搜索与推理的核心基准测试中以 69.74 分超越
    的头像 发表于 01-30 10:13 882次阅读
    商汤科技正式开源<b class='flag-5'>多</b><b class='flag-5'>模态</b>自主推理模型SenseNova-MARS

    大语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 853次阅读
    大语言模型如何处理<b class='flag-5'>上下文</b>窗口中的输入

    正面对决GPT-5和Germini-3,DeepSeek-V3.2震撼发布

    达到了GPT-5的水平,DeepSeek-V3.2次将“思考模式(thinking mode)”与工具使用深度整合,成为其下一代 AI 助理(AI agent)策略的核心布局。
    的头像 发表于 12-02 14:10 9962次阅读
    正面对决<b class='flag-5'>GPT-5</b>和Germini-3,DeepSeek-V3.2震撼发布

    请问riscv中断还需要软件保存上下文和恢复吗?

    以下是我拷贝的文档里的说明,这个中断处理还需要软件来写上下文保存和恢复,在使用ARM核的单片机都不需要考虑这些的,使用过的小伙伴能解答吗? 3.8. 进出中断的上下文保存和恢复 RISC-V架构
    发表于 10-20 09:56

    商汤日日新V6.5模态大模型登顶全球权威榜单

    Pro)模态大模型以82.2的综合成绩登顶榜首,领先Gemini 2.5 Pro以及GPT-5等国际顶尖模型。
    的头像 发表于 09-10 09:55 1043次阅读

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    GPT-4o 用毫秒响应处理图文混合指令、Gemini-1.5-Pro 以百万 token 上下文 “消化” 长文档时,行业的目光正从云端算力竞赛转向一个更实际的命题:如何让智能
    发表于 09-05 17:25

    6TOPS算力驱动30亿参数LLM,米尔RK3576部署端侧模态轮对话

    关键词:瑞芯微RK3576、NPU(神经网络处理器)、端侧小语言模型(SLM)、模态LLM、边缘AI部署、开发板当GPT-4o用毫秒响应处理图文混合指令、
    的头像 发表于 09-04 08:03 5121次阅读
    6TOPS算力驱动30亿参数LLM,米尔RK3576部署端侧<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>多</b>轮对话

    OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT

    外界一直在期待的OpenAI新一代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是OpenAI在2023年的3月份推出自然语言处理模型GPT-4之后,两年多时候后最受
    的头像 发表于 08-07 14:13 1.6w次阅读