0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新火种AI|谷歌深夜发布复仇神器Gemini,原生多模态碾压GPT-4?

新火种 来源:新火种 作者:新火种 2023-12-08 09:09 次阅读

作者:一号

GPT-4最强的对手出现了。

北京时间12月7日凌晨,谷歌CEO“劈柴”突然发布重磅AI杀手锏——Gemini。就在前几天,还有消息说Gemini要推迟一个月才上线,结果现在这么突然地发布,着实让AI圈料不到。以谷歌以往的实力,不用想,这又是AI界的一个“不眠之夜”。

在去年ChatGPT发布不到两周,谷歌就拉响了「警报」来应战,好不容易搞出来的Bard,在首次亮相的时候却出现了失误,让谷歌市值一夜蒸发了1000亿美元。

而且,GPT(Generative Pre-training Transformer)还是基于Transformer开发的,而这个Transformer模型最早还是谷歌提出来,要想谷歌心甘情愿地服输,可不是那么容易。

果然,这一年的时间里,关于Gemini的消息就层出不穷,有的说谷歌大脑和DeepMind部门合并,几乎耗尽谷歌内部算力资源,就是为了背水一战,和OpenAI决战。

不过前段时间,OpenAI的发布会把AI界炸了一圈,还上演了一出“宫斗剧”,甚至还传出让人浮想联翩的Q*,谷歌都没一点新消息,差点就让人以为AI圈的王者已定。

就在一个月之前,英伟达科学家Jim Fan就曾说过,“人们对谷歌Gemini的期望高得离谱!谷歌要想重夺当年AlphaGo的辉煌,Gemini不仅要100%达到GPT-4的能力,还要在成本或者速度上比GPT-4更好。”

wKgZomVx5m-ARkC3AAMUeHCh2m0257.jpg

生来就是全才

还好,从Gemini公布的演示视频来看,它没让人失望。

“Gemini,从第一天起就是多模态大模型——跨越文本、图像、视频、音频和代码的无缝推理。”这是谷歌官网上,介绍Gemini的第一句话。

与ChatGPT通过升级迭代,逐步加上视觉、音频等多模态能力,形成“合体金刚”的路径不同,Gemini生来就是一位全才。它从第一天起就被设计成原生多模态结构,文本、图像、音视频能力从最开始就一起训练,从这一点上来看,Gemini的学习更像人类。这就意味着,Gemini可以无缝调动多模态能力,抽象和理解、操作和组合不同类型的信息

举个例子,如果你同时上传一张图片给ChatGPT和Gemini,那么ChatGPT的处理将会是这样的,先借助GPT-4V认出来图里是什么,然后转成文本交给GPT去进行语义理解,然后再作回答;而Gemini则可以基于图像直接进行理解并回应,不用进行不同模型之间的调动。因此,在实操过程中,Gemini可以减少信息的丢失,回应也可以更加迅速和丝滑。

这从谷歌给到的演示视频中便可以看出:

wKgaomVx5m-ATxr4AAaNqEAfdFk912.jpg

演示者一边画画,Gemini就可以一边辨认,并且用自然、流利的语音和演示者对话,在演示者拿出蓝色的玩具鸭实物后,它还会幽默的回应:“看起来蓝色的鸭子比我想象中更常见。”

很显然,这样的体验更接近漫威中的“贾维斯”——一个高级人工智能,能与人类自如地进行交互。

而这样的体验,离不开Gemini的原生多模态架构

Gemini VS GPT-4

除了拥有令人惊叹的原生多模态能力,在性能上,Gemini也是相当强悍

按照尺寸的不同,Gemini共有“中杯”、“大杯”还有“超大杯”三种,即Ultra、Pro和Nano三个不同的版本。它们在性能和适配任务上的侧重点各有不同。

wKgZomVx5nCAAlrsAAQdwAiMIp4903.jpg

·Gemini Ultra —规模最大且功能最强大的模型,适用于高度复杂的任务,预计2024年初推出。

·Gemini Pro — 适用于各种任务的最佳模型,已经被用在了谷歌聊天机器人Bard的升级版上。

·Gemini Nano — 可以在端端侧设备上运行的高效模型,已经可以跑在谷歌Pixel 8 Pro手机上了。

根据谷歌给到的资料,从自然图像、音频和视频理解,再到数学推理,Gemini Ultra的性能在32个常见的大语言模型(LLM)研究和开发的学术基准测试中,拿下了30个SOTA

其中,它在通用、推理、数学和编程等大方向的成绩如下:

wKgaomVx5nCAIyIhAANdlxvRA2o279.jpg

更让人惊奇的是,在MMLU(大规模多任务语言理解)任务上,Gemini Ultra的得分达到了90.0%,超越了人类专家89.8%的成绩,首次达到了超越人类专家水平

wKgZomVx5nGASGIoAAD4e_iIynk849.jpg

MMLU测试包括数学、物理、历史、法律、医学等57个学科,主要是用来考察大语言模型世界知识和解决问题的能力,而在这些学科中的每一个,Gemini都达到了甚至超过了行业专家的水准。

在图像基准测试中,Gemini Ultra在不使用OCR(对象字符识别)来提取图像文本进行下一步处理的情况下,表现优于GPT-4V

各种测试都表明,Gemini在多模态处理上表现出了强大的能力,并且在更复杂的推理上也有很大的潜力。

实际能力被质疑

然而,在模型发布后不久,就有人在谷歌给到的60页技术报告中发现了一些“小技巧”。

在MMLU测试中,Gemini的结果下面用灰色小字标注着CoT@32,这表示,这个结果是使用了思维练提示技巧,尝试了32次后选出来的最好结果,而对比GPT-4,则是无提示词技巧,只尝试了5次的结果,这测试结果,变量确实控制得不是很好。

wKgaomVx5nKACzbBAACicmHlaP0009.jpg

而且在显示超越人类专家的示意图里,比例尺上也有问题,让人以为超越了人类专家很多,但实际上并没有相差多少。

HuggingFace的技术主管Philipp Schmind“修复”了这张图,表示实际上应该是这样:

wKgZomVx5nKAaE0IAALmdPXcCwY271.jpg

并且,在谷歌给到的一篇解释多模态交互过程的博客中,似乎表明了演示视频里,Gemini实时互动并不是真的,而是使用了静态图片,通过多段提示词拼凑,最后再剪辑视频,才达到了演示视频里的效果。

wKgaomVx5nOANtJfAALLPAPOdSk302.jpg

不管谷歌是不是有意使用“障眼法”,Gemini的发布无疑给看似稳定的AI界带来了一些“动荡”。

并且,谷歌还宣布推出了迄今为止最强大、最高效、最可扩展的TPU系统:Cloud TPU v5p,Gemini正式在此基础上训练的,这意味着谷歌将有能力拜托英伟达的算力限制,也算给了AI芯片市场带来了一些变化。

大模型的多模态探索

随着ChatGPT通过升级迭代,拥有了多模态能力,以及Gemini所展现出来的原生多模态能力,我们可以清晰地感受到,AI大模型浪潮已经进入了一个全新的阶段,即从大语言模型转向多模态模型。后者将更符合人类和世界交互最自然的方式:用眼睛看,用耳朵听,用嘴巴说,用文字记录与决策。

wKgaomVx5nSAT2CIAAmclVNR7hE455.jpg

多模态领域的技术探索,与互联网媒介形式的变化也十分吻合,即从文字媒体,再到

音视频媒体。如今,随着抖音以及TikTok等短视频平台的兴起,视频已经成为了我们这个信息时代的主流。

根据思科的年度互联网报告,视频已经占据了互联网超过80%的流量

很明显,如果一个AI大模型不具备识别图像以及音视频的能力,那么其训练数据将会跟不上信息迭代的速度,其能力也将大打折扣。

现如今,在多模态模型道路的探索上,除了GPT,Gemini也加入了进来,不知道未来Meta的Llama还有马斯克的Grok等等,是否也将加入角逐?


审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Gemini
    +关注

    关注

    0

    文章

    35

    浏览量

    7475
  • AI
    AI
    +关注

    关注

    87

    文章

    26457

    浏览量

    264070
  • GPT
    GPT
    +关注

    关注

    0

    文章

    302

    浏览量

    14869
  • 大模型
    +关注

    关注

    2

    文章

    1529

    浏览量

    1116
收藏 人收藏

    评论

    相关推荐

    谷歌发布史上最强大模型Gemini,全方位领先GPT-4,MMLU基准达人类专家水平

    ,官宣了最新多模态大模型Gemini 1.0版本正式上线。 这次发布是按照谷歌此前的预期,但是对于业界而言非常突然。因为就在一周前还有报告指出,谷歌
    的头像 发表于 12-08 00:11 2522次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>发布</b>史上最强大模型<b class='flag-5'>Gemini</b>,全方位领先<b class='flag-5'>GPT-4</b>,MMLU基准达人类专家水平

    商汤科技发布5.0多模态大模型,综合能力全面对标GPT-4 Turbo

    商汤科技发布5.0多模态大模型,综合能力全面对标GPT-4 Turbo 4月23日,商汤科技董事长兼CEO徐立在2024商汤技术交流日上发布了行业首个云、端、边全栈大模型产品矩阵,能够
    的头像 发表于 04-24 16:49 474次阅读

    火种AI|秒杀GPT-4,狙杀GPT-5,横空出世的Claude 3振奋人心!

    GPT-4被拉下神坛, Claude 3很可能对GPT-4实现全方位的碾压 。 Anthropic发布3个模型,全方位实现
    的头像 发表于 03-06 22:22 324次阅读
    新<b class='flag-5'>火种</b><b class='flag-5'>AI</b>|秒杀<b class='flag-5'>GPT-4</b>,狙杀<b class='flag-5'>GPT</b>-5,横空出世的Claude 3振奋人心!

    谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

    我们经历了LLM划时代的一夜。GeminiUltra发布还没几天,Gemini1.5就来了。卯足劲和OpenAI微软一较高下的谷歌,开始进入了高产模式。自家最强的Gemini1.0Ul
    的头像 发表于 02-19 12:28 469次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b> 1.5<b class='flag-5'>深夜</b>爆炸上线,史诗级多<b class='flag-5'>模态</b>硬刚<b class='flag-5'>GPT</b>-5!最强MoE首破100万极限上下文纪录

    谷歌推出Gemini 希望击败GPT-4

    Gemini不仅仅是一个单一的人工智能模型。有一个简单版本叫Gemini Nano,旨在在安卓设备上离线运行。有一个更强大的版本叫Gemini Pro,很快将为谷歌的许多人工智能服务提
    的头像 发表于 12-14 17:30 480次阅读

    谷歌声称Gemini超越GPT-4,你有何看法呢?

    谁能想到,一夜之间,人们对于谷歌 Gemini 的看法竟发生了 180° 转变。
    的头像 发表于 12-14 09:54 272次阅读
    <b class='flag-5'>谷歌</b>声称<b class='flag-5'>Gemini</b>超越<b class='flag-5'>GPT-4</b>,你有何看法呢?

    ChatGPT plus有什么功能?OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能

    OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能分析解答 在最近的OpenAI DevDay上,该组织发布了一项备受期待的公告:推出GPT-4 Turbo,这是对其突破
    的头像 发表于 12-13 09:19 603次阅读
    ChatGPT plus有什么功能?OpenAI <b class='flag-5'>发布</b> <b class='flag-5'>GPT-4</b> Turbo 目前我们所知道的功能

    成都汇阳投资关于谷歌Gemini 王者归来,AI 算力和应用值得期待

    Gemini 大模型主打多模态,性能对标GPT-4】 当地时间12月6日, 谷歌公司宣布推出其规模最大、功能最强的多模态大模型
    的头像 发表于 12-11 14:40 629次阅读
    成都汇阳投资关于<b class='flag-5'>谷歌</b>携 <b class='flag-5'>Gemini</b> 王者归来,<b class='flag-5'>AI</b> 算力和应用值得期待

    谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”

    Gemini谷歌来说可能走了一大步,但对整个AI领域而言,并没有说的那么夸张。
    的头像 发表于 12-09 09:09 455次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>被曝夸大营销?<b class='flag-5'>碾压</b><b class='flag-5'>GPT</b>4纯靠“一张嘴”

    OpenAI GPT-4升级?AI原生应用百度地图AI向导:已成功预判

    北京时间11月7日凌晨,在OpenAI的首届开发者大会上新模型GPT-4 Turbo发布,ChatGPT也宣布了一系列升级,在工作人员的现场演示中新版GPT集成了类似助理的AI应用,可
    的头像 发表于 11-08 10:12 623次阅读
    OpenAI <b class='flag-5'>GPT-4</b>升级?<b class='flag-5'>AI</b><b class='flag-5'>原生</b>应用百度地图<b class='flag-5'>AI</b>向导:已成功预判

    OpenAI最新大模型曝光!剑指多模态GPT-4之后最大升级!

    目前为止,OpenAI还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。CEO奥特曼在回应有关GPT-5的传闻时,也暗示过GPT-4“正在增强”。
    的头像 发表于 09-20 17:34 858次阅读
    OpenAI最新大模型曝光!剑指多<b class='flag-5'>模态</b>,<b class='flag-5'>GPT-4</b>之后最大升级!

    特斯拉一体化压铸技术推动电动车制造革命,谷歌Gemini挑战OpenAI GPT-4

    大家好,欢迎收看河套IT WALK第106期。 今天,我们来关注两条科技新闻。一条是特斯拉的一体化压铸技术,将改变电动车的制造方式。另一条是谷歌AI软件Gemini,将与OpenAI的GPT
    的头像 发表于 09-15 21:45 462次阅读
    特斯拉一体化压铸技术推动电动车制造革命,<b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>挑战OpenAI <b class='flag-5'>GPT-4</b>

    谷歌Gemini被曝算力达GPT-4五倍,手握TPU王牌碾压OpenAI

    根据Patel和Nishball的说法,此前屡屡被爆料将成为GPT-4大杀器的谷歌Gemini,已经开始在新的TPUv5 Pod上进行训练了,算力高达~1e26 FLOPS,比训练GPT-4
    的头像 发表于 09-04 16:02 589次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>被曝算力达<b class='flag-5'>GPT-4</b>五倍,手握TPU王牌<b class='flag-5'>碾压</b>OpenAI

    GPT-4创造力竟全面碾压人类!最新创造力测试GPT4排名前1%

    来源:新智元 最近,一项有关GPT-4的创造力思维测试火了。 来自蒙大拿大学和UM Western大学的研究团队发现,GPT-4在Torrance创造性思维测试(TTCT)中的得分直接排在
    的头像 发表于 06-25 10:35 270次阅读
    <b class='flag-5'>GPT-4</b>创造力竟全面<b class='flag-5'>碾压</b>人类!最新创造力测试<b class='flag-5'>GPT</b>4排名前1%

    GPT-4 的模型结构和训练方法

    GPT-4发布报道上,GPT-4 的多模态能力让人印象深刻,它可以理解图片内容给出图片描述,甚至能在图片内容的基础上理解其中的隐喻或推断下一时刻的发展。
    的头像 发表于 05-22 15:21 2009次阅读
    <b class='flag-5'>GPT-4</b> 的模型结构和训练方法