0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌声称Gemini超越GPT-4,你有何看法呢?

人工智能与大数据技术 来源:CSDN 2023-12-14 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谁能想到,一夜之间,人们对于谷歌 Gemini 的看法竟发生了 180° 转变。

昨天,谷歌在 X 上展示 Gemini 原生多模态能力的 6 分半钟视频下,几乎是清一色的赞扬:

efe279ee-9a21-11ee-8b88-92fbcf53809c.png

eff0c878-9a21-11ee-8b88-92fbcf53809c.png

eff52e90-9a21-11ee-8b88-92fbcf53809c.png

而到了今天,Gemini 还是那个 Gemini,但网友已经不买账了:

f003b7c6-9a21-11ee-8b88-92fbcf53809c.png

f00849f8-9a21-11ee-8b88-92fbcf53809c.png

发生了什么,才会让人们的态度一夜转变?原因在于那个 6 分半的 Gemini 演示视频:它是假的,是经过剪辑的,甚至在被质疑后,谷歌还承认了!

1、Gemini 的视频演示效果,是假的

相信看过 Gemini 演示视频的人,多数都对它的“多模态能力”印象深刻。例如,Gemini 看到一只鸭子从草图到填色的整个过程,可实时给出解释和反馈,还能在换杯游戏中追踪纸团、辨别各种手势、重新排列行星草图等——短短 6 分半的视频,Gemini 给人的感觉是:仿佛可以实时观察周围世界并及时做出反应,还能与人类进行流畅的语音对话。

对于 Gemini 如此强大的能力,谷歌给出的解释是:Gemini 是 AI 的新品种,即“原生多模态”。

“我们将 Gemini 设计为原生多模态,从一开始就针对不同模式进行了预训练。然后我们使用额外的多模态数据对其进行微调,以进一步完善其有效性,这有助于 Gemini 从头开始无缝地理解和推理各种输入,因此远远优于现有的多模式模型。此外,Gemini 的多模态功能几乎在每个领域都是最先进的。”

听起来似乎有理有据,于是当一众网友都沉浸于 Gemini 的强大、好奇它能否真正超越 GPT-4 的时候,彭博社作家 Parmy Olsen 突然发出了一个“不太和谐”的声音:Gemini 的视频演示效果,是假的。

一石激起千层浪!好在 Parmy Olsen 并没有吊人胃口,很干脆地将谷歌的作假手法和证据全部公开:Gemini 并不能像视频中那样实时语音回答——它看到的只是视频片段中的静态图像,其语音也只是在读出人类给它的文本提示,且响应时间比视频中展示的要长。

2、背后的人工提示过程,全部省略

举个例子,Gemini 演示视频中有一段识别动态手势的片段:通过观察左边不断变化的手势,Gemini 回答道,“我知道你在干嘛!你在玩石头剪刀布!”

这段视频乍看之下,你是不是以为可以实时向 Gemini 展示不同的东西,并与它交流?但事实并非如此:Gemini 仅支持文本交流,并不能进行语音对话。

根据谷歌公布的文档内容显示,这段视频显然是经过“加工”的:

(1)先给 Gemini 陆续展示三张单个手势的图片,问它分别看到了什么;

(2)再把三张手势图片一起发给 Gemini,问它这是在干什么,并提示是一个“游戏”;

(3)通过以上一步步的提示和引导,Gemini 最终给出了答案:你在玩石头剪刀布。

针对以上步骤,一位谷歌发言人解释道:“为了测试 Gemini 在各种挑战中的能力,我们通过捕捉录像来制作演示。然后我们使用录像中的静态图像帧提示 Gemini,并通过文本进行提示。”

Parmy Olsen 将其简单翻译了一下:“谷歌拍下了那双手做很多事情的画面,然后一张一张地向 Gemini 展示了这些镜头的照片。所以根本没有语音对话,而是跟 ChatGPT 和 Bard 一样的文本交流。”

此外,谷歌发言人还补充称,用户的配音都是从实际提示中摘录的真实内容,用于生成随后的Gemini输出结果——对此,Parmy Olsen 的翻译是:“你在视频中听到的声音,只是在朗读文字提示。”

也就是说,谷歌所展示的 Gemini 演示视频,是省略了所有引导提示、跳过了等待响应的时间、并用配音合成的最终结果。

3、都是真实的,只是“为了简洁”剪辑视频

当然,Gemini 可能也真的做到了在视频中展示的所有事情,但这两种表现形式完全不同:

以文字形式,通过人工提示分步骤直接展示其多模态效果,对于 Gemini 的能力没有过多修饰;

以视频形式,经过剪辑、省略其背后大量引导过程的视频来呈现,极大暗示了 Gemini 的实时高效。

由于 Parmy Olsen 的曝光,网友对于 Gemini 的态度瞬间改变,并发出了无数质疑。而对于被质疑造假的这个视频,谷歌 DeepMind 研究副总裁 Oriol Vinyals 今天给出了回应:

“视频中的所有用户提示和输出都是真实的,只是为了简洁起见进行了缩短。该视频展示了使用 Gemini 构建的多模态用户体验可能是什么样子,我们制作该视频是为了激发开发人员的灵感。”

换句话说,Oriol Vinyals 承认 Gemini 演示视频经过了剪辑,原因是“为了简洁”。不论其剪辑初衷是否真的只是为了“简洁”,但不得不说:在谷歌没明确说明视频经过剪辑之前,多数人对于 Gemini 的速度、准确性以及与交互的基本模式,都产生了误解。

如果在这个视频开头,谷歌就说“这是我们研究人员测试过的 Gemini 交互的理想化表现”,那网友就会有心理预期:哦,那这个视频一半是现实,一半是理想化——但事实上,该视频的开头是,“本视频重点介绍了我们与 Gemini 的一些有趣互动”,因此人们很难意识到这个视频中 Gemini 的表现是经过“加工”的。

4、网友:“这就是虚假和误导”

于是意料之中,Oriol Vinyals 的回应并没有受到网友的理解,其 X 帖子下多是谴责谷歌虚假、夸大营销:

“如果你想激励开发者,那为什么不发布真实的内容呢?提示不可能既‘真实’又‘缩短’,这就是虚假和误导。”

如今的 AI 初创公司,不就是像你们这样夸张的演示来骗取资金的吗?

“‘真实,缩短’,真的吗?只是营销罢了。”

另外值得一提的是,还有网友指出,谷歌Gemini 对比GPT-4 的测试基准也并不相同:“在MMLU测试中,Gemini下面有个灰色小字标CoT@32,即使用了思维链提示技巧、选取了32次中的最好结果,GSM8K 的性能也是用 Maj1@32 与 GPT-4 的 5-Shot CoT 进行对比的。”

f02f184e-9a21-11ee-8b88-92fbcf53809c.png

那么对于谷歌声称Gemini 超越GPT-4 的说法,你又有何看法呢?

本文转自公众号“CSDN”,ID:CSDNnews







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6246

    浏览量

    110284
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16720
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10078

原文标题:Gemini 超越 GPT-4 靠作弊?谷歌承认:是的,演示视频经过了剪辑

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌AI霸主归来!多线反击OpenAI,开启安卓Gemini时代

    电子发烧友网报道(文/莫婷婷)北京时间5月21日,谷歌2025 Google I/O开发者大会正式召开,从其发布的新品来看,这可以说是一场AI盛会。 在AI大模型方面,发布了Gemini 2.5
    的头像 发表于 05-22 09:01 6381次阅读
    <b class='flag-5'>谷歌</b>AI霸主归来!多线反击OpenAI,开启安卓<b class='flag-5'>Gemini</b>时代

    谷歌正式推出最新Gemini 3 AI模型

    今天我们正式推出 Gemini 3,这是我们迄今为止最智能的模型,能够帮助用户实现任何创意。Gemini 3 Pro 基于最先进的推理技术,与之前的版本相比,它在所有主要的 AI 基准测试中都取得了无与伦比的结果,尤其是在编程方面也超越
    的头像 发表于 11-24 11:10 849次阅读
    <b class='flag-5'>谷歌</b>正式推出最新<b class='flag-5'>Gemini</b> 3 AI模型

    谷歌Gemini 3模型开启智能新纪元

    大约两年前,我们开启了 Gemini 时代,这是公司迄今为止投入最大的科研和产品项目之一。自那时起,看到大家对它的喜爱程度,着实令人惊叹。现在,每月 20 亿用户使用 AI 概览 (AI
    的头像 发表于 11-24 11:07 507次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b> 3模型开启智能新纪元

    GPT-5即将面市 性能远超GPT-4

    行业芯事
    电子发烧友网官方
    发布于 :2025年06月04日 13:38:23

    OpenAI即将发布GPT-4.5与GPT-5

    GPT-4.5将在未来几周内率先亮相,它将是OpenAI通用GPT-4模型的继承者。这款新的算法在技术上进行了诸多优化和升级,旨在为用户提供更加精准、高效的AI服务。 而在GPT-4.5发布后不久
    的头像 发表于 02-13 13:43 1035次阅读

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI 大模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以及新一代旗舰大模型
    的头像 发表于 02-07 15:07 1097次阅读

    DeepSeek用户量超越谷歌Gemini

    在聊天AI领域的竞争中,中国AI产品DeepSeek展现出了强劲的增长势头。据最新数据显示,1月底,DeepSeek的用户量已经成功超越谷歌Gemini。 具体来看,1月31日这一天
    的头像 发表于 02-07 14:59 803次阅读

    三星 Galaxy S25 系列与谷歌 Gemini 深度整合

    在Galaxy Unpacked发布会上,三星Galaxy S25系列手机震撼登场,其与谷歌Gemini的深度整合成为一大亮点。 此次整合后,Gemini AI助手为Galaxy S25系列带来
    的头像 发表于 01-23 17:41 1331次阅读

    如何在边缘端获得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    本 OpenCompass 榜单上(综合 8 个主流多模态评测基准)平均得分 65.2,以8B量级的大小在单图理解方面超越GPT-4o mini、GPT-4V、Gemini 1.5
    的头像 发表于 01-20 13:40 1117次阅读
    如何在边缘端获得<b class='flag-5'>GPT4</b>-V的能力:算力魔方+MiniCPM-V 2.6

    谷歌Gemini AI目标年底用户达5亿

    近日,谷歌CEO桑达尔·皮查伊在内部会议上向员工透露,他对公司自主研发的Gemini AI技术充满信心,认为其能力已经超越了当前的竞争对手。这一表态不仅彰显了谷歌在AI领域的雄心壮志,
    的头像 发表于 01-18 11:30 1284次阅读

    谷歌CEO:Gemini AI技术超越竞品,目标年底5亿用户

    近日,谷歌CEO皮查伊近期向员工传达了他对公司Gemini AI技术的信心。据悉,皮查伊认为Gemini的能力已经超越了当前的竞争对手。 皮查伊表示,他期望到今年年底,全球能有5亿人
    的头像 发表于 01-17 10:37 1143次阅读

    谷歌推出Gemini 2.0 Flash体验版

    我们正赋予开发者构建 AI 未来的能力,包括尖端模型、智能代码编写工具以及跨平台和设备的无缝集成。自 2023 年 12 月我们推出 Gemini 1.0 以来,数百万的开发者已经使用 Google AI Studio 和 Vertex AI 在 109 种语言中使用 Gemin
    的头像 发表于 01-06 09:52 2585次阅读

    谷歌发布“深度研究”AI工具,利用Gemini模型进行网络信息检索

    据外媒最新报道,谷歌近期发布了一款名为“深度研究”的先进AI工具。这款工具借助其内部的Gemini大型语言模型,实现了对网络信息的高效检索与深度挖掘,进一步满足了用户对精准、详尽信息的需求。 据悉
    的头像 发表于 12-16 09:35 1043次阅读

    谷歌正式发布Gemini 2.0 性能提升近两倍

    在智能体时代,谷歌再次引领技术潮流,正式发布了其最新力作——Gemini 2.0。这款AI模型不仅在性能上实现了显著提升,更是在多模态表现和原生工具应用方面展现了前所未有的强大功能。 Gemini
    的头像 发表于 12-12 14:22 1128次阅读

    谷歌发布Gemini 2.0 AI模型

    谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名为“深度研究”的新特性,旨在为用户提供更加全面和深入的复杂主题探索与报告撰写辅助。 Gemini 2.0通过高级推理和长上
    的头像 发表于 12-12 10:13 980次阅读