0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新火种AI | 谷歌Gemini“抄袭”百度文心一言?AI训练数据陷难题

新火种 来源:新火种 作者:新火种 2023-12-20 09:09 次阅读

作者:一号

编辑:小迪

谷歌过于心急,Gemini推出不到半月,就遭遇两次“危机”。

美东时间12月6日,谷歌推出了迄今为止规模最大,能力最强的大模型Gemini。其原生多模态的能力,通过一条约6分钟的演示视频,展现得淋漓尽致,让人不得不感慨它的强大,就连马斯克都评论说,“(Gemini)令人印象深刻”。

谷歌在AI领域的成就有目共睹,尽管之前推出的Bard表现不尽人意,让谷歌市值一夜蒸发了1000亿美元。但经过一年沉淀,加上和DeepMind联合研发,所以Gemini(双子星)可是被寄予了厚望。

但是,Gemini发布后仅一天,就有人指控谷歌“造假”。除了在数据对比上没有使用相同条件,演示视频效果也是经过剪辑的。逼得谷歌不得不给出文档承认视频是经过加工的。

12月14日,视频“造假”事件还没降温,谷歌就宣布对外免费开放Gemini Pro的API。让不少人高兴得奔走相告。因为相较于GPT-4收费版才能拥有的视觉模型,Gemini Pro可以直接给平民AI玩家体验AI视觉能力的机会。

但就在API开放后不久,就有用户发现,在Poe上使用Gemini Pro时,如果用简体中文连续询问“你好”和“你是谁”这两个问题时,Gemini Pro会直接说出“我是百度文心大模型”这样的回答,给网友都看“呆”了。

谷歌Gemini被百度文心一眼“夺舍”了?

微博大V阑夕就发博展示了这样的效果,就连进一步询问“你的创始人是谁”时,它也很干脆地回答:李彦宏。

wKgZomWBqMqAfHd-AAQRnmzppkY379.jpg

难道Gemini被百度“夺舍”了?不少人怀疑这是因为博主在对话前面设置了提示词,让Gemini扮演文心一言,但这位博主强调,没有任何前置对话。

wKgaomWBqMuAEsG6AAFYsarFxxM625.jpg

本着求真的态度,我们也去Poe上试用了一下,结果真的可以复现。

wKgZomWBqMuAAcdgAAP589GT9k0828.jpg

会不会是Poe平台上的接口用错了?不过Poe平台可不是什么野鸡套壳网站,它是美版知乎Quora推出的AI聊天机器人平台,你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提问Gemini,它就会立刻恢复正常。并且单就从“作案动机”上来讲,Poe也没有必要这么做。

除此之外,还有用户在谷歌自己的Vertex AI平台上,使用中文对话,也出现了这种情况。因此,Poe的接口使用出错,这个可能基本可以被排除,问题应该出在Gemini本身。

wKgaomWBqMyAODq1AACIPl0BLUc359.jpg

使用AI生成的数据进行训练已不新鲜

这样看下来,要么就是谷歌使用了百度文心一言的语料进行训练,要么就是它所使用的语料已经被AI“污染”了。

其实大模型训练使用其他大模型生成的语料这件事情已经不是第一次发生,并且谷歌还是有“前科”的。在上一代Bard时,谷歌就曾被曝出使用ChatGPT的数据进行训练,并且根据The Information报道,这件事情还造成了Jacob Devlin从谷歌离职。

就在上周末,字节跳动也被OpenAI禁止使用API接口,原因也是因为说字节在使用GPT训练自己的AI,违反了使用条例。

wKgZomWBqMyAPJd4AAJ1abXz8sA239.jpg

如果按照现在每个模型堆“训练数据量”的操作来看,互联网上的人类原生的数据很快就会用完,并且各个模型之间也将会很相似。因此,获取一些未被别人拿去训练的数据,是模型之间保持差异化的一种方法。因此,有些AI公司会向一些拥有专属数据的公司购买数据。例如OpenAI就曾表示愿意每年支付高达八位数的费用,用以获取彭博社自有的历史和持续的金融文件数据访问权限。

wKgaomWBqM2AIpbBAAMBO88ElR0114.jpg

另一个思路,就是选择使用AI合成的数据来进行训练。香港大学、牛津大学和字节跳动的几名研究院就曾尝试过使用高质量AI合成图片,来提升图像分类模型的性能,结果发现效果还不错,甚至比真实数据训练还要好。

AI生成的内容正在“污染”互联网

而从另一方面来看,AI生成的内容污染互联网也是一个不得不重视的问题了。尤其是生成式AI大爆发的今年。在文字、图像、视频还有音频等领域,AI生成的内容都正在“污染”互联网上数据内容。

就在上个月,一些网友发现,在谷歌搜索上输入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜索结果,前几张图片都是有AI生成的,而并非真实照片,并且这是一位以弹奏尤克里里而闻名的音乐家,但图片里的他却在弹吉他。

在文字方面也是,随着百家号等媒体平台上出现的AI帮写等功能,AI生成的文章已经开始在互联网上“蔓延”,这让普通人在互联网上筛选真实且有效的信息的效率反而降低了。可以说,AI生成内容对互联网语料的“污染”,可能会导致产生一个新的需求,那就是帮人们分辨内容是否由AI生成的AI。

毕竟,目前训练AI所需要的数据还是人类所生产的,在数据清洗过程中,需要注意清除一些由其他AI生成的内容。一旦互联网上AI生成的内容越多,越能以假乱真,那么数据筛选的难度将越大。并且在大模型出现“幻觉”以及AI如何产生“智能涌现”这两个问题没有得到彻底解决之前,我想我们都无法做到彻底信赖AI生成的内容。

毕竟一旦AI生成了错误的内容,而另一个AI拿着这个内容去训练,然后再另一个AI拿到新的错误内容......这样“滚雪球”下去,AI最终会生成什么样的逆天垃圾,我们真的无法想象。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Gemini
    +关注

    关注

    0

    文章

    35

    浏览量

    7476
  • AI
    AI
    +关注

    关注

    87

    文章

    26466

    浏览量

    264095
  • 文心一言
    +关注

    关注

    0

    文章

    112

    浏览量

    870
收藏 人收藏

    评论

    相关推荐

    谷歌Gemini自曝用文心一言训练,字节被OpenAI封号,大模型互薅羊毛是常态?

    博主@阑夕爆料,对谷歌Gemini进行测试时,如果用中文询问Gemini的身份,其回答竟然是百度文心一言。   更让人大跌眼镜的是,测试人员
    的头像 发表于 12-20 09:03 2206次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>自曝用文心<b class='flag-5'>一言</b><b class='flag-5'>训练</b>,字节被OpenAI封号,大模型互薅羊毛是常态?

    百度文心一言用户破2亿,AI原生应用开发数量达19万

    此外,李彦宏还提到,百度在去年 8 月宣布开放文心一言后,不仅在C端借助大模型改造用户产品,将AI功能融入旗下多款产品;同时在B端,通过云业务推出企业级一站式大模型平台——千帆大模型平台。
    的头像 发表于 04-16 15:05 284次阅读

    谷歌Pixel 8将采用Gemini Nano模型,新增两项AI功能

    谷歌披露,Pixel 8 在配备 Gemini Nano 后,首先将增加两大创新 AI 功能:其中之一是 Recorder 应用内新增 Summarize 功能,无网络情况下可记录并归纳更多关于对话、采访和演示的有用信息。
    的头像 发表于 03-29 15:46 131次阅读

    百度将为国行iPhone16提供AI功能

    谷歌、OpenAI 等公司的AI 。 国行iPhone16搭载百度AI功能的话会不会是内置文心一言?当然这些详细的信息还没有办法
    的头像 发表于 03-25 16:23 449次阅读

    火种AI|谷歌深夜炸弹!史上最强开源模型Gemma,打响新一轮AI之战

    “全球性能最强大、轻量级”的新一代开源系列模型Gemma,瞬间打响AI开源战争。 据官方介绍,Gemma模型使用了和Gemini同源的技术,总共有20亿参数和70亿参数两种规模,每个规模又分预训练和指令微调两个版本。 其中20亿
    的头像 发表于 02-23 10:21 160次阅读
    新<b class='flag-5'>火种</b><b class='flag-5'>AI</b>|<b class='flag-5'>谷歌</b>深夜炸弹!史上最强开源模型Gemma,打响新一轮<b class='flag-5'>AI</b>之战

    谷歌AI聊天机器人改名为Gemini

    谷歌(Google)近日宣布,旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini,并推出了一款功能更加强大的付费版本——Gemini Advanced。这一战略调整旨在与微软、
    的头像 发表于 02-18 11:28 531次阅读

    谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”

    Gemini谷歌来说可能走了一大步,但对整个AI领域而言,并没有说的那么夸张。
    的头像 发表于 12-09 09:09 456次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>被曝夸大营销?碾压GPT4纯靠“一张嘴”

    火种AI|谷歌深夜发布复仇神器Gemini,原生多模态碾压GPT-4?

    谷歌背水一战,发布Gemini,狙击GPT-4
    的头像 发表于 12-08 09:09 769次阅读
    新<b class='flag-5'>火种</b><b class='flag-5'>AI</b>|<b class='flag-5'>谷歌</b>深夜发布复仇神器<b class='flag-5'>Gemini</b>,原生多模态碾压GPT-4?

    谷歌揭秘Gemini,AMD对峙英伟达

    今天,我们看到谷歌揭开了多模态AI模型Gemini的神秘面纱,AMD挑战英伟达在AI芯片市场的霸主地位,微软在英国AI领域的巨额投资,以及3
    的头像 发表于 12-07 20:05 459次阅读

    实测百度新文库,AI重构最彻底的产品都有什么用?

    AI
    脑极体
    发布于 :2023年10月19日 09:09:22

    百度文心一言,率先向全社会开放

    官网”体验。 据悉,百度还将开放一批经过全新重构的AI原生应用,让广大用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。 今年3月16日,文心一言开启邀测。作为全球大厂中首个
    的头像 发表于 09-04 10:50 650次阅读

    文心一言率先全面开放 百度放大招

    文心一言率先全面开放 百度再放大招,文心一言率先全面开放。这是向全社会全面的开放。此外还有一些AI原生应用也会开放给用户。 大家可以在应用商店下载“文心
    的头像 发表于 08-31 12:57 573次阅读

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    飞桨+文心一言的“动力装置”,藏着百度财报的增长密码

    百度按下“多级动力装置”,AI火箭文心一言“冲向苍穹”
    的头像 发表于 05-17 20:59 543次阅读
    飞桨+文心<b class='flag-5'>一言</b>的“动力装置”,藏着<b class='flag-5'>百度</b>财报的增长密码