0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新火种AI | 谷歌Gemini“抄袭”百度文心一言?AI训练数据陷难题

新火种 来源:新火种 作者:新火种 2023-12-20 09:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:一号

编辑:小迪

谷歌过于心急,Gemini推出不到半月,就遭遇两次“危机”。

美东时间12月6日,谷歌推出了迄今为止规模最大,能力最强的大模型Gemini。其原生多模态的能力,通过一条约6分钟的演示视频,展现得淋漓尽致,让人不得不感慨它的强大,就连马斯克都评论说,“(Gemini)令人印象深刻”。

谷歌在AI领域的成就有目共睹,尽管之前推出的Bard表现不尽人意,让谷歌市值一夜蒸发了1000亿美元。但经过一年沉淀,加上和DeepMind联合研发,所以Gemini(双子星)可是被寄予了厚望。

但是,Gemini发布后仅一天,就有人指控谷歌“造假”。除了在数据对比上没有使用相同条件,演示视频效果也是经过剪辑的。逼得谷歌不得不给出文档承认视频是经过加工的。

12月14日,视频“造假”事件还没降温,谷歌就宣布对外免费开放Gemini Pro的API。让不少人高兴得奔走相告。因为相较于GPT-4收费版才能拥有的视觉模型,Gemini Pro可以直接给平民AI玩家体验AI视觉能力的机会。

但就在API开放后不久,就有用户发现,在Poe上使用Gemini Pro时,如果用简体中文连续询问“你好”和“你是谁”这两个问题时,Gemini Pro会直接说出“我是百度文心大模型”这样的回答,给网友都看“呆”了。

谷歌Gemini被百度文心一眼“夺舍”了?

微博大V阑夕就发博展示了这样的效果,就连进一步询问“你的创始人是谁”时,它也很干脆地回答:李彦宏。

wKgZomWBqMqAfHd-AAQRnmzppkY379.jpg

难道Gemini被百度“夺舍”了?不少人怀疑这是因为博主在对话前面设置了提示词,让Gemini扮演文心一言,但这位博主强调,没有任何前置对话。

wKgaomWBqMuAEsG6AAFYsarFxxM625.jpg

本着求真的态度,我们也去Poe上试用了一下,结果真的可以复现。

wKgZomWBqMuAAcdgAAP589GT9k0828.jpg

会不会是Poe平台上的接口用错了?不过Poe平台可不是什么野鸡套壳网站,它是美版知乎Quora推出的AI聊天机器人平台,你所熟知的ChatGPT、Claude等知名AI都可以在上面使用。而且如果你使用英文提问Gemini,它就会立刻恢复正常。并且单就从“作案动机”上来讲,Poe也没有必要这么做。

除此之外,还有用户在谷歌自己的Vertex AI平台上,使用中文对话,也出现了这种情况。因此,Poe的接口使用出错,这个可能基本可以被排除,问题应该出在Gemini本身。

wKgaomWBqMyAODq1AACIPl0BLUc359.jpg

使用AI生成的数据进行训练已不新鲜

这样看下来,要么就是谷歌使用了百度文心一言的语料进行训练,要么就是它所使用的语料已经被AI“污染”了。

其实大模型训练使用其他大模型生成的语料这件事情已经不是第一次发生,并且谷歌还是有“前科”的。在上一代Bard时,谷歌就曾被曝出使用ChatGPT的数据进行训练,并且根据The Information报道,这件事情还造成了Jacob Devlin从谷歌离职。

就在上周末,字节跳动也被OpenAI禁止使用API接口,原因也是因为说字节在使用GPT训练自己的AI,违反了使用条例。

wKgZomWBqMyAPJd4AAJ1abXz8sA239.jpg

如果按照现在每个模型堆“训练数据量”的操作来看,互联网上的人类原生的数据很快就会用完,并且各个模型之间也将会很相似。因此,获取一些未被别人拿去训练的数据,是模型之间保持差异化的一种方法。因此,有些AI公司会向一些拥有专属数据的公司购买数据。例如OpenAI就曾表示愿意每年支付高达八位数的费用,用以获取彭博社自有的历史和持续的金融文件数据访问权限。

wKgaomWBqM2AIpbBAAMBO88ElR0114.jpg

另一个思路,就是选择使用AI合成的数据来进行训练。香港大学、牛津大学和字节跳动的几名研究院就曾尝试过使用高质量AI合成图片,来提升图像分类模型的性能,结果发现效果还不错,甚至比真实数据训练还要好。

AI生成的内容正在“污染”互联网

而从另一方面来看,AI生成的内容污染互联网也是一个不得不重视的问题了。尤其是生成式AI大爆发的今年。在文字、图像、视频还有音频等领域,AI生成的内容都正在“污染”互联网上数据内容。

就在上个月,一些网友发现,在谷歌搜索上输入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜索结果,前几张图片都是有AI生成的,而并非真实照片,并且这是一位以弹奏尤克里里而闻名的音乐家,但图片里的他却在弹吉他。

在文字方面也是,随着百家号等媒体平台上出现的AI帮写等功能,AI生成的文章已经开始在互联网上“蔓延”,这让普通人在互联网上筛选真实且有效的信息的效率反而降低了。可以说,AI生成内容对互联网语料的“污染”,可能会导致产生一个新的需求,那就是帮人们分辨内容是否由AI生成的AI。

毕竟,目前训练AI所需要的数据还是人类所生产的,在数据清洗过程中,需要注意清除一些由其他AI生成的内容。一旦互联网上AI生成的内容越多,越能以假乱真,那么数据筛选的难度将越大。并且在大模型出现“幻觉”以及AI如何产生“智能涌现”这两个问题没有得到彻底解决之前,我想我们都无法做到彻底信赖AI生成的内容。

毕竟一旦AI生成了错误的内容,而另一个AI拿着这个内容去训练,然后再另一个AI拿到新的错误内容......这样“滚雪球”下去,AI最终会生成什么样的逆天垃圾,我们真的无法想象。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Gemini
    +关注

    关注

    0

    文章

    87

    浏览量

    8201
  • AI
    AI
    +关注

    关注

    91

    文章

    42239

    浏览量

    303274
  • 文心一言
    +关注

    关注

    0

    文章

    134

    浏览量

    2254
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    完结9章 AI训练师 入门与实战 教程资料2026

    AI 分布式存储:我觉得这才是大模型真正的地基,但没人愿意聊 所有人都在聊大模型怎么训练、怎么微调、怎么部署,但很少有人聊个更基础的问题:数据怎么存、怎么读、怎么在几
    发表于 05-28 18:23

    百度智能云正式发布Hogee

    5月13日,在Create2026百度AI开发者大会上,百度智能云正式发布了款全新的企业站式AI
    的头像 发表于 05-15 09:18 878次阅读

    利尔达作为“数据通道与硬件方案”核心伙伴亮相2026百度AI开发者大会

    5月13日,以“自我进化”为主题的Create2026百度AI开发者大会在北京国家会议中心二期盛大开幕。百度创始人李彦宏在开幕式上首次提出AI时代的“度量衡”——日活智能体数(DAA)
    的头像 发表于 05-14 17:36 332次阅读
    利尔达作为“<b class='flag-5'>数据</b>通道与硬件方案”核心伙伴亮相2026<b class='flag-5'>百度</b><b class='flag-5'>AI</b>开发者大会

    百度大模型5.1正式发布

    代基础大模型大模型 5.1正式发布! 5.1采用“多维弹性预训练”技术,仅以业界同规
    的头像 发表于 05-11 14:21 376次阅读
    <b class='flag-5'>百度</b><b class='flag-5'>文</b><b class='flag-5'>心</b>大模型5.1正式发布

    百度发布5.1:预训练成本降至行业6%

    5月9日,百度正式发布新代基础大模型5.1。该模型基于百度自研的"多维弹性预训练"技术,在
    的头像 发表于 05-09 11:05 674次阅读

    瀚博半导体宣布深度参与百度飞桨黑客松生态活动

    近日,瀚博半导体正式宣布深度参与百度飞桨主办的黑客松生态活动。面向全球开发者开放旗下载天系列加速卡开发环境,支持部署百度ERNIE-4.5 系列开源模型与PP-OCRv4 文档理解
    的头像 发表于 04-11 09:41 829次阅读

    百度衍生模型PaddleOCR登顶GitHub Star OCR全球第

    3月30日,百度衍生模型PaddleOCR在GitHub上的Star数突破73.3K,超越谷歌Tesseract OCR,成为全球Star数最高的OCR项目。
    的头像 发表于 03-31 11:40 593次阅读

    Gemini CLI 中转站配置使用教程

    Gemini CLI 中文使用指南 基本介绍 Gemini CLI 是谷歌提供的开源命令行 AI 工具,将 Gemini 的强大功能直接带入
    发表于 02-10 17:29

    百度大模型5.0正式版上线

    今天,在百度Moment大会现场,大模型5.0正式版上线。
    的头像 发表于 01-23 16:48 1618次阅读

    百度健康升级发布健康管家

    面临医疗资源分布不均、就诊流程繁琐、就医信息不均等难题,“想让每个家庭都拥有专属医生”成为百度健康的愿景。
    的头像 发表于 12-23 15:01 1020次阅读

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI

    年,持续为行业搭建起交流前沿技术、碰撞创新思维、洞察未来趋势的重要平台。 今日(11月13日)Baidu World 2025在北京举办。在这里,可以体验AI应用的价值涌现,见证AI能力的创新爆发。 今年的百度世界2025以“效
    的头像 发表于 11-13 15:47 2075次阅读

    百度智能云发布全球首批AI数字员工

    没错,在今天的百度AI Day开放日现场,这么溜的同事们正式上岗!
    的头像 发表于 08-12 09:47 1988次阅读

    中兴努比亚启动接入百度4.5系列开源大模型

    近日,中兴努比亚启动接入4.5系列开源大模型,为星云智能提供新引擎,共同推动人工智能在AI手机的创新应用,加速AI技术落地,进步提升用
    的头像 发表于 07-15 09:35 1263次阅读

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐下?

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐下?直接发个安装包,谢谢。比如deepseek、Chatgpt、豆包、阿里AI百度
    发表于 07-09 18:30

    宁畅与与百度大模型展开深度技术合作

    近日,百度正式开源大模型4.5系列模型。作为开源合作伙伴,宁畅在模型开源首日即实现即刻部署,做到“开源即接入、发布即可用”。据悉,
    的头像 发表于 07-07 16:26 1111次阅读