0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Gemini自曝用文心一言训练,字节被OpenAI封号,大模型互薅羊毛是常态?

Felix分析 来源:电子发烧友网 作者:吴子鹏 2023-12-20 09:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/吴子鹏)近两天,原本就火热的人工智能大模型再度被浇上了一桶油,话题热度更胜从前。不过,这一次大家探讨的并不是大模型前景和算力这些,而是大模型之间互薅羊毛的问题。根据微博知名博主@阑夕爆料,对谷歌Gemini进行测试时,如果用中文询问Gemini的身份,其回答竟然是百度文心一言。


更让人大跌眼镜的是,测试人员可以使用“小爱同学”“小度”等提示词唤醒Gemini。并且,Gemini还能够告诉测试人员,自己是如何获取到百度的训练数据的。

wKgaomWCPZSARWi_AAqz1hoQeXg429.png
网传对话场景

wKgZomWCPZyAdfAvAAdFcaCzsrM909.png
网传对话场景


不过,此则消息应该是很快就引起了谷歌技术人员的关注,在消息曝光不久后,Gemini应对上述提示词和问题的方式就发生了改变。通过“小爱同学”“小度”等提示词无法再唤醒Gemini,且对于相关问题的阐述也发生了变化,显然谷歌技术人员很快修复了一些bug。

谷歌Gemini饱受质疑

当地时间12月6日,谷歌宣布推出“最大、最强、最通用”的新大型语言模型Gemini,我们对此也进行了专门的报道。在发布会上谷歌声称,在32项广泛使用的基准测试中,Gemini Ultra获得了30个SOTA(State of the art,特指领先水平的大模型)。这也就意味着,Gemini 1.0版本在文本、代码、音频、图像和视频处理能力方面,以及推理、数学、代码等方面都吊打GPT-4。

同时,在发布会上谷歌还展示了Gemini相关的能力。比如,Gemini可以非常高效地从数十万份文件中获取对科学家有用的数据,并创建数据集;Gemini可以在世界上最受欢迎的编程语言(如PythonJavaC++和Go)中理解、解释和生成高质量的代码。

不过,谷歌是通过视频展示的Gemini的相关能力,而不是通过现场实操。于是乎,就在谷歌发布会的次日,有视频制作人员质疑称,谷歌的演示视频并不是实录,而是剪辑的。随后,谷歌在博客文章中解释了多模态交互过程,并提到了视频演示中的猜拳,谷歌承认,不同于视频中对于猜拳手势的快速反应,只有在向Gemini同时展示这三个手势并提示其这是游戏时,Gemini才会得出猜拳游戏的结论。

wKgaomWCPayAPXQiAAQ_VvMV5QM780.png
图源:谷歌博文


因此,现在很多人都认为谷歌夸大了Gemini的能力,只有使用静态图片和多段提示词拼凑,Gemini才能够显示出多模态的能力,这和谷歌宣称的实时多模态反应明显是不相符的。

大模型之间互薅羊毛

除了性能质疑之外,此次事件则揭露了大模型发展另一个规则——互薅羊毛。实际上,在Gemini自曝是百度文心一言之前,国内字节跳动就发生了相关问题。

近日,有外媒报道称,字节跳动在使用OpenAI技术开发自己的大语言模型,违反了OpenAI服务条款,导致账户被暂停。对此,字节跳动相关负责人向记者回应称:今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。4月公司引入GPT API调用规范检查后,这种做法已经停止。字节跳动称,后续会严格遵守OpenAI的使用协议。

从Gemini调整之后的回复来看,其在训练过程中确实使用了百度文心一言的训练数据,这其实也无可厚非。百度文心一言在中文理解及相关的多模态生成能力方面确实处于领先的位置,那么背后的原因定然是因为百度掌握着质量相对更好的中文训练数据集,因此其他大模型如果想要在中文对话方面取得进展,使用文心一言的训练数据确实是最高效的方式。

另外,除了字节跳动,此前谷歌也被质疑使用OpenAI数据来训练Bard,最终谷歌的回应是Bard没有使用ShareGPT或是ChatGPT的任何数据来进行训练。另外,国内也有很多公司被质疑是采用OpenAI数据来完善自己的大模型。不过,这种行为大都见不得光,因此都被否认了。

为什么其他大模型频传借用OpenAI数据来训练呢,重要原因在于GPT-4性能领先一个重要的原因就是数据集质量更高。根据semianalysis发布的《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》文章,GPT-4是一个使用1.8万亿巨量参数训练的模型框架,而GPT-3只有约1750亿个参数,另外GPT-4拥有16个专家模型,每个MLP专家大约有1110亿个参数。这就是为什么在展示Gemini Ultra的MMLU训练时,谷歌将“CoT@32”进行小字注释,代表Gemini Ultra的MMLU测试使用了思维链提示技巧,尝试了32次并从中选择最好结果。与之对比,GPT-4无提示词技巧给5个示例。就这样,GPT-4的成绩为86.4%,依然高于Gemini Ultra的83.7%。

另外,OpenAI用13万亿的token训出了GPT-4。因为没有高质量的token,这个数据集还包含了许多个epoch。

综上所述,虽然GPT-4的训练数据规模没有官方说明,但是semianalysis文章可信度很高,这个规模比Gemini Ultra宣称的万亿似乎更强,也不怪大家都想用GPT调优自己的模型。

当然,每一个模型都有自己擅长的地方,尤其是那些垂直的行业模型,在行业数据方面肯定是优于一般多模态大模型的,因此被薅羊毛的概率也很大,但是这大都不会被公开。

大模型数据集背后的产业链

为了让GPT-4具有领先的性能,OpenAI的研发团队在模型优化、数据选择和硬件投入等方面做了大量工作。相信谷歌的Gemini Ultra和百度文心一言等大模型也是如此。对于大模型来说,预训练数据集是一个非常关键的元素,很大程度上决定了大模型最终的性能水平。

在这个大背景下,随着大模型产业发展,训练数据也逐渐成为一种产业。比如国内的云测数据,云测创立于2011年,是一家以人工智能技术驱动的企业服务平台,为全球超过百万的企业及开发者提供云测试服务、AI训练数据服务、安全服务。该公司的云测数据入选“北京市人工智能行业赋能典型案例(2023)”,在垂直大模型训练数据服务方面很有造诣。

再比如,海天瑞声作为国内领先基础数据服务商,是国内首家且是目前唯一一家A股上市的人工智能训练数据服务企业,为阿里巴巴、Meta、腾讯、百度、字节跳动等公司提供数据服务。

北京邮电大学科学技术研究院副院长曾雪云教授此前在受访时表示,“互联网上生成的这些数据,它是非结构化的数据,也是非标准化的数据。这样的数据就是一种原始的、比较杂乱的、没有规范的数据,它就需要在计算前进行颗粒度上的清洗,所以高质量数据通常都有从非结构化到结构化这样的一个加工过程。”

“现在从对数据科学的研究、国家对数据的治理,到学术界对数据的研究、产业界对数据的利用都是一个蓝海,都是一个刚开始的状态。”曾雪云教授提到。

当然不仅国内关注到这一块的产业价值,作为头部企业,OpenAI希望与机构合作建立新的人工智能训练数据集。OpenAI为此创立了“数据伙伴关系”(Data Partnerships)计划,该计划旨在与第三方机构合作,建立用于人工智能模型训练的公共和私有数据集。OpenAI 在一篇博文中表示,数据合作伙伴关系旨在“让更多组织能够帮助引导人工智能的未来”,并“从更有用的模型中获益”。

结语

人工智能大模型其实是大数据时代的典型产物,那么也就无法脱离对大数据的依赖。大模型的火爆让高质量训练数据成为高价值、紧俏的资源,而这些数据往往掌握在头部企业手里,这就是为什么大模型企业之间互相会薅羊毛。不过,相较于互联网海量的数据,目前科技巨头的训练数据集还只是九牛一毛,如何从海量互联网数据提取有价值的训练数据集,已经逐渐成为一个产业链。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6257

    浏览量

    111941
  • 字节跳动
    +关注

    关注

    0

    文章

    352

    浏览量

    10124
  • OpenAI
    +关注

    关注

    9

    文章

    1248

    浏览量

    10263
  • 文心一言
    +关注

    关注

    0

    文章

    134

    浏览量

    2221
  • 大模型
    +关注

    关注

    2

    文章

    3747

    浏览量

    5268
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌AI霸主归来!多线反击OpenAI,开启安卓Gemini时代

    电子发烧友网报道(/莫婷婷)北京时间5月21日,谷歌2025 Google I/O开发者大会正式召开,从其发布的新品来看,这可以说是场AI盛会。 在AI大模型方面,发布了
    的头像 发表于 05-22 09:01 6778次阅读
    <b class='flag-5'>谷歌</b>AI霸主归来!多线反击<b class='flag-5'>OpenAI</b>,开启安卓<b class='flag-5'>Gemini</b>时代

    百度衍生模型PaddleOCR登顶GitHub Star OCR全球第

    3月30日,百度衍生模型PaddleOCR在GitHub上的Star数突破73.3K,超越谷歌Tesseract OCR,成为全球Star数最高的OCR项目。
    的头像 发表于 03-31 11:40 413次阅读

    晶晨携手谷歌,助力端侧大模型Gemini的硬件落地

    电子发烧友网报道 在科技飞速发展的当下,端侧智能技术正以前所未有的速度渗透到各个领域。1月28日,晶晨股份透露,公司与谷歌有着长达十余年的深度合作基础。作为谷歌代端侧AI硬件(整合Gemi
    的头像 发表于 01-29 10:44 2359次阅读

    百度模型5.0正式版上线

    今天,在百度Moment大会现场,模型5.0正式版上线。
    的头像 发表于 01-23 16:48 1451次阅读

    谷歌正式推出Gemini 3 Flash模型

    我们正式推出了 Gemini 3 Flash,这是以较低成本打造的高效前沿智能,成功地进步扩展了 Gemini 3 模型系列。
    的头像 发表于 01-22 16:04 698次阅读

    每年10亿美元,苹果与谷歌官宣合作,Gemini模型注入Siri

    该协议,下代苹果基础模型(Apple Foundation Models)将基于谷歌Gemini模型和云技术。   苹果:借
    的头像 发表于 01-13 14:59 5838次阅读

    谷歌正式推出最新Gemini 3 AI模型

    今天我们正式推出 Gemini 3,这是我们迄今为止最智能的模型,能够帮助用户实现任何创意。Gemini 3 Pro 基于最先进的推理技术,与之前的版本相比,它在所有主要的 AI 基准测试中都取得了无与伦比的结果,尤其是在编程方
    的头像 发表于 11-24 11:10 1405次阅读
    <b class='flag-5'>谷歌</b>正式推出最新<b class='flag-5'>Gemini</b> 3 AI<b class='flag-5'>模型</b>

    谷歌Gemini 3模型开启智能新纪元

    大约两年前,我们开启了 Gemini 时代,这是公司迄今为止投入最大的科研和产品项目之那时起,看到大家对它的喜爱程度,着实令人惊叹。现在,每月有 20 亿用户使用 AI 概览 (AI
    的头像 发表于 11-24 11:07 971次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b> 3<b class='flag-5'>模型</b>开启智能新纪元

    宁畅与与百度模型展开深度技术合作

    与部署。 凭借覆盖训练、推理、微调全流程的AI 服务器产品矩阵,宁畅帮助企业在大模型时代键打通算力与应用“任督二脉”,显著缩短模型落地周期。 在已启动的深度技术合作中,双方将基于
    的头像 发表于 07-07 16:26 992次阅读

    黑芝麻智能与模型技术合作升级

    近日,模型正式开源,黑芝麻智能即日起快速启动与模型技术合作。
    的头像 发表于 07-04 17:24 1516次阅读
    黑芝麻智能与<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>技术合作升级

    龙芯中科与心系列模型开展深度技术合作

    ”解决方案。 强强联合!自主架构赋能大模型训练 模型
    的头像 发表于 07-02 16:53 1463次阅读

    兆芯率先展开心系列模型深度技术合作

    6月30日,百度正式开源模型4.5系列等10款模型,并实现预训练权重和推理代码的完全开源,兆芯率先与
    的头像 发表于 07-01 10:49 1065次阅读

    “天才”!OpenAI o3 成全球 IQ 最高的 AI 大模型

    的人工智能模型均为纯文本模型,新代的 Gemini 2.5 Pro、OpenAI o4 mini、马斯克旗下 xAI 的 Grok-3 T
    的头像 发表于 06-15 01:56 6229次阅读
    “天才”!<b class='flag-5'>OpenAI</b> o3 成全球 IQ 最高的 AI 大<b class='flag-5'>模型</b>

    谷歌Gemini 2.5模型系列更新

    今年 3 月,我们发布了迄今为止最智能的模型 Gemini 2.5 Pro,两周前,我们提前为您带来了 I/O 更新,以便开发者构建出色的网络应用。
    的头像 发表于 05-23 14:56 1336次阅读

    如何赋能医疗AI大模型应用?

    引言ChatGPT掀起热潮以来,众多AI大模型如雨后春笋般涌现,其中包括百度科技的一言、科大讯飞的讯飞星火、华为的盘古AI大
    的头像 发表于 05-07 09:36 789次阅读
    如何赋能医疗AI大<b class='flag-5'>模型</b>应用?