0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI圈巨震!微软论文声称ChatGPT是20B(200亿)参数量的模型?

CVer 来源:新智元 2023-11-01 16:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】微软最近一篇论文爆料,GPT-3.5的参数量只有20B,远远小于之前GPT-3公布175B。网友表示,ChatGPT能力似乎「配得上」这个体量?

GPT-3.5只有200亿参数?

今天,大模型圈都被微软论文中的一纸截图刷爆了,究竟是怎么回事?

就在前几天,微软发表了篇论文并挂在了arXiv上,该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusion。

性能方面,7500万参数的CodeFusion在top-1准确率指标上,可以与最先进的350M-175B模型相媲美。

fc683000-785c-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/abs/2310.17680

这篇论文的工作很有意义,但引起大家格外注意的却是——

作者在对比ChatGPT(gpt-3.5-turbo)时,标称的参数量竟然只有20B!

fc77aca6-785c-11ee-939d-92fbcf53809c.png

在此之前,大家针对GPT-3.5参数量的猜测都是1750亿,这相当于是缩减了差不多十倍!

fc8a2fac-785c-11ee-939d-92fbcf53809c.png

根据这篇论文的爆料,网友还去维基百科上更新了GPT-3.5的介绍,直接把参数大小改成了20B。

消息一出,直接登上知乎热搜,网友们都炸了。

fca5c104-785c-11ee-939d-92fbcf53809c.png

有人表示,赶紧回头再把我之前模型蒸馏的博文拿出来复习复习 。

fcb0865c-785c-11ee-939d-92fbcf53809c.png

是「乌龙」还是「事实」?

网友的爆料贴一出,瞬间就引发了激烈的讨论。

目前,已经有超过68万人前来围观。

fcbf4048-785c-11ee-939d-92fbcf53809c.png

这位老哥表示,论文的几位作者也都在用推特,估计过不了多久就会亲自下场解释。

fcca9e5c-785c-11ee-939d-92fbcf53809c.png

而对于这个神秘的「20B」,网友们也是众说纷纭。

fcdd2298-785c-11ee-939d-92fbcf53809c.png

有人猜测,这很可能是作者手误打错了。比如原本是120B,或者200B。

fceadfd2-785c-11ee-939d-92fbcf53809c.png

结合现实中的各项评测来看,确实有很多小模型能够取得和ChatGPT差不多的成绩,比如Mistral-7B。

fcf5aa3e-785c-11ee-939d-92fbcf53809c.png

也许,这也是侧面证实了GPT-3.5体量真的不大。

fcffd162-785c-11ee-939d-92fbcf53809c.png

很多网友也认为20B的参数可能是准确的,纷纷发出感叹:

「这也太难以想象了!Falcon-180B和Llama2-70B,竟然都无法击败这款20B的模型。」

fd15eb00-785c-11ee-939d-92fbcf53809c.png

也有网友认为,gpt-3.5-turbo是精炼版的gpt-3.5。

而这次参数的「泄露」,正好从侧面印证了那些关于gpt-3.5-turbo表现不如旧版gpt-3.5的传言。

fd20504a-785c-11ee-939d-92fbcf53809c.png

不过,根据OpenAI的官方文档,除了已经不再使用的text-davinci和code-davinci,GPT-3.5家族全员都是基于gpt-3.5-turbo构成的。

fd2a28fe-785c-11ee-939d-92fbcf53809c.png

fd3462c4-785c-11ee-939d-92fbcf53809c.png

fd473494-785c-11ee-939d-92fbcf53809c.png

微软发布CodeFusion

而爆出GPT3.5只有20B参数的微软论文,是想介绍一个用于代码生成的扩散模型。

研究人员针对Bash、Python和Microsoft Excel条件格式(CF)规则的自然语言生成代码的任务来评估这个模型——CodeFusion。

实验表明,CodeFusion(只有75M参数)在top-1精度方面与最先进的LLM(350M-175B参数)相当,并且在top-3和top-5精度方面性能和参数比非常优秀。

fd52e794-785c-11ee-939d-92fbcf53809c.png

模型架构CODEFUSION用于代码生成任务,它的训练分为两个阶段,第一阶段是无监督预训练,第二阶段是有监督微调。

fd5d9748-785c-11ee-939d-92fbcf53809c.png

在第一阶段,CODEFUSION使用未标记的代码片段来训练降噪器和解码器。它还使用可训练的嵌入层L,将代码片段嵌入到连续空间中。

在第二阶段,CODEFUSION进行有监督的微调,使用来自文本-代码对数据。在这个阶段,编码器、降噪器和解码器都会得到调整,以更好地执行任务。

此外,CODEFUSION还借鉴了之前有关文本扩散的研究成果,将来自解码器的隐藏表示D融合到模型中。这是为了改进模型的性能。在训练过程中,在不同step中,模型引入一些噪声,然后计算损失函数,以确保生成的代码片段更符合预期的标准。

总之,CODEFUSION是一个执行代码生成工作的小模型,通过两个阶段的训练和噪声引入来不断提升其性能。这个模型的灵感来自于文本扩散的研究,并通过融合解码器的隐藏表示来改进损失函数,以更好地生成高质量的代码片段。

评估结果

下表总结了CODEFUSION模型与各个基线模型在top-1、top-3和top-5设置下的性能表现。

在top-1中,CODEFUSION的性能与自回归模型相媲美,甚至在某些情况下表现更出色,尤其是在Python任务中,只有GPT-3(175B)的性能稍微优于CODEFUSION(75M)。然而,在top-3和top-5方面,CODEFUSION明显优于所有基线模型。

fd7e7cec-785c-11ee-939d-92fbcf53809c.png

表下表展示了CODEFUSION和自回归模型(包括T5、CodeT5、StarCoder、CodeGen、GPT-3)在各项基准任务上的平均多样性结果,考察了每个模型的前5代生成结果。

相对于自回归模型,CODEFUSION生成更加多样化的结果,表现更出色。

fd897d68-785c-11ee-939d-92fbcf53809c.png

在消融实验中,作者停止了去噪过程,并生成了在时间步t∈[0, T]范围内的当前状态的代码片段。利用归一化字符串编辑距离来衡量每个时间步长(每100步为一个增量)所获得的结果。

这一方法有助于总结和展示CODEFUSION模型的逐步进展,如下图所示。

fd96984a-785c-11ee-939d-92fbcf53809c.png

说了这么多,GPT-3.5的参数量到底是多少?GPT-4与GPT-3.5在技术和其他方面有着什么样的联系?

GPT-3.5是一个个小专家模型的集成还是一个通才模型?是通过更大模型的蒸馏还是更大数据训练?

这些问题的答案只能等到真正开源的时候才能揭晓了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38310

    浏览量

    297410
  • 模型
    +关注

    关注

    1

    文章

    3656

    浏览量

    51757
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10097

原文标题:AI圈巨震!微软论文声称ChatGPT是20B(200亿)参数量的模型?

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    太强了!AI PC搭载70B模型,算力狂飙,内存开挂

    了1.5B/7B/8B/14B/32B/70B/671B
    的头像 发表于 03-24 08:52 3042次阅读
    太强了!<b class='flag-5'>AI</b> PC搭载70<b class='flag-5'>B</b>大<b class='flag-5'>模型</b>,算力狂飙,内存开挂

    【 HD200I A2(20T)】基于昇腾 310B 的智能计算模组

    HD200IA2(20T)是一款基于华为昇腾 310B 的高性能 AI 智能计 算模组。该模组将华为的昇腾 310B 芯片集成在了一个 82
    的头像 发表于 11-17 14:54 404次阅读
    【 HD<b class='flag-5'>200</b>I A2(<b class='flag-5'>20</b>T)】基于昇腾 310<b class='flag-5'>B</b> 的智能计算模组

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、现阶段更智能、更接近AGI的6中算法与模型 1、MoE模型 MoE模型作为Transfomer模型的后继者,代表着AI技术的一项重大创新和
    发表于 09-18 15:31

    英特尔可变显存技术让32GB内存笔记本流畅运行Qwen 30B模型

    近日,阿里通义千问发布了两款新版本30B(300亿参数)MoE大模型——Qwen3-30B-A3B-Instruct-2507 和 Qwen
    的头像 发表于 08-14 15:39 1082次阅读

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?直接发个安装包,谢谢。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    发表于 07-09 18:30

    华为宣布开源盘古7B稠密和72B混合专家模型

    电子发烧友网综合报道 2025年6月30日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家
    的头像 发表于 07-06 05:51 7114次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家
    的头像 发表于 06-30 11:19 1140次阅读

    华为助力中国石油发布3000亿参数昆仑大模型

    昆仑大模型完成备案,成为中国能源化工行业首个通过备案的大模型,到2024年11月发布700亿参数昆仑大模型建设成果,中国石油始终紧紧围绕行业
    的头像 发表于 05-29 09:19 919次阅读
    华为助力中国石油发布3000<b class='flag-5'>亿</b><b class='flag-5'>参数</b>昆仑大<b class='flag-5'>模型</b>

    如何赋能医疗AI模型应用?

    引言自ChatGPT掀起热潮以来,众多AI模型如雨后春笋般涌现,其中包括百度科技的文心一言、科大讯飞的讯飞星火、华为的盘古AI模型、腾讯
    的头像 发表于 05-07 09:36 542次阅读
    如何赋能医疗<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>应用?

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    。 端侧AI应用开发往往需要调用各种各样的大模型能力,需要更丰富、类型更多的模型适配。为此,Gen-AI Model Hub全面扩容,模型
    发表于 04-13 19:52

    智能语音交互的突破与应用,启明云端AI模型方案应用

    根据Statista的预测,到2025年,全球人工智能市场规模有望突破6400亿美元,年复合增长率高达30.8%。其中,AI模型作为核心驱动力,正重塑各个行业的发展格局。从ChatGPT
    的头像 发表于 03-10 18:11 1287次阅读
    智能语音交互的突破与应用,启明云端<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>方案应用

    DeepSeek发表重磅论文!推出NSA技术,让AI模型降本增效

    这是自1月20日DeepSeek发布R1模型震撼AI以来,DeepSeek首次发布的技术动态。
    的头像 发表于 02-19 10:22 2153次阅读
    DeepSeek发表重磅<b class='flag-5'>论文</b>!推出NSA技术,让<b class='flag-5'>AI</b><b class='flag-5'>模型</b>降本增效

    微软计划2025财年投资800亿美元建设AI数据中心,呼吁避免过度监管

    微软在其官方网站上发表的博客文章中透露,该公司计划在2025财年斥资约800亿美元,专门用于人工智能数据中心的开发。这笔巨额投资旨在强化微软的人工智能基础设施,并推动基于云的应用程序以及AI
    的头像 发表于 01-07 15:55 1134次阅读

    微软寻求365 Copilot多元化AI模型

    此举旨在应对企业用户对于成本和速度的担忧。目前,Microsoft 365 Copilot主要依赖于OpenAI的技术,但微软正寻求通过引入更多元化的AI模型来降低这种单一依赖的风险。 微软
    的头像 发表于 12-26 10:25 721次阅读