0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌开发出超过一万亿参数的语言模型,秒杀GPT-3

人工智能与大数据技术 来源:新智元 作者:新智元 2021-01-27 16:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

继GPT-3问世仅仅不到一年的时间,Google重磅推出Switch Transformer,直接将参数量从GPT-3的1750亿拉高到1.6万亿,并比之前最大的、由google开发的语言模型T5-XXL足足快了4倍。

对于机器学习来说,参数可以算得上算法的关键:他们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。

一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。

迄今为止,OpenAI 的 GPT-3是有史以来最大的语言模型之一,有1750亿个参数。

现在,距离GPT-3问世不到一年的时间,更大更复杂的语言模型又来了——

在对这种相关性进行最全面测试的基础上,谷歌的研究人员开发了一种能够训练包含超过一万亿参数的语言模型:Switch Transformer,并进行了基准测试。

他们表示,1.6万亿参数模型是迄今为止最大的,并比之前最大的、由google开发的语言模型T5-XXL足足快了4倍。

5d825108-6001-11eb-8b86-12bb97331649.png

图:Switch 模型设计和预训练表现

研究人员在论文中表示,对于强大模型来说,进行大规模训练是一个非常有效的途径。

尽管在大数据集和参数支撑下的简单的架构可以超越一些复杂的算法,然而,高效且大规模的训练却属于极度的计算密集型。

5db674a6-6001-11eb-8b86-12bb97331649.png

而这,也正是Google的研究者发明Switch Transformer的原因。

5e0e1de6-6001-11eb-8b86-12bb97331649.png

图:Switch Transformer编码块

Switch Transformer使用了一种叫做稀疏激活(sparsely activated)的技术,这个技术只使用了模型权重的子集,或者是转换模型内输入数据的参数,即可达成相同的效果。

此外,Switch Transformer还主要建立在混合专家(Mix of Expert)的基础上。

5e4d3a44-6001-11eb-8b86-12bb97331649.png

图:Token动态路由示例

什么是“混合专家”呢?

混合专家(Mix of Expert,MoE)是90年代初首次提出的人工智能模型范式。

在MoE中,对于不同的输入,会选择不同的参数。多个专家(或者专门从事不同任务的模型)被保留在一个更大的模型中,针对任何给定的数据,由一个“门控网络”来选择咨询哪些专家。

其结果是一个稀疏激活的模型——具有数量惊人的参数,但计算成本不变。然而,尽管MoE取得了一些显著的成功,但其广泛采用仍然受到复杂性、通信成本和训练不稳定性的阻碍。而Switch Transformer则解决了这些问题。

Switch Transformer的新颖之处,在于它有效地利用了为密集矩阵乘法(广泛应用于语言模型的数学运算)设计的硬件,如GPU和谷歌的TPU。

5e91fe36-6001-11eb-8b86-12bb97331649.png

图:数据和权重划分策略

在研究人员的分布式训练设置中,他们的模型将不同的权重分配到不同的设备上,因此,虽然权重会随着设备数量的增加而增加,但是每个设备却可以保持可管理的内存和计算足迹。

在一项实验中,研究人员使用了32个TPU核,在“Colossal Clean Crawled Corpus”,也就是 C4 数据集上,预先训练了几种不同的Switch Transformer模型。

C4是一个750gb大小的数据集,包含从Reddit、Wikipedia和其他web资源上获取的文本。

研究人员让这些Switch Transformer模型去预测有15%的单词被掩盖的段落中遗漏的单词,除此之外,还为模型布置了许多其他挑战,如检索文本来回答一系列越来越难的问题等等。

研究人员声称,和包含3950亿个参数和64名专家的更小的模型(Switch-XXL)相比,他们发明的拥有2,048名专家的1.6万亿参数模型(Switch-C)则“完全没有训练不稳定性”。

然而,在SQuAD的基准测试上,Switch-C的得分却更低(87.7),而Switch-XXL的得分为89.6。

对此,研究人员将此归因于微调质量、计算要求和参数数量之间的不明确关系。

在这种情况下,Switch Transformer还是在许多下游任务上的效果有了提升。例如,根据研究人员的说法,在使用相同数量的计算资源的情况下,它可以使预训练的速度提高了7倍以上。

5f28a390-6001-11eb-8b86-12bb97331649.png

图:所有模型均在32个TPU上进行训练

同时研究人员证明,大型稀疏模型可以用来创建更小、更稠密的模型,这些模型可以对任务进行微调,其质量增益只有大型模型的30% 。

在一个测试中,一个 Switch Transformer 模型被训练在100多种不同的语言之间进行翻译,研究人员观察到其中101种语言都得到了“普遍的改善”,91% 的语言受益于超过baseline模型4倍以上的速度。

5f8a406e-6001-11eb-8b86-12bb97331649.png

图:101种语言的多语言预训练

研究人员在论文中写道: “虽然这项工作主要集中在超大型模型上,但我们也发现,只有两个专家的模型能够提高性能,同时很容易适应常用 GPU 或 TPU 的内存约束。”

“我们不能完全保证模型的质量,但是通过将稀疏模型蒸馏成稠密模型,同时达到专家模型质量增益的30%的情况下 ,是可以达到10到100倍压缩率的。”

在未来的工作中,研究人员计划将Switch Transformer应用到新的和跨越不同的模态中去,包括图像和文本。他们认为,模型稀疏性可以赋予各种不同媒介以及多模态模型一些优势。

在论文的最后,Google的研究人员还表示:

总的来说,Switch Transformers是一个可扩展的,高效的自然语言学习模型。

通过简化MoE,得到了一个易于理解、易于训练的体系结构,该结构还比同等大小的密集模型具有更大的采样效率。

这些模型在一系列不同的自然语言任务和不同的训练机制中,包括预训练、微调和多任务训练,都表现出色。

这些进步使得使用数千亿到万亿参数训练模型成为可能,相对于密集的T5基准,这些模型可以实现显著的加速。

谷歌的研究人员表示,希望他们的工作能够激励稀疏模型成为一种有效的架构,并鼓励研究人员和实践者在自然语言任务中考虑这些灵活的模型。

原文标题:1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍

文章出处:【微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6246

    浏览量

    110275
  • 人工智能
    +关注

    关注

    1813

    文章

    49755

    浏览量

    261666
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719

原文标题:1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的GPT-5.1大
    的头像 发表于 11-13 15:49 559次阅读

    3万字长文!深度解析大语言模型LLM原理

    继续追本溯源,与腾讯学堂合作撰写本文,尝试让人人都能懂大语言模型的基础原理。1、大语言模型简述截止到2025年“大模型”一般泛指“超大
    的头像 发表于 09-02 13:34 3099次阅读
    <b class='flag-5'>3</b>万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>LLM原理

    谷歌AI模型点亮开发无限可能

    在 2025 年的 Google 谷歌开发者大会上,AI 不是一门“技术”,更是一股彻底改变开发范式的“力量”,助力开发者们在海外市场更上一层楼。AI 已经不仅仅是生成几行代码,它正在
    的头像 发表于 08-29 09:29 878次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    Token (TPS)。 这两个 gpt-oss 模型是具有链式思维和工具调用能力的文本推理大语言模型 (LLM),采用了广受欢迎的混合专家模型
    的头像 发表于 08-15 20:34 1972次阅读
    NVIDIA从云到边缘加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,实现150万TPS推理

    面向万亿参数模型,“超节点”涌现

    C UniPoD系列超节点产品,旨在为万亿参数模型的训练与推理提供更强劲、更智能且更绿色的算力支持。   H3C UniPoD系列超节点产品基于领先的Scale-up南向互联技术,
    的头像 发表于 08-03 02:37 8377次阅读
    面向<b class='flag-5'>万亿</b>级<b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>,“超节点”涌现

    万亿参数!元脑企智一体机率先支持Kimi K2大模型

    应用大模型提供高处理性能和完善的软件工具平台支持。   Kimi K2是月之暗面推出的开源万亿参数模型,创新使用了MuonClip优化器进行训练,大幅提升了
    的头像 发表于 07-22 09:27 408次阅读
    <b class='flag-5'>万亿</b><b class='flag-5'>参数</b>!元脑企智一体机率先支持Kimi K2大<b class='flag-5'>模型</b>

    ​VLM(视觉语言模型)​详细解析

    的详细解析: 1. 核心组成与工作原理 视觉编码器 :提取图像特征,常用CNN(如ResNet)或视觉Transformer(ViT)。 语言模型 :处理文本输入/输出,如GPT、BERT等,部分
    的头像 发表于 03-17 15:32 7633次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    语言模型的解码策略与关键优化总结

    的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。大型语言模型的技术基础大型语言模型是当代
    的头像 发表于 02-18 12:00 1077次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的解码策略与关键优化总结

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    在 AI 技术日新月异的当下,新的模型与突破不断涌现。近期,DeepSeek(深度求索)模型以其卓越性能和亲民成本,迅速在全球开发者圈子里引发热议。作为一款强大的语言
    发表于 02-14 17:42

    OpenAI即将推出GPT-5模型

    先进技术,其中包括备受瞩目的o3工具。通过整合这些技术,GPT-5模型将实现更加强大的功能和性能。 值得一提的是,GPT-5模型将被广泛应用
    的头像 发表于 02-13 11:21 918次阅读

    OpenAI:GPT-4o及4o-mini模型性能下降,正展开调查

    ,并承诺将尽快发布最新的调查结果和解决方案。这一事件不仅对OpenAI自身的技术声誉产生了影响,也引发了业界对于大型语言模型稳定性和可靠性的担忧。 GPT-4o及4o-mini作为OpenAI推出的先进
    的头像 发表于 01-21 10:34 945次阅读

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 576次阅读

    ADS54J60不能输出超过450M的信号吗?

    这张图没有看懂,ADS54J60不能输出超过450M的信号吗?
    发表于 01-01 08:19

    OpenAI GPT-5开发滞后:训练成本高昂

    近日,据最新消息,OpenAI在推进其备受期待的下一代旗舰模型GPT-5的开发进程上遇到了困难。由于计算成本高昂且高质量训练数据稀缺,GPT-5的
    的头像 发表于 12-23 11:04 1437次阅读

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述AI大
    的头像 发表于 12-19 11:29 1226次阅读