0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌训练开发一个万亿参数的AI语言模型

lhl545545 来源:比特网 作者:Yu 2021-01-18 16:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般来说,在语言领域,参数的数量和复杂性之间的相关性非常好。例如,OpenAI的GPT-3是有史以来训练了1750亿个参数的最大语言模型之一,它可以进行原始类比、生成配方,甚至完成基本代码。

近日,谷歌的研究人员开发了一种技术,并对其进行基准测试,他们声称这种技术能够训练包含超过一万亿参数的语言模型。他们表示,他们的1.6万亿参数模型是迄今为止最大的,比之前最大的谷歌开发的语言模型(T5-XXL)快了4倍。

研究人员指出,大规模训练是建立强大模型的有效途径。简单的架构,大数据集和参数计数的支持,超越了更复杂的算法。但是,大规模的训练虽然有效,但计算强度极高。这就是为什么研究人员追求他们所谓的Switch Transformer,一种“稀疏激活”技术,它只使用模型权重的子集,或转换模型内输入数据的参数。

Switch Transformer的新颖之处在于它有效地利用了为密集矩阵乘法(广泛应用于语言模型的数学运算)设计的硬件,如GPU和TPU。在研究人员的分布式训练设置中,他们的模型将不同的权重分配到不同的设备上,这样权重就会随着设备数量的增加而增加,但在每个设备上都保持可管理的内存和计算空间。

在一项实验中,研究人员使用32个TPU内核预先训练了几种不同的Switch Transformer模型,这个语料是一个750GB大小的数据集,包含从Reddit、Wikipedia和其他网络资源上获取的文本。他们让这些模型预测有15%的单词被掩盖的段落中遗漏的单词,以及其他挑战,比如检索文本回答一系列越来越难的问题。

研究人员声称,与包含3950亿个参数和64名专家的更小的模型(Switch-XXL)相比,他们发明的拥有2048名专家的1.6万亿参数模型(Switch-C)则“完全没有训练不稳定性”。

然而,在SQuAD的基准测试上,Switch-C的得分却更低(87.7),而Switch-XXL的得分为89.6,研究人员将此归因于微调质量、计算要求和参数数量之间的不明确关系。

在这种情况下,Switch Transformer还是在许多下游任务上的效果有了提升。例如,在使用相同数量的计算资源的情况下,它可以使预训练的速度提高了7倍以上。

同时研究人员证明,大型稀疏模型可以用来创建更小、更稠密的模型,这些模型可以对任务进行微调,其质量增益只有大型模型的30% 。

在一个测试中,一个 Switch Transformer 模型被训练在100多种不同的语言之间进行翻译,研究人员观察到其中101种语言都得到了普遍的改善。

在未来的工作中,研究人员计划将Switch Transformer应用于新的和不同的形态中去,包括图像和文本。他们认为,模型稀疏性在一系列不同的媒体和多模态模型中都具有优势。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6258

    浏览量

    111958
  • 机器学习
    +关注

    关注

    67

    文章

    8562

    浏览量

    137209
  • 大数据
    +关注

    关注

    64

    文章

    9096

    浏览量

    144052
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型微调企业项目实战课

    )技术 直接全量微调大模型依然面临显存爆炸的风险。实战课会深入剖析以 LoRA(低秩自适应)为代表的 PEFT 技术。它如同给大模型外挂了“记忆芯片”,在冻结原
    发表于 04-16 18:48

    AI模型训练与部署实战 | 线下免费培训

    你是否想系统了解AI落地全链路,但缺少完整的实战项目练手?模型部署环节繁多,缺乏套清晰的实战路径?4月18日、4月25日、5月16日R
    的头像 发表于 04-07 13:08 640次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>训练</b>与部署实战 | 线下免费培训

    【瑞萨AI挑战赛】手写数字识别模型在RA8P1 Titan Board上的部署

    最终的板端部署与运行,完整实现手写数字识别模型的端侧落地,为嵌入式AI开发提供可参考的实践方案。 、RA8P1 Titan Board开发
    发表于 03-15 20:42

    训练到推理:大模型算力需求的新拐点已至

    在大模型产业发展的早期阶段,行业焦点主要集中在大模型训练所需的算力投入。万亿
    的头像 发表于 02-05 16:07 1020次阅读
    从<b class='flag-5'>训练</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐点已至

    什么是大模型,智能体...?大模型100问,快速全面了解!

    、概念篇1.什么是大模型?大模型是指参数规模巨大(通常达到数十亿甚至万亿级别)、使用海量数据训练
    的头像 发表于 02-02 16:36 1122次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    文了解Mojo编程语言

    Mojo 是种由 Modular AI 公司开发的编程语言,旨在将 Python 的易用性与 C 语言的高性能相结合,特别适合人工智能(
    发表于 11-07 05:59

    在Ubuntu20.04系统中训练神经网络模型些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为
    发表于 10-22 07:03

    文看懂AI训练、推理与训推体的底层关系

    (Inference)。它们就像“学霸的高考备考”和“考试当天的答题表现”,缺不可。1、什么是AI训练(Training)?通过大量数据训练模型
    的头像 发表于 09-19 11:58 2857次阅读
    <b class='flag-5'>一</b>文看懂<b class='flag-5'>AI</b><b class='flag-5'>训练</b>、推理与训推<b class='flag-5'>一</b>体的底层关系

    模板驱动 无需训练数据 SmartDP解决小样本AI算法模型开发难题

    。但是这个平台不适用于小样本AI模型开发,特别是些特殊行业,数据本来就不多,但又有着需求,因此陷于两难。面临这种市场困境,慧视光电推出了
    的头像 发表于 09-09 17:57 1550次阅读
    模板驱动  无需<b class='flag-5'>训练</b>数据  SmartDP解决小样本<b class='flag-5'>AI</b>算法<b class='flag-5'>模型</b><b class='flag-5'>开发</b>难题

    谷歌AI模型点亮开发无限可能

    在 2025 年的 Google 谷歌开发者大会上,AI 不是门“技术”,更是股彻底改变开发
    的头像 发表于 08-29 09:29 1294次阅读

    Cognizant加速AI模型企业级开发

    -Cognizant推出AI Training Data Services,助力企业级AI模型加速开发 Cognizant是数据与AI
    的头像 发表于 07-31 17:25 812次阅读

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    万亿参数!元脑企智体机率先支持Kimi K2大模型

    应用大模型提供高处理性能和完善的软件工具平台支持。   Kimi K2是月之暗面推出的开源万亿参数模型,创新使用了MuonClip优化器进行训练
    的头像 发表于 07-22 09:27 675次阅读
    <b class='flag-5'>万亿</b><b class='flag-5'>参数</b>!元脑企智<b class='flag-5'>一</b>体机率先支持Kimi K2大<b class='flag-5'>模型</b>

    嵌入式AI技术漫谈:怎么为训练AI模型采集样本数据

    多少数据,才能形成合适的样本集,进而开始训练模型呢? 此时,回答“按需提供”或者“先试试看”似乎会变成句车轱辘话,看似回答了问题,但客户还是无从下手。 AI数据样本的三
    的头像 发表于 06-11 16:30 1538次阅读

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型模型升级AI摄像机,进行
    发表于 04-28 11:11