谷歌训练开发一个万亿参数的AI语言模型-电子发烧友网

参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般来说，在语言领域，参数的数量和复杂性之间的相关性非常好。例如，OpenAI的GPT-3是有史以来训练了1750亿个参数的最大语言模型之一，它可以进行原始类比、生成配方，甚至完成基本代码。

近日，谷歌的研究人员开发了一种技术，并对其进行基准测试，他们声称这种技术能够训练包含超过一万亿参数的语言模型。他们表示，他们的1.6万亿参数模型是迄今为止最大的，比之前最大的谷歌开发的语言模型（T5-XXL）快了4倍。

研究人员指出，大规模训练是建立强大模型的有效途径。简单的架构，大数据集和参数计数的支持，超越了更复杂的算法。但是，大规模的训练虽然有效，但计算强度极高。这就是为什么研究人员追求他们所谓的Switch Transformer，一种“稀疏激活”技术，它只使用模型权重的子集，或转换模型内输入数据的参数。

Switch Transformer的新颖之处在于它有效地利用了为密集矩阵乘法（广泛应用于语言模型的数学运算）设计的硬件，如GPU和TPU。在研究人员的分布式训练设置中，他们的模型将不同的权重分配到不同的设备上，这样权重就会随着设备数量的增加而增加，但在每个设备上都保持可管理的内存和计算空间。

在一项实验中，研究人员使用32个TPU内核预先训练了几种不同的Switch Transformer模型，这个语料是一个750GB大小的数据集，包含从Reddit、Wikipedia和其他网络资源上获取的文本。他们让这些模型预测有15%的单词被掩盖的段落中遗漏的单词，以及其他挑战，比如检索文本回答一系列越来越难的问题。

研究人员声称，与包含3950亿个参数和64名专家的更小的模型（Switch-XXL）相比，他们发明的拥有2048名专家的1.6万亿参数模型（Switch-C）则“完全没有训练不稳定性”。

然而，在SQuAD的基准测试上，Switch-C的得分却更低（87.7），而Switch-XXL的得分为89.6，研究人员将此归因于微调质量、计算要求和参数数量之间的不明确关系。

在这种情况下，Switch Transformer还是在许多下游任务上的效果有了提升。例如，在使用相同数量的计算资源的情况下，它可以使预训练的速度提高了7倍以上。

同时研究人员证明，大型稀疏模型可以用来创建更小、更稠密的模型，这些模型可以对任务进行微调，其质量增益只有大型模型的30% 。

在一个测试中，一个 Switch Transformer 模型被训练在100多种不同的语言之间进行翻译，研究人员观察到其中101种语言都得到了普遍的改善。

在未来的工作中，研究人员计划将Switch Transformer应用于新的和不同的形态中去，包括图像和文本。他们认为，模型稀疏性在一系列不同的媒体和多模态模型中都具有优势。
责任编辑:pj

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5861

浏览量
103268
机器学习

机器学习

+关注

关注
66

文章
8126

浏览量
130571
大数据

大数据

+关注

关注
64

文章
8652

浏览量
136601

【书籍评测活动NO.30】大规模语言模型：从理论到实践

多种形式和任务。这个阶段是从语言模型向对话模型转变的关键，其核心难点在于如何构建训练数据，包括训练数据内部多个任务之间的关系、

发表于 03-11 15:16

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架，其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习框架，由

发表于 03-01 16:25 •243次阅读

谷歌模型训练软件有哪些？谷歌模型训练软件哪个好？

谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。

发表于 03-01 16:24 •280次阅读

谷歌模型训练软件有哪些功能和作用

谷歌模型训练软件主要是指ELECTRA，这是一种新的预训练方法，源自谷歌AI。ELECTRA不仅

发表于 02-29 17:37 •398次阅读

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

训练是MetaAI研究人员认为的一种降低模型使用成本的方式。为了更好的效果，即便是LLaMA最小的70亿参数的版本，其训练使用的tokens

发表于 12-22 10:18

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言

发表于 12-04 15:51 •410次阅读

【KV260视觉入门套件试用体验】Vitis AI 通过迁移学习训练自定义模型

是使用Vitis Model Zoo库，是一个包含了大量预训练模型的资源库，这些模型涵盖了多种AI

发表于 10-16 15:03

【KV260视觉入门套件试用体验】Vitis AI 构建开发环境，并使用inspector检查模型

/vitis-ai-cpu:latest 第二步，可以使用了………完……… (^_^)，当然不是这么简单，Vitis AI 不仅仅是一个工具，而是

发表于 10-14 15:34

腾讯发布混元大语言模型

腾讯发布混元大语言模型腾讯全球数字生态大会上腾讯正式发布了混元大语言模型，参数规模超千亿，预训练

发表于 09-07 10:23 •852次阅读

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练

发表于 09-01 17:14 •1118次阅读

Apple 预定 3 纳米芯片，谷歌云 A3 虚拟机将改变 AI 训练

了 Nvidia 的 H100 GPU 和谷歌自主设计的 200 Gbps 基础设施处理器（IPU）。主要用于训练和运行生成式 AI 模型以及大型语

发表于 08-31 13:00 •401次阅读

训练好的ai模型导入cubemx不成功怎么解决？

训练好的ai模型导入cubemx不成功咋办，试了好几个模型压缩了也不行，ram占用过大，有无解决方案？

发表于 08-04 09:16

什么是预训练AI模型？

预训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用，

发表于 05-25 17:10 •638次阅读

谷歌发布语言模型PaLM2，突破3.6万亿个令牌的训练数量

据悉，令牌是指训练大语言模型所使用的单词串，它们对于教导模型如何预测字符串中可能出现的下一个单词至关重要。

发表于 05-18 11:15 •326次阅读

ChatGPT系统开发AI人功智能方案

。ChatGPT是一个由OpenAI开发的人工智能语言模型，可以实现自然语言处理、对话生成等功能

发表于 05-18 10:16

搜索历史

谷歌训练开发一个万亿参数的AI语言模型

评论

【书籍评测活动NO.30】大规模语言模型：从理论到实践

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型训练软件有哪些？谷歌模型训练软件哪个好？

谷歌模型训练软件有哪些功能和作用

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

【KV260视觉入门套件试用体验】Vitis AI 通过迁移学习训练自定义模型

【KV260视觉入门套件试用体验】Vitis AI 构建开发环境，并使用inspector检查模型

腾讯发布混元大语言模型

训练大语言模型带来的硬件挑战

Apple 预定 3 纳米芯片，谷歌云 A3 虚拟机将改变 AI 训练

训练好的ai模型导入cubemx不成功怎么解决？

什么是预训练AI模型？

谷歌发布语言模型PaLM2，突破3.6万亿个令牌的训练数量

ChatGPT系统开发AI人功智能方案