GPT系列的“高仿” 最大可达GPT-3大小自主训练-电子发烧友网

虽然GPT-3没有开源，却已经有人在复刻GPT系列的模型了。

例如，慕尼黑工业大学的Connor Leahy，此前用200个小时、6000RMB，复现了GPT-2。

又例如，基于150亿参数版GPT-3的DALL·E模型刚出，来自康奈尔大学的 Philip Wang就开始复现了。

但此前，还没人能复现出GPT-3大小的大语言模型来。

不过，已经有人开始尝试了。这是一个名为 GPT-Neo的项目，用于复现GPT系列的各种语言模型，当然也包括GPT-3。

作者表示，目前他们已经成功制造出GPT-2大小的模型。

从项目代码的可扩展性来看，他们预计可以复刻出GPT-3大小的语言模型，甚至比GPT-3更大。

不仅如此，由于这是个开源的项目，大家还可以自主训练这些模型（将来也会包括GPT-3）。

目前，作者已经给出了详细的训练步骤。

消息一出，网友沸腾了：

要是真能复现，说不定会比现在的GPT-3还要更好用！

GPT系列的“高仿”项目

本质上，GPT-Neo有点像是GPT系列的“高仿”项目：

GPT-Neo中的各种模型，设计原理接近GPT系列，但代码并不一样。

作者们打算尝试各种结构和注意力类型，最终扩展出GPT-3大小的大语言模型。

为了实现这一目标，他们从复现GPT系列的模型开始，不断尝试各种模型架构、和各种注意力机制的实现方式。

也就是说，GPT-Neo更像是一个实验性质的项目，通过各种尝试，扩展出更大的模型。

这里面，融合了各种让模型变得“更大”的研究：

例如，多任务学习方法MoE （Mixture of Experts），采用多个专家的结构，将问题空间划分为同质区域，然后采用分发器，决定问题应该问哪些专家。

又比如，具有线性复杂性的自注意力机制。

……

这个项目还在施工中，不过，连模型的训练方式都准备好了。

项目计划通过TPU或GPU，对大语言模型进行训练。

为此，作者们已经基于Tensorflow-mesh （用于在GPU上训练模型）、Deepspeed （用于在TPU上训练模型）两个项目，编写了GPT-Neo的训练代码。

这两个项目都可以扩展到大于GPT-3的大小，甚至还能更大。

因此，训练GPT-3大小的模型，软件理论上是可行的。

但硬件上的问题，目前作者们还在思考明确的解决方案。如果将来真的做出了GPT-3大小的模型，他们打算先从谷歌那多要点免费资源，如果不行的话，就再说……

如何训练GPT-Neo

当然，在TPU和GPU上训练的方式有所不同。

如果使用TPU训练的话，需要注册一个谷歌云平台，创建存储空间，然后再搞个虚拟机，将模型放到TPU上训练。

不过，如果你的GPU硬件足够OK，也可以选择直接训练GPT-Neo，就不用设置一系列谷歌云了。

此外，也可以用谷歌Colab来训练项目，它免费提供TPU-V8S处理器，训练GPT的3XL （1.5B参数）版本绰绰有余。

训练过程也不复杂，主要包括创建分词器、数据集预处理、指定训练数据集、选择训练配置、训练模型几个步骤。

在创建分词器上，GPT-Neo目前提供一个Huggingface的预训练GPT-2分词器。不过，也可以训练自己专属的分词器。

然后，对数据进行预处理，可以直接下载项目提供的数据，也可以使用自己的数据集。

在那之后，指定模型训练所用的数据集，然后对训练方式进行设置，例如优化算法、训练步数等。

然后，指定硬件名称、数量，就可以开始训练模型了。

“只会用谷歌搜索的自动化团队”

不过，对于GPT系列的项目复现，有网友并不看好。

网友认为，GPT-X系列项目，就像是一个由几百人组成的自动化团队，这几百人只会用谷歌搜索来干活，而且还没办法写出最新的新闻事件报道。（因为训练数据无法一直更新）

它虽然是个非常有趣的研究，但目前却还没有一个“杀手级”应用，来让GPT-3项目的存在变得更有意义。

当然，也有人认为，复现这一项目还是有意义的。

即使只是“几百个只会用搜索引擎干活的团队”，他们也需要快速给出某个问题的答案。

如何在大量零碎信息中，高效地选出最优解，本身就是GPT-X项目的价值之一。毕竟如果只是几百个“会用谷歌搜索”的人组成的团队，是无法像GPT-3一样，快速得出最佳答案的。

当然，也有一些程序员调侃，要是这个GPT-3项目真的被复现了，岂不是他们马上就要失业了。

“我们总是在用谷歌搜索、和stackoverflow来解决问题。这不就是像GPT-3一样，只会整合搜索引擎上的信息，来解决问题吗？”

“该死，原来GPT-3竟然可以取代这么多程序员。”

目前，GPT-Neo的所有项目和代码已开源。

想要上手一试、或是对项目感兴趣的小伙伴，可以行动起来了~

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
2985

浏览量
41716
语言模型

语言模型

+关注

关注
0

文章
434

浏览量
10043
GPT

GPT

+关注

关注
0

文章
299

浏览量
14866

一文解析人工智能中GPT-3 到底有多厉害？

的 OpenAI 放出了 GPT-3 这个巨型 NLP 模型怪兽，包含 1750 亿参数，比 2 月份微软刚推出的全球最大深度学习模型 Turing NLG 大上十倍，是其前身 GPT-2 参数的 100

发表于 03-19 14:19 •2w次阅读

ChatGPT如何使用RLHF来克服GPT-3存在的问题

ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。

发表于 03-10 09:41 •658次阅读

GPT-3难以复现，为什么说PyTorch走上了一条“大弯路”？

据 NVIDIA 估算，如果要训练GPT-3 ，即使单个机器的显存/内存能装得下，用 8 张 V100 的显卡，训练时长预计要 36 年。

发表于 05-19 11:06 •1327次阅读

<b class='flag-5'>GPT-3</b>难以复现，为什么说PyTorch走上了一条“大弯路”？

最大人工智能算法模型GPT-3问世

OpenAI的一组研究人员最近发表了一篇论文，描述了GPT-3，这是一种具有1，750亿个参数的自然语言深度学习模型，比以前的版本GPT-2高100倍。该模型经过了将近0.5万亿个单词的预训练，并且在不进行微调的情况下，可以在多

发表于 07-08 17:36 •2153次阅读

如何在GPT-3中使用一个新词或执行3位数运算？

给予任何文本提示，GPT-3将返回一个文本完成，试图匹配用户给它的模式。用户可以给它 “编程”，只需向它展示几个希望它做的例子，它就会提供一篇完整的文章或故事，比如下面的文字，完全由GPT-3编写。

发表于 07-20 16:33 •1457次阅读

如何打造中文版 GPT-3？GPT-4 可能如何演化？

既能问答、翻译、写文章，也能写代码、算公式、画图标。..。..OpenAI 2020 年 5 月推出的 GPT-3，因其神奇的通用性而走红 AI 领域。

发表于 09-02 10:21 •4546次阅读

史上最大AI模型GPT-3你要开始收费了接下去可能用不起它了

还记得前不久被捧上天的GPT-3么？那个只有被邀请的用户才能测试使用的，号称史上最大AI模型。 OpenAI的1,750亿参数语言模型GPT-3在6月份发布的时候就备受关注，当时，猿妹还和大家

发表于 09-25 11:38 •2737次阅读

史上<b class='flag-5'>最大</b>AI模型<b class='flag-5'>GPT-3</b>你要开始收费了接下去可能用不起它了

GPT-3引发公众的遐想能根据文字产生图片的AI!

非常幼稚。可尽管如此，技术人员依然认为，创造了 GPT-3 的技术可能是通往更高级 AI 的必经之路。 GPT-3 使用大量文本数据进行了训练，那么，假如同时使用文本和图像数据进行训练

发表于 10-09 18:30 •2393次阅读

史上最大AI模型GPT-3强势霸榜Github

最近，GPT-3火了！相信你已经在网上看到各种有关GPT-3的演示。这个由OpenAI创建的大型机器学习模型，它不仅可以自己写论文，还会写诗歌，就连你写的代码都能帮你写了。下面还是先让你看看

发表于 01-06 17:06 •2208次阅读

谷歌开发出超过一万亿参数的语言模型，秒杀GPT-3

继GPT-3问世仅仅不到一年的时间，Google重磅推出Switch Transformer，直接将参数量从GPT-3的1750亿拉高到1.6万亿，并比之前最大的、由google开发的语言模型

发表于 01-27 16:26 •1892次阅读

谷歌开发出超过一万亿参数的语言模型，秒杀<b class='flag-5'>GPT-3</b>

Eleuther AI：已经开源了复现版GPT-3的模型参数

GPT3终于开源！不过，不是官方开的（别打我 Eleuther AI推出的名为GPT-Neo的开源项目，于晨4点于twitter正式宣布：已经开源了复现版GPT-3的模型参数（1.3B和2.7B级别

发表于 03-31 17:46 •2907次阅读

GPT/GPT-2/GPT-3/InstructGPT进化之路

在预训练阶段，GPT 选择 transformer 的 decoder 部分作为模型的主要模块，transformer 是 2017年 google 提出的一种特征抽取模型，GPT 以多层 transformer 堆叠的方式构成

发表于 03-03 11:14 •3158次阅读

MEANEST家庭自动化AI（使用GPT-3）

电子发烧友网站提供《MEANEST家庭自动化AI（使用GPT-3）.zip》资料免费下载

发表于 06-15 11:33 •0次下载

MEANEST家庭自动化AI（使用<b class='flag-5'>GPT-3</b>）

chatGPT和GPT4有什么区别

chatGPT和GPT4有什么区别 GPT（Generative Pre-trained Transformer）系列模型由OpenAI公司开发，是一组用于自然语言处理（NLP）任务的人工智能模型

发表于 08-09 15:18 •1781次阅读

盘古大模型和GPT3有哪些不同

几个方面来探讨盘古大模型和GPT-3的不同之处。一、概念定义差异盘古大模型，简称PGM，是中国科学院计算机网络信息中心所研发的一种大规模中文自然语言处理预训练模型，它是以一种全新的方式来进行中文自然语言处理的。它可以像英文NLP预训

发表于 08-30 18:28 •1357次阅读

搜索历史

GPT系列的“高仿” 最大可达GPT-3大小自主训练

评论