布朗大学90后研究生：我们复现了15亿参数GPT-2模型，你也行！-电子发烧友网

布朗大学的计算机科学研究毕业生 Vanya Cohen 近日在 Medium 分享了他复现 GPT-2 大模型的全过程。作者复刻了Open-AI 15亿参数模型，允许其他人在其预训练模型上进行构建并进一步改进。

BERT，XLNet，GPT-2和Grover等大型语言模型在生成文本和多个NLP任务方面取得了令人瞩目的成果。

本文试图去复刻GPT-2的15亿模型以供研究人员使用。

Google Colab地址：

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

单独提供的模型权重：

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

复刻

之所以采取迟迟不放出模型的安全战略，是因为这些模型难以复刻并需要高度专业的领域知识。

但是布朗大学的两名硕士研究生却证明了本文的许多结果复刻起来并不是那么的难。而且不仅他们俩可以，绝大多数感兴趣的人都可以复刻GPT-2。

研究生之一：Vanya Cohen

此外，Zellers等人表明像GPT-2这样的大型语言模型是一种非常有用的工具，可以抵制使用与文本生成器相同的模型。

两位研究生经过深思熟虑后认为，复刻工作并不是独一无二的，并且大型语言模型是目前抵制生成文本的最有效手段，因此在对抗未来模型被滥用的可能性方面，发布本模型是有益的。

本模型的实现基于Grover模型，并修改其代码库以匹配GPT-2的语言建模训练目标。由于他们的模型是在类似的大型语料库上进行训练的，因此大部分代码和超参数都可以重复使用。本模型没有从Grover中大幅改变超参数。

使用本模型代码从头开始训练模型的成本约为5万美元。要注意这个数字是云计算的估计值，并不包含所涉及的各种其他细微的内部成本。

存在显著的时间-成本平衡，并且较慢的训练方法具有相当小的成本，因此降低了使用门槛。

数据集

原始文件提供了有关如何清理数据集的最低限度的详细信息。

与在WebText中一样，首先从Reddit中解析出超过3个向上投票的所有链接。接着，从PushshiftRedditscrape开始。这是一个包含不断更新的Reddit帖子、评论以及相关元数据集合的数据集。

然后过滤一些链接以删除不太可能包含可用文本或HTML（即视频文件，PDF和CSS样式文件）的文件类型的直接链接。

同时还过滤网页以删除维基百科，因为它被各种评估基准和数据集使用。目前还无法确定过滤标准是否与OpenAI相匹配，因为此信息从未发布过。

使用Newspaper Python库从HTML页面中提取文本，然后使用fastText Python库来提取英文文本、过滤掉其他语言。具体来说，使用WhatTheLangpython Wrapper。

使用局部敏感散列（LSH）来去重。然后将文档散列为5-grams的集合，并且删除了相似度阈值大于0.5的所有文档。

使用Heuristic Cleaning算法，从数据集中删除少于128个令牌的文档。这些较短的文件往往质量较低，这是由文本连贯性决定的。最后将此数据集作为OpenWebTextCorpus发布。

使用Radford等人发布的小型模型和Binary Pattern Encoder对数据集进行编码，并使用OpenWebText web-scrapingcodebase的修改版本作为数据集集合的起点。

勘误表

从公开发布的来自WebText的260k文档集合中来看，研究人员发现所有文件都具有最小字节对（BPE）编码，长度为40，最大值为1024.

OpenWebText的不同之处在于为128个令牌设置文档长度的下限（而不是BPE代码），并且不限制最大文档长度。

原始的WebTextCorpus在这些样本可用之前发布，因此没有使用该信息来生成cleaning heuristics。

研究人员曾多次尝试联系Radford等人，以澄清评估和模型细节，但最终都没有成功。

结果

尽管训练分布存在差异，但确实报告了与大多数数据集相似的困惑。

示例：输入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”输出结果如下：

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
434

浏览量
10044
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24351

原文标题：布朗大学90后研究生：我们复现了15亿参数GPT-2模型，你也行！

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

商汤科技推出6000亿参数大模型，全力对标GPT-4 Turbo

稍晚些时候，商汤科技发布公告称，4月23日在上海临港AIDC举办技术交流日活动，推出了6000亿参数大模型（日日新5.0），其知识、数学、推理和代码能力均有显著提升，综合性能可媲美GPT-4Turbo。

发表于 04-25 10:11 •87次阅读

Anthropic推出Claude 3大型语言模型，在认知任务性能上创新高

据官方披露，Claude 3 旗舰 Opus 在大学生和研究生范畴的学术知识、复杂数理任务了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。

发表于 03-05 11:16 •188次阅读

高分工作！Uni3D：3D基础大模型，刷新多个SOTA！

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域，scale up大模型（

发表于 01-30 15:56 •332次阅读

高分工作！Uni3D：3D基础大<b class='flag-5'>模型</b>，刷新多个SOTA！

视觉模型weak-to-strong的实现

几天前，OpenAI「超级对齐」(Superalignment)团队发布了成立以来的首篇论文，声称开辟了对超人类模型进行实证对齐的新研究方向。GPT-2能监督GPT-4，Ilya带头O

发表于 01-08 11:07 •206次阅读

视觉<b class='flag-5'>模型</b>weak-to-strong的实现

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

和1750亿参数的GPT-3都是非常由有竞争力的 MetaAI研究人员认为，当前大模型的高成本阻碍了

发表于 12-22 10:18

500篇论文！最全代码大模型综述

经典 Transformer 使用不可学习的余弦编码，加在模型底层的词向量输入上。GPT、BERT将其改为可学习的绝对位置编码，并沿用到了RoBERTa、BART、GPT-2、GPT-

发表于 11-17 17:31 •616次阅读

盘古大模型和GPT3有哪些不同

盘古大模型和GPT3有哪些不同盘古大模型和GPT-3都是人工智能领域迈出的重要一步，它们的发展对于人工智能领域的发展都起到了重要的推动作用。但是，盘古大

发表于 08-30 18:28 •1357次阅读

华为盘古大模型和GPT的区别

华为盘古大模型和GPT的区别随着人工智能技术的不断进步，机器学习领域的研究也越来越深入。在这其中，以自然语言处理技术为主要研究方向的人工智能算法受到了广泛关注。在这个领域中，华为盘

发表于 08-30 17:38 •3432次阅读

chatGPT和GPT4有什么区别

。它的前身是GPT-1，随后的版本有GPT-2、GPT-3和最新的GPT-4。 GPT-4与之前的版本相比，预计将会有很多改进和变化。尽管该

发表于 08-09 15:18 •1790次阅读

gpt-4怎么用英特尔Gaudi2加速卡GPT-4详细参数

介绍GPT-4 详细参数及英特尔发布 Gaudi2 加速器相关内容，对大模型及 GPU 生态进行探讨和展望。英特尔发布高性价比Gaudi2加速卡GPT4详细

发表于 07-21 10:50 •623次阅读

如何计算transformer模型的参数量

参数规模大，训练数据规模大。以GPT3为例，GPT3的参数量为1750亿，训练数据量达到了570GB。进而，训练大规模语言模型面临两个主要挑

发表于 07-10 09:13 •7383次阅读

DeepSpeed里面和Zero相关技术教程

概述训练环境开启Zero优化训练一个1.5B参数的GPT2模型训练一个10b的GPT-2模型使用ZeRO-Infinity训练万亿

发表于 06-12 10:25 •2442次阅读

北京大学深圳研究生院&知存科技联合实验室揭牌，共谋存算一体化研究

2023年6月1日，北京大学深圳研究生院与“知存科技存算一体联合实验室”揭牌仪式在深圳大学城国际会议中心顺利举行。北京大学深圳研究生院常

发表于 06-07 17:25 •752次阅读

中移芯昇科技与南京邮电大学联合设立的研究生工作站正式揭牌

喜欢就关注我吧，订阅更多最新消息近日，芯昇科技有限公司与南京邮电大学举行了“江苏省研究生工作站”揭牌仪式。中移芯昇科技总经理肖青、芯片研发中心总经理孙东昱、综合管理部总经理蒋剑洪，南京邮电大学

发表于 05-09 15:18 •544次阅读

清华大学深圳国际研究生院携手中微电科技联合招收博士后

清华大学深圳国际研究生院联合深圳中微电科技有限公司成立国产GPU芯片核心技术研发设计课题组，启动联合培养博士后的招收工作。

发表于 05-05 15:36 •506次阅读