0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT深度报告合集:奇点临近,未来已来

悟空智能科技 来源:悟空智能科技 2023-07-14 15:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ChatGPT深度报告合集:奇点临近,未来已来

一直以来,大家都对 GPT-4 的模型架构、基础设施、训练数据集、成本等信息非常好奇。

奈何 OpenAI 嘴太严,很长时间以来,大家也都只是猜测这些数据。

不久之前,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI技术播客采访时透露出一个小道消息,称 GPT-4 是由 8 个混合专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

虽然此消息无法验证,但其流传度非常高,也被部分业内人士认为非常合理。

最近,更多的消息似乎被泄露了出来。

今日,SemiAnalysis 发布了一篇付费订阅的内容,「揭秘」了有关 GPT-4 的更多信息。

fc536a52-21fa-11ee-962d-dac502259ad0.png

文章称,他们从许多来源收集了大量有关 GPT-4 的信息,包括模型架构、训练基础设施、推理基础设施、参数量、训练数据集组成、token 量、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实现技术以及如何减轻与巨型模型推理有关的瓶颈等。

作者表示,GPT-4 最有趣的方面是理解 OpenAI 为什么做出某些架构决策。

此外,文章还介绍了 A100 上 GPT-4 的训练和推理成本,以及如何拓展到下一代模型架构 H100 。

我们根据 Deep Trading(一家算法交易公司)创始人 Yam Peleg 的推文(目前已删除),整理了以下关于 GPT-4 的数据信息。感兴趣的读者可以细致研究下。

fc84a8f6-21fa-11ee-962d-dac502259ad0.png

不过请注意,这并非官方确认的数据,大家自行判断其准确性。

fc9e6f48-21fa-11ee-962d-dac502259ad0.png

1、参数量:GPT-4 的大小是 GPT-3 的 10 倍以上。文章认为它 120 层网络中总共有 1.8 万亿个参数。

2、确实是混合专家模型。OpenAI 能够通过使用混合专家(MoE)模型来保持合理成本。他们在模型中使用了 16 个专家模型,每个专家模型大约有 111B 个参数。这些专家模型中的 2 个被路由到每个前向传递。

3、MoE 路由:尽管文献中对于选择将每个 token 路由到哪个专家模型的高级路由算法进行了大量讨论,但据称 OpenAI 在当前的 GPT-4 模型中采用了相当简单的路由方式。该模型大约使用了 550 亿个共享参数来进行注意力计算。

fd1df60a-21fa-11ee-962d-dac502259ad0.png

4、推理:每次前向传递的推理(生成 1 个 token)仅利用约 2800 亿个参数和约 560 TFLOP 的计算量。相比之下,纯密集模型每次前向传递需要大约 1.8 万亿个参数和约 3700 TFLOP 的计算量。

5、数据集:GPT-4 的训练数据集包含约 13 万亿个 token。这些 token 是重复计算之后的结果,多个 epoch 中的 token 都计算在内。

Epoch 数量:针对基于文本的数据进行了 2 个 epoch 的训练,而针对基于代码的数据进行了 4 个 epoch 的训练。此外,还有来自 ScaleAI 和内部的数百万行的指令微调数据。

6、GPT-4 32K:在预训练阶段,GPT-4 使用了 8k 的上下文长度(seqlen)。而 32k 序列长度版本的 GPT-4 是在预训练后对 8k 版本进行微调而得到的。

fd547e50-21fa-11ee-962d-dac502259ad0.png

7、Batch Size:在计算集群上,几天时间里,batch size 逐渐增加,最后,OpenAI 使用 batch size 达到了 6000 万!当然,由于不是每个专家模型都能看到所有 token,因此这仅仅是每个专家模型处理 750 万个 token 的 batch size。

真实的 batch size:将这个数字除以序列长度(seq len)即可得到真实的 batch size。请不要再使用这种误导性的数字了。

8、并行策略:为了在所有 A100 GPU 上进行并行计算,他们采用了 8 路张量并行,因为这是 NVLink 的极限。除此之外,他们还采用了 15 路流水线并行。(很可能使用了 ZeRo Stage 1,也可能使用了块级的 FSDP)。

fd9eaba6-21fa-11ee-962d-dac502259ad0.png

9、训练成本:OpenAI 在 GPT-4 的训练中使用了大约 2.15e25 的 FLOPS,使用了约 25,000 个 A100 GPU,训练了 90 到 100 天,利用率(MFU)约为 32% 至 36%。这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。

如果他们在云端的每个 A100 GPU 的成本大约为每小时 1 美元,那么仅此次训练的成本将达到约 6300 万美元。(而如今,如果使用约 8192 个 H100 GPU 进行预训练,用时将降到 55 天左右,成本为 2150 万美元,每个 H100 GPU 的计费标准为每小时 2 美元。)

10、使用专家混合模型时的 tradeoff:在使用专家混合模型时存在多方面 tradeoff。

例如,在推理过程中处理 MoE 非常困难,因为并非模型的每个部分都在每个 token 生成时被利用。这意味着在某些部分被使用时,其他部分可能处于闲置状态。在为用户提供服务时,这会严重影响资源利用率。研究人员已经证明使用 64 到 128 个专家比使用 16 个专家能够实现更好的损失(loss),但这仅仅是研究的结果。

选择较少的专家模型有多个原因。OpenAI 选择 16 个专家模型的一大原因是:在许多任务中,更多的专家模型很难泛化,也可能更难收敛。

由于进行了如此大规模的训练,OpenAI 选择在专家模型数量上更加保守。

fdd45f08-21fa-11ee-962d-dac502259ad0.png

11、推理成本:GPT-4 的推理成本是 1750 亿参数的 Davinci 模型的 3 倍。这主要是因为 GPT-4 需要更大规模的集群,并且达到的利用率要低得多。

据估计,在用 128 个 A100 GPU 进行推理的情况下,8k 版本 GPT-4 推理的成本为每 1,000 个 token 0.0049 美分。如果使用 128 个 H100 GPU 进行推理,同样的 8k 版本 GPT-4 推理成本为每 1,000 个 token 0.0021 美分。值得注意的是,这些估计假设了高利用率和保持较高的 batch size。

12、Multi-Query Attention:OpenAI 和其他机构一样,也在使用 Multi-Query Attention(MQA)。由于使用 MQA 只需要一个注意力头(head),并且可以显著减少用于 KV 缓存的内存容量。即便如此,32k 序列长度的 GPT-4 也绝对无法在 40GB 的 A100 GPU 上运行,而 8k 序列长度的模型则受到了最大 batch size 的限制。

fe4053b6-21fa-11ee-962d-dac502259ad0.png

13、连续 batching:OpenAI 实现了可变 batch size 和连续 batching。这样做是为了允许一定程度的最大延迟,并优化推理成本。

14、视觉多模态:它是一个独立于文本编码器的视觉编码器,二者之间存在交叉注意力。该架构类似于 Flamingo。这在 GPT-4 的 1.8 万亿个参数之上增加了更多参数。在纯文本的预训练之后,它又经过了另外约 2 万亿个 token 的微调。

对于视觉模型,OpenAI 本来希望从零开始训练,但由于其尚未成熟,所以他们决定先从文本开始训练来降低风险。

这种视觉能力的主要目的之一是使自主智能体能够阅读网页并转录图像和视频中的内容。

他们训练的一部分数据是联合数据(包括渲染的 LaTeX / 文本)、网页的截屏、YouTube 视频(采样帧),并使用 Whisper 对其进行运行以获取转录文本。

fe9d0d40-21fa-11ee-962d-dac502259ad0.png

15、推测式解码(Speculative Decoding):OpenAI 可能在 GPT-4 的推理过程中使用了推测式解码技术(不确定是否 100%)。这种方法是使用一个更小更快的模型提前解码多个 token,并将它们作为单个 batch 输入到一个大型的预测模型(oracle model)中。

如果小型模型对其预测是正确的,大型模型将会同意,我们可以在单个 batch 中解码多个 token。

但是,如果大型模型拒绝了草稿模型预测的 token,那么 batch 中剩余的部分将被丢弃,然后我们将继续使用大型模型进行解码。

有些阴谋论指出,新的 GPT-4 质量已经下降,这可能只是因为他们让推测式解码模型(speculative decoding model)将概率较低的序列传递给预测模型,从而导致了这种误解。

fed73fd8-21fa-11ee-962d-dac502259ad0.png

16、推理架构:推理运行在由 128 个 GPU 组成的集群上。在不同地点的多个数据中心存在多个这样的集群。推理过程采用 8 路张量并行(tensor parallelism)和 16 路流水线并行(pipeline parallelism)。每个由 8 个 GPU 组成的节点仅具有约 1300 亿个参数。

该模型有 120 层,因此适合于 15 个不同的节点。可能第一个节点的层数较少,因为它还需要计算嵌入。

根据这些数字,如果 OpenAI 试图按照 chinchilla 的最佳指标进行训练,他们应该使用的 token 数量是现在的两倍。这表明他们在获取高质量数据方面遇到了困难。

最后想说的是,这应该是迄今为止关于 GPT-4 最为详细的数据揭秘。目前还不能求证是否真实,但也值得大家研究下。正如原文作者所说,「有趣的方面是理解 OpenAI 为什么做出某些架构决策。」

关于 GPT-4 的这些架构信息,你怎么看?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26055
  • ai技术
    +关注

    关注

    1

    文章

    1313

    浏览量

    25606
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10078

原文标题:终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了

文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【作品合集】飞凌嵌入式OK527N-C开发板测评

    飞凌嵌入式OK527N-C开发板测评作品合集 产品介绍: OK527-C开发板采用核心板+底板分体式设计,共320个引脚,采用4个80Pin板对板连接器的方式将处理器的功能引脚以最便利的方式引出,并
    发表于 09-22 15:54

    【作品合集】视美泰M-K1HSE、3568开发板测评

    视美泰M-K1HSE、3568开发板测评作品合集 产品介绍: M-KIHSE开发板: M-KIHSE开发板是一款基于进选时空K1(RISC-V SpacemiT X60)八核处理器的高性能开发平台
    发表于 09-22 10:32

    【作品合集】润开鸿HH-SCDAYU800A开发板测评

    润开鸿HH-SCDAYU800A开发板测评作品合集 产品介绍: HH-SCDAYU800A 基于平头哥 TH1520 芯片,支持OpenHarmony 标准系统,版本为3.2/4.1;支持蓝牙
    发表于 09-19 14:09

    【作品合集】群芯闪耀Milk-V Duo S 开发板测评

    群芯闪耀Milk-V Duo S开发板测评作品合集 产品介绍: Milk-V Duo S 是 Duo 的升级型号,配备升级版 SG2000 主控制器、更大的 512MB 内存和更丰富的输入/输出功能
    发表于 09-16 11:03

    【技巧合集】labview使用单机数据库sqllite

    【Labview技巧合集】12 labview中使用单机数据库 sqllite 配套工具包及单机工具 和例程上传个人网站#labview类#Labview#labview框架#工业自动化#上位机#自动化测试#计算机毕业设计
    发表于 09-07 19:47

    【作品合集】矽速科技Sipeed MaixCAM Pro开发板测评

    【Sipeed MaixCAM Pro开发板试用体验】基础功能完整测试报告 【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统 第一期合集: 微五科技
    发表于 09-05 09:33

    玻色量子重磅发布量子奇点计划

    2025年4月,玻色量子旗下开物量子开发者社区正式发起共筑量子计算应用新生态计划——“量子奇点计划”,计划集“量子应用创新基金+量子专项竞赛+研究课题悬赏”于一体,为全国量子科技从业者及开发者提供从
    的头像 发表于 05-09 16:14 801次阅读

    未来科学城集团计划共建100座绿色能源换电站

    近日,蔚与北京未来科学城发展集团有限公司(下称“未来科学城集团”)在北京签署战略合作协议,将围绕新能源汽车创新、服务生态构建及绿色能源换电网络建设展开深度合作。
    的头像 发表于 03-27 16:10 764次阅读

    和安信可Ai-M61模组对话?手搓一个ChatGPT 语音助手 #人工智能 #

    ChatGPT
    jf_31745078
    发布于 :2025年03月12日 15:56:59

    维智科技携手武大校友共探智能未来

    近日,由武汉大学上海校友会创新创业分会主办的“AI奇点临近未来,你不来”2025AI拓新
    的头像 发表于 03-04 15:46 721次阅读

    未来:无人机智能巡检系统重塑光伏巡检格局

    未来:无人机智能巡检系统重塑光伏巡检格局 近年来,随着光伏产业的快速发展,光伏电站规模不断扩大,传统的人工巡检方式难以满足高效、精准的运维需求。无人机技术的引入,为光伏巡检带来了
    的头像 发表于 02-08 17:12 492次阅读
    <b class='flag-5'>未来</b><b class='flag-5'>已</b><b class='flag-5'>来</b>:无人机智能巡检系统重塑光伏巡检格局

    未来!南京在全国率先上岗“智慧路灯机器人”

    未来!南京在全国率先上岗“智慧路灯机器人”
    的头像 发表于 02-08 15:32 670次阅读
    <b class='flag-5'>未来</b><b class='flag-5'>已</b><b class='flag-5'>来</b>!南京在全国率先上岗“智慧路灯机器人”

    广电计量新年首篇深度研究报告出炉

    新年伊始,广电计量首篇深度研究报告出炉,公司凭借全面发展的企业实力和资本市场的优异表现在新的一年获得资本市场的认可。
    的头像 发表于 01-03 11:31 1063次阅读

    ChatGPT深度融入苹果Mac软件生态

    近日,科技界迎来了一项重要更新。当地时间12月19日,OpenAI宣布了一项重大进展,其研发的ChatGPT深度集成于苹果Mac电脑的操作系统软件中,为用户带来了全新的使用体验。 此次更新中
    的头像 发表于 12-23 10:50 1016次阅读

    ChatGPT新增实时搜索与高级语音功能

    。OpenAI对搜索算法进行了深度优化,使得ChatGPT能够在用户提出问题后,迅速获取到分钟级别的最新信息,包括股票、新闻等。这一功能的加入,极大地满足了用户对即时数据的需求,使得ChatGPT在各类应用场景中更加得心应手。
    的头像 发表于 12-17 14:08 929次阅读