0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT系列模型演进与启示

jf_23871869 来源:刘力 作者:刘力 2025-04-17 17:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:算力魔方创始人/英特尔创新大使刘力

AI演进的核心哲学》提到Google在2017年6月的《Attention is All You Need》论文中首次提出了一种全新的神经网络架构Transformer,OpenAI的科学家Alec Radford在读完这篇论文后,使用BooksCorpus数据集(约1GB),并从Transformer中截取了Decoder部分进行了生成式预训练(generative pre-training),然后再针对具体任务使用有标注数据对预训练模型进行监督微调,结果发现模型的性能还不错,在 12 项任务中的 9 项显著超越了针对特定任务设计的竞对模型,达到了当前最佳水平,并于2018年6月发表了文章《Improving Language Understanding by Generative Pre-Training》,标志着GPT系列模型从此诞生了。GPT就是Generative Pre-Training的首字母缩写,GPT-1模型包含1.17亿参数。

链接:

《Attention is All You Need》:
https://arxiv.org/pdf/1706.03762
《Improving Language Understanding by Generative Pre-Training》:
https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf


一,GPT-1~GPT-2: 验证性的演进


OpenAI的首席科学家Ilya Sutskever看到GPT-1的结果后,非常兴奋,他认为这是一个非常关键的可以通向AGI(通用人工智能)的技术,从此,OpenAI便在GPT-1基础上开始坚定地执行“Scale Up”战略 -- 通过增加模型参数、训练数据和计算能力,推动 GPT 系列模型和训练范式不断演进。

随后,OpenAI迅速加大了投入开始研发GPT-2。GPT-2的目标是探索更大规模的模型能否在没有任务特定训练数据的情况下,仅通过预训练就能在多种任务上表现出色,即所谓的“零样本”(Zero-shot)能力。为此,OpenAI构建了一个更大、更多样化的WebText数据集(约40GB),用更大算力(多块NVIDIA V100 32GB卡)完成了更大参数模型的预训练。

GPT-2模型参数有4个版本:Small版有1.17亿参数,对应原始的GPT-1;Medium版有3.45亿参数,对应竞品BERT-large;Large版有7.62亿参数;XL版有15亿参数。GPT-2首次系统性展示了无需微调即可适应多任务的能力,在8 个测试数据集中获得了7个当下最优的成果,证明了大规模预训练模型的强大潜力和 “通用语言模型” 在多任务场景中的可行性。

OpenAI在2019年2月发表了文章《Language Models are Unsupervised Multitask Learners》,还开源了GPT-2的代码: https://github.com/openai/gpt-2和部分数据集:https://github.com/openai/gpt-2-output-dataset,成为GPT系列模型中唯一一个开源模型。

链接:
《Language Models are Unsupervised Multitask Learners》:
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf


二,GPT3:更加激进的演进


GPT-2验证了“Scale Up”战略的有效性后,OpenAI开始更加激进的Scale Up。GPT-3的参数量达到了惊人的1750亿,比GPT-2的XL版本提升了100多倍。预训练数据集也更为庞大,混合了包括Common Crawl(经过滤)、WebText2、Books1、Books2和Wikipedia在内的的数据集(约300B Tokens)。

GPT-3不仅在零样本任务上表现出色,更重要的是展示了强大的“少样本”(Few-shot)甚至“单样本”(One-shot)学习能力,这意味着只需要在提示词(Prompt)中给出少量任务示例,模型就能理解并执行新任务,而无需重新训练或微调模型参数。这种“上下文学习”(In-context Learning)能力是GPT-3的核心突破,它使得模型更加通用和灵活,能够处理翻译、问答、写代码、作诗、进行简单推理等各种任务,极大地推动了Decoder-Only架构的大语言模型的研究和应用浪潮。

三,规模定律与能力涌现


在GPT系列模型演进的过程中,OpenAI在2020年1月发表了文章《Scaling Laws for Neural Language Models》,首次系统性提出的语言模型的“规模定律(Scaling Laws)”,揭示了模型性能与模型参数量、训练数据量和计算资源规模呈指数级线性相关。同年5月,OpenAI发表了文章《Language Models are Few-Shot Learners》介绍GPT-3,让科技界都开始相信在Decoder-Only架构上是能“Scale-Up”的。

随后,Google也加入了Decoder-Only架构的阵营,在2022年4月发布了5400亿参数的PaLM模型,并证明了随着参数提升,Decoder-Only架构的模型能力在大多数任务场景中都高于前期最优方法。同年6月,Google发表了文章《Emergent Abilities of Large Language Models》,首次系统性地提出了大语言模型的“能力涌现(Emergent Abilities)”现象,即大语言模型在参数规模突破临界阈值后,突现的不可预测的新能力‌,这类能力在小规模模型上无法出现。

链接:
《Scaling Laws for Neural Language Models》:
https://arxiv.org/pdf/2001.08361
《Language Models are Few-Shot Learners》:
https://arxiv.org/pdf/2005.14165


四,启示1:科研团队可以从一个小规模参数的模型开始


GPT系列模型的演进,以及科技界在Decoder-Only架构上的探索,再次证明了Richard S. Sutton提出的哲学思想:使用通用方法,然后借助计算能力Scale Up。由于训练大规模参数的模型成本非常高,例如,公开资料显示Llama3 405B参数模型的训练成本约为6000万美金,所以科研团队可以先在一个小规模参数的模型上验证其能力,然后再Scale up。

DeepSeek团队也受此启发,在2024年初,先从16B参数规模开始,发布了DeepSeek-MoE v1;接着在2024年中,把参数规模扩展至145B,发布了DeepSeek-MoE v2; 到DeepSeek-MoE v3时,参数规模到671B。DeepSeek的Scale Up的成功,也再次证明了《AI演进的核心哲学》。

五,启示2:个人初学者可以把GPT-2作为学习起点


从学习的角度,对个人初学者来说,本文认为GPT-2是最佳的Decoder-Only架构模型的学习起点:

1. GPT-2算是GPT系列模型真正的起点(GPT-1可以算Decoder-Only架构的技术验证PoC)。

2. GPT-2的模型参数规模适中,能让读者成功实现完整的预训练过程,且花费不大。

3. GPT-2是GPT系列中唯一的开源模型,有标准代码实现可以借鉴。

4. 通过动手编写GPT-2模型并完成预训练,可以完整学到Transformer架构的大语言模型的核心知识

若你对更多的大语言模型的演进感兴趣,可以进一步阅读《A Survey of Large Language Models》。

链接:

《A Survey of Large Language Models》:
https://arxiv.org/pdf/2303.18223


如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请,关注“算力魔方®”!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16713
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9813
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「大模型启示录」阅读体验】对本书的初印象

    很高兴能够申请到《大模型启示录》一书,作为一名在读大学生,我深感荣幸。在日常生活中,人工智能(AI)的应用已经变得无处不在,它不仅帮助我们完成一些简单的文本归纳任务,还能在代码调试中指出错误,甚至
    发表于 12-16 14:05

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    在客服领域是大模型落地场景中最多的,也是最容易实现的。本身客服领域的特点就是问答形式,大模型接入难度低。今天跟随《大模型启示录 》这本书,学习大模型
    发表于 12-17 16:53

    【「大模型启示录」阅读体验】对大模型更深入的认知

    阅读《大模型启示录》这本书,我得说,它彻底颠覆了我对大模型的理解。作为一个经常用KIMI和豆包这类AI工具来完成作业、整理资料的大学生,我原以为大模型就是这些工具背后的技术。但这本书让
    发表于 12-20 15:46

    【「大模型启示录」阅读体验】营销领域大模型的应用

    今天跟随「大模型启示录」这本书,学习在营销领域应用大模型。 大模型通过分析大量的消费者数据,包括购买历史、浏览记录、社交媒体互动等,能够识别消费者的偏好和行为模式。这种分析能力有助于企
    发表于 12-24 12:48

    GPT系列的“高仿” 最大可达GPT-3大小 自主训练

    虽然GPT-3没有开源,却已经有人在复刻GPT系列模型了。 例如,慕尼黑工业大学的Connor Leahy,此前用200个小时、6000RMB,复现了
    的头像 发表于 02-13 09:24 3251次阅读

    超越GPT 3.5的小型语言模型案例概述

    ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的,我们看到很多研究也在紧随其后紧追慢赶,但是,与 ChatGPT 相比,他们的新研究效果到底有多好?
    发表于 02-27 11:44 1197次阅读

    GPT/GPT-2/GPT-3/InstructGPT进化之路

    在预训练阶段,GPT 选择 transformer 的 decoder 部分作为模型的主要模块,transformer 是 2017年 google 提出的一种特征抽取模型GPT
    的头像 发表于 03-03 11:14 5037次阅读

    AI大语言模型的原理、演进及算力测算专题报告

    GPT是基于Transformer架构的大语言模型,近年迭代演进迅速。构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Tr
    的头像 发表于 04-28 10:01 1803次阅读
    AI大语言<b class='flag-5'>模型</b>的原理、<b class='flag-5'>演进</b>及算力测算专题报告

    华为盘古大模型GPT的区别

    华为盘古大模型GPT的区别  随着人工智能技术的不断进步,机器学习领域的研究也越来越深入。在这其中,以自然语言处理技术为主要研究方向的人工智能算法受到了广泛关注。在这个领域中,华为盘古大模型
    的头像 发表于 08-30 17:38 7146次阅读

    盘古大模型GPT3有哪些不同

    盘古大模型GPT3有哪些不同 盘古大模型GPT-3都是人工智能领域迈出的重要一步,它们的发展对于人工智能领域的发展都起到了重要的推动作用。但是,盘古大
    的头像 发表于 08-30 18:28 3855次阅读

    全球最强大模型易主:GPT-4被超越,Claude 3系列崭露头角

    近日,人工智能领域迎来了一场革命性的突破。Anthropic公司发布了全新的Claude 3系列模型,该系列模型在多模态和语言能力等关键指标上展现出卓越性能,成功超越了此前被广泛认为是
    的头像 发表于 03-05 09:42 1140次阅读

    Anthropic推出Claude 3系列模型,全面超越GPT-4,树立AI新标杆

    近日,AI领域的领军企业Anthropic震撼发布了全新的Claude 3系列模型,该系列模型在多模态和语言能力等关键领域展现出卓越性能,成功击败了此前被广泛认为是全球最强AI
    的头像 发表于 03-05 09:49 1137次阅读

    全球最强大模型易主,GPT-4被超越

    近日,AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型,其中包括最强版Claude 3 Opus。据该公司称,Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面超越了包括
    的头像 发表于 03-05 09:58 1094次阅读

    GPT的定义和演进历程

    GPT,全称Generative Pretrained Transformer,是OpenAI公司在自然语言处理(NLP)领域的一项重大创新。这一模型不仅推动了AI技术的边界,还深刻影响了我们与机器交互的方式。本文将从GPT的定
    的头像 发表于 07-10 10:41 6114次阅读

    OpenAI即将推出GPT-5模型

    OpenAI首席执行官奥尔特曼近日宣布了一项重要消息:OpenAI将在今年未来几个月内推出全新的GPT-5模型。这一消息引起了业界的广泛关注和期待。 据了解,GPT-5模型将整合Ope
    的头像 发表于 02-13 11:21 913次阅读