0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘ChatGPT的优秀性能:新训练范式下的启示与发展预测

SDNLAB 来源:SDNLAB 2023-03-28 10:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ChatGPT应该是近期当之无愧的“炸子鸡”,不论是因它掀起的微软、谷歌、百度等在AI领域血雨腥风、或明或暗的“狂飙”,抑或是微软将GPT 4植入Office引起的打工人们的恐慌或狂欢,有关ChatGPT的新闻不绝于耳。那么,为什么在一众AI技术和产品中,ChatGPT能杀出重围引发海量关注呢?“不是我优秀,全靠同行衬托”,其优秀的性能表现将AI的发展带入了一个新阶段。那么,它是如何实现的呢?

本文作者对ChatGPT的版本发展和特点进行了梳理,发现明明更擅长RL(强化学习)的ChatGPT技术团队,在GPT 3中融入了情景学习,并在后续的InstructGPT/ChatGPT中利用人类反馈优化模型,在参数数量减少的情况下,通过语言模型的预训练、奖励模型训练、利用RL方式微调LM等新训练范式,使得ChatGPT模型的性能和质量得到了极大提升,并由此对机器学习的研究方法有了新的启示:机器学习技术的交叉和融合、数据的价值、ChatGPT的影响与挑战等。

在ChatGPT处在风口浪尖的当下,希望读者朋友们不论是进行技术研究还是投资布局,在阅读本文后都会有所收获。

前 言

经过了近十年的高速发展和扩张,数据驱动的人工智能模型已经广泛应用于计算机视觉(Computer Vision , CV)、自然语言处理(Natural Language Processing, NLP)、智能控制等诸多领域。为了获得更强的模型性能,工程师们不断增加模型的参数、压榨训练设备的性能极限,模型结构也经历着不断迭代和更新。随着对算法模型性能的提升逐渐趋于稳定,业界对人工智能(Artificial Intelligence, AI)快速发展和扩张的热情也逐渐冷却,L4级别的自动驾驶和NLP问答机器人等领域发展均遇到瓶颈。在此背景下,ChatGPT的出现成为人工智能领域的一个全新亮点,为人工智能的发展注入动力。

ChatGPT是OpenAI公司提出的一种多模态大型语言模型(Large Language Model, LLM)。一经推出,凭借着出色的性能立刻吸引了全球无数用户的目光。

OpenAI公司发展的主要事件如下:

2015年12月11日,OpenAI成立;

2016年4月27日,发布OpenAI Gym Beta;

2017年7月20日,发布Proximal Policy Optimization (PPO)算法;

2019年7月22日,微软投资OpenAI并与其合作;

2021年1月5日,研究从文本创建图像神经网络DALL-E;

2022年12月1日,ChatGPT发布;

2023年2月2日,OpenAI宣布推出ChatGPT Plus订阅服务。

可见,OpenAI是一家以强化学习(Reinforcement Learning, RL)立足,并逐渐在AIGC(AI Generated Content)领域深耕的公司。OpenAI构建的Gym库是常用于测试RL算法性能的环境库,而PPO算法凭借优秀的性能以及泛用性,成为了RL算法的基准。一个在RL领域有深厚积淀的公司推出了ChatGPT,而不是专职研究NLP的团队,这是非常有趣的事。从之前发布的论文看,该方法的主要研究人员中,甚至很多作者更擅长RL领域。

ChatGPT的由来

在ChatGPT问世之前,OpenAI公司已经推出了3代GPT模型以及InstructGPT模型,它们的公布时间、主要研究点和参数规模如表1所示[1]。

表1 GPT系列模型指标

00b06ae0-ccde-11ed-bfe3-dac502259ad0.png

从ChatGPT的发展历程可见,从GPT3开始,它加入了情景学习的要素,使得模型的输出可以联系前后文的语义和语境,产生的结果性能更符合逻辑。而在InstructGPT中加入了人类反馈,成为了GPT系列模型性能取得突破的关键因素,即以RL方式依据人类反馈优化原模型,这就是Reinforcement Learning from Human Feedback。

对于数据驱动的语言模型(Language Model, LM),常规的方法是以预测下一个单词的方式和损失函数来建模,通过降低损失函数使模型预测的准确度提高。这种方式的目标是最小化损失函数,与用户希望获得的体验在优化方向上并不完全一致。因此,用人类反馈作为性能衡量标准调整模型,使模型的输出与人类价值对齐,取得了很好的效果。两种思路的对比如图1所示。

00c99736-ccde-11ed-bfe3-dac502259ad0.png

| 图1 对于机器学习模型追求目标的不同

因此,在GPT3的基础上,InstructGPT由于加入了人类反馈,取得了惊人的性能。从GPT1到GPT3,模型的规模快速扩张,参数量从1.17亿飙升至1750亿[1]。但规模的扩张没有带来性能的跨代提升。为何InstructGPT仅用了不到GPT3百分之一的参数量,却取得了更好的效果,RLHF发挥了巨大的作用。

*由于ChatGPT的算法细节官方还没有公开,考虑到InstructGPT使用的方法和ChatGPT接近,下面的讨论和应用的文献以InstructGPT为主。

优秀的性能从何而来

ChatGPT/InstructGPT的模型训练主要分为三个部分[2][3]

语言模型的预训练

原始的语言模型是不需要严格意义上的标签的,可以从数据库中抽取样本进行训练。在ChatGPT/InstructGPT中,OpenAI雇佣了40位专家对从数据集抽取的提示(prompt)编写了理想的输出,即进行了数据编写及标记数据,制作了包含11295个样本的监督学习训练集[4],如图2所示。利用该数据集对原始模型进行了监督训练,得到了SFT(supervised fine-tune)模型。

010cab3e-ccde-11ed-bfe3-dac502259ad0.png

| 图2 InstructGPT的数据集数量

奖励模型训练

利用预训练的SFT模型,可以根据不同的prompt输出回答了。但生成的回答不一定都能让用户满意。解决该问题的一个合理的思路是请标记者(labeler)对模型的输出进行打分,给更优秀的答案赋予更高的分值,以引导模型产生更合适的回答。但面临着以下问题:1.labeler很难一直跟上模型训练的过程;2.人工成本高昂;3.分值容易受到labeler主观因素影响。因此,考虑构建一个奖励模型。

首先针对同一个prompt利用模型产生多个结果,labeler仅需要对生成的结果按照从好到坏的顺序排序即可。该方法一方面可以降低labeler的工作量,另一方面,对于直接打分存在主观影响,给结果排序更可能获得一个相对收敛的结果。再引入Elo排位系统,将针对结果的排序转换成数值。该数值就以标量的形式表示了不同回答的好坏。也就构建起了《samples, reward》的训练样本。利用这些训练样本即可训练得到奖励模型。

利用RL方式微调LM

将该微调(fine-tune)任务描述为一个RL问题。InstructGPT是利用PPO算法微调语言模型。首先将一个prompt输出微调的LM模型和输出的SFT模型。微调的LM模型是根据RL策略产生的输出,并根据步骤2的奖励模型产生奖励值,以评价输出结果的好坏。根据PPO算法的原理,除了需要以获得更多奖励的方向进行微调LM模型的训练,还要计算该微调模型和SFT模型的KL散度,如下式所示[4]。

01300890-ccde-11ed-bfe3-dac502259ad0.png

式中,期望的第一项 即为奖励函数反馈的奖励值。第二项 为微调模型和SFT模型的KL散度,该惩罚项有助于保证模型输出合理连贯的文本片段。如果没有该惩罚项,优化可能会产生乱码的文本。第三项 是在预训练模型上求的期望,提升模型的泛化能力,防止模型仅关注当前任务。随着RL策略的更新,由于有奖励模型的引导,微调LM模型的输出为逐渐向人类评分较高的结果靠近。

*对于该训练过程,用户还可以继续将这些输出与模型的早期版本进行排名,目前还没有论文讨论这一点。这引入了RL策略和奖励模型演变的复杂动态,是一个复杂而开放的研究问题。

ChatGPT的思考和启示

ChatGPT的成功在给用户和研究者带来震撼的同时,也将目前机器学习的研究方法清晰的展现在人们面前。

机器学习技术的交叉和融合

016912fc-ccde-11ed-bfe3-dac502259ad0.png

| 图3 机器学习技术融合

传统上,机器学习可以分成监督学习、非监督学习和强化学习。非监督学习专注以挖掘数据之间的规律和价值。监督学习建立起数据和标签之间的映射关系,即 。强化学习则是可以根据当前状态进行智能决策。算法的进步不仅是在各自的领域深挖和探索,分支之间的技术融合也可以迸发出强大的性能提升。2013年,DeepMind提出用神经网络取代RL中的价值表格,可看作是利用深度学习(Deep Learning, DL)对RL的优化方法。该方法解决了价值表格由于表达能力不足无法适用于具有高纬度离散状态空间和连续动作空间的RL问题,极大地扩展了RL的研究范围和使用场景,开拓了深度强化学习(Deep Reinforcement Learning, DRL)这一领域[5]。该成果在后续优化后于2015年发表在Nature上[6]。而ChatGPT则是利用RL算法优化了DL模型的一个很好的例子。目前,利用RL进行fine-tune已经出现成为全新的模型训练范式的趋势。可以预见,该范式未来会广泛应用于其他研究领域。ChatGPT是否会像DQN那样,成为新的训练范式促进DL发展的标志,我们拭目以待。

*根据2023年2月26日的新闻,google计划将利用RL微调模型的训练范式引入到CV。

数据的价值

传统上对于深度模型的研究,无论是设计更巧妙的模型结构、或者是标记更多的训练样本、再或者是扩大模型参数期望大力出奇迹,都在“大”或者“多”的方向深挖。ChatGPT让我们看到了“质”的重要性。

0182f302-ccde-11ed-bfe3-dac502259ad0.png

| 图4 分阶段的模型训练方法

OpenAI公开表示将模型和人类意图对齐的投资,相较于训练更大的模型,投入产出比更高更好。就像前文所说,GPT3的参数有1750亿个,而InstructGPT的参数仅有13亿。数据量大幅缩减的同时,反而取得了碾压的性能优势。这是否意味着,目前超大规模的模型在“体型”方面是否已经足够应付目前研究的任务,而真正缺少的是高质量的关键数据呢?

RLHF的训练范式被越来越多的研究验证,对于模型性能的提升是空前的。那么未来针对不同的问题构建fine-tune的数据集就成为了关键。如图5所示。传统的、大量的数据集可能构建起了模型的初始性能,在此基础上需要专家样本对其进行引导,这部分数据的量远小于初始的数据集,但对模型取得的效果却远超简单的增加原始数据集的效果。针对任务,如何构建高质量的fine-tune数据也是需要解决的问题。

0199b63c-ccde-11ed-bfe3-dac502259ad0.png

| 图5 不同质量的数据支撑模型训练

ChatGPT的影响与挑战

在NovaAI问世之初,人们就见识到了AIGC的威力。如今,ChatGPT已经出现在我们的面前,高超的性能让很多行业的从业者感受到了巨大的压力。未来,GPT4的公布和投入使用,将会很大程度地影响当前的业界态势。

工作效率的提升

狭义上说,ChatGPT直接改变了文本处理、简单的代码编写、资料查询等生产和生活方式。微软已经将ChatGPT融合进bing搜索引擎,直接对google和baidu等搜索引擎取得了绝对的优势;将ChatGPT融合进office,提升工作效率。一些工作组也在尝试制作插件融合进集成开发环境(Integrated Development Environment, IDE),辅助程序员更快的完成项目代码等。

广义上说,受到ChatGPT启发,未来在更多的领域将产生性能直逼人类专家的AI模型和算法。ChatGPT是将RLHF应用与LLM的成功案例,但相信利用此方法产生高性能模型的探索会迎来快速增长,未来将会在各领域涌现。工具性能的差距某种程度上会影响社会信息化的发展进度,掌握未来核心算法和数据也是国内研究者需要面临的问题。

用户数据的获取

ChatGPT在上线之后仅5天就实现了获得超过100万用户的里程碑。这个速度远超twitter、FB等知名应用,大量的用户为ChatGPT带来了海量的数据。在大数据的时代,先入场往往就能够吸引更多的数据。但从目前的研究看,fine-tune数据是提升模型性能的关键,而这些数据往往需要具备专业知识的专家标记。大量的用户数据由于质量参差不齐,是否会使GPT的后续模型性能越来越优秀,并逐渐成为该领域独树一帜的存在,也是一个值得观察和研究的问题。

在生成模型之上的新范式

ChatGPT依然是一个文本生成模型,即使利用RLHF进行了和人类价值的对齐,但依然无法和人类输出的结果在任何情形下都一样。例如,当向ChatGPT询问某领域或者某会议的论文时,输出的结果从形式上看有模有样。但如果查阅,会发现很多文章是ChatGPT杜撰的。因此,ChatGPT目前只学到了“形似”。但将ChatGPT和bing搜索引擎融合的new bing一定程度上克服了这个问题。因为相较于ChatGPT的生成,new bing是搜索+生成的模型,而搜索得到的结果是客观存在的。因此,当使用new bing获取某领域或者某会议的文章时,产生的结果是真实存在的。这在一些领域可能更有使用价值。

国内缺少可对标的产品

ChatGPT带来的工作效率的提升是显而易见的,并且当该模型投入商业化后,能够取得的收益相信也是非常可观的。目前国内还没有性能可与之对标的产品。该模型训练不仅需要高昂的成本和时间,对于fine-tune的构建和后续的优化也非常重要。我们期待能够媲美GPT系列的国内语言模型的问世。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8542

    浏览量

    136331
  • 大数据
    +关注

    关注

    64

    文章

    9032

    浏览量

    143192
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10116

原文标题:揭秘ChatGPT的优秀性能:新训练范式下的启示与发展预测

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    labview如何实现数据的采集与实时预测

    现有以下问题:labview可以实现数据的采集以及调用python代码,但如何将这两项功能集成在一个VI文件里,从而实现数据的采集与实时预测。现有条件如下:已完成数据的采集系统,python中的预测代码也已经训练封装完成。
    发表于 12-03 21:13

    蜂鸟E203简单分支预测的改进

    是最简单的静态分支预测,其预测的命中率并不是很高,因此流水线常常需要因为冲刷而浪费很多周期,导致CPU的性能下降。因此,针对题目通过对E203微架构进行优化提升处理器性能的要求,我们想
    发表于 10-24 07:45

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    模型。 我们使用MNIST数据集,训练一个卷积神经网络(CNN)模型,用于手写数字识别。一旦模型被训练并保存,就可以用于对新图像进行推理和预测。要使用生成的模型进行推理,可以按照以下步骤进行操作: 1.
    发表于 10-22 07:03

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    大模型圈子,其多项性能超过了当时处于领先地位的ChatGPT 4,也证明了不需要高昂的费用也能训练出优质大模型。这激起了我的好奇心,借着这次机会好好阅读一DeepSeek的核心技术。
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    的负载平衡、多token预测技术(MTP) 等,大幅提升了模型的性能。 在模型训练方面,DeepSeek 依托自研的轻量级分布式训练框架 HAI-LLM,通过算法、框架和硬件的紧密配合
    发表于 06-09 14:38

    如何高效训练AI模型?这些常用工具你必须知道!

    大模型的发展同样面临瓶颈,训练所需的硬件资源日益增加,比如英伟达的芯片、电力等(这也可能是ChatGPT5迟迟没有出来的原因)。业界有观点认为,在大多数情况,并不需要全能的大模型,而
    的头像 发表于 04-17 16:43 2239次阅读
    如何高效<b class='flag-5'>训练</b>AI模型?这些常用工具你必须知道!

    用PaddleNLP为GPT-2模型制作FineWeb二进制预训练数据集

    ,使用PaddleNLP将FineWeb数据集中文本形式的数据,经过分词化(Tokenize),转换为大语言模型能直接使用的二进制数据,以便提升训练效果。 ChatGPT发布后,当代大语言模型(LLM)的训练流程基本遵循Open
    的头像 发表于 03-21 18:24 3909次阅读
    用PaddleNLP为GPT-2模型制作FineWeb二进制预<b class='flag-5'>训练</b>数据集

    OpenAI尝试减少对ChatGPT的审查

    近日,OpenAI宣布了一项新政策,旨在改变其训练人工智能模型的方式,以明确拥护“知识自由”的理念。OpenAI强调,无论一个话题多么具有挑战性或争议性,都应当被平等对待和呈现。 据OpenAI表示
    的头像 发表于 02-17 14:42 3671次阅读

    ?性能猛兽降临!RK3588 Mini PC 惊艳亮相

    还在为找不到一款性能炸裂又功耗友好的迷你主机而发愁吗?今天,必须给大家重磅揭秘这款 RK3588 Mini PC,绝对能打破你对迷你主机的固有印象! ?它搭载 Rockchip 新一代旗舰 AIoT
    发表于 02-15 11:51

    使用BP神经网络进行时间序列预测

    使用BP(Backpropagation)神经网络进行时间序列预测是一种常见且有效的方法。以下是一个基于BP神经网络进行时间序列预测的详细步骤和考虑因素: 一、数据准备 收集数据 : 收集用于训练
    的头像 发表于 02-12 16:44 1303次阅读

    基于梯度下降算法的三元锂电池循环寿命预测

    摘要:随着电动汽车产销量的持续攀升,对于动力电池循环寿命性能的评估及预测已成为行业内重点关注的问题之一。对某款三元锂电池进行了25℃及45℃的长周期循环寿命试验,将试验得到的循环寿命数据进行了
    的头像 发表于 01-16 10:19 801次阅读
    基于梯度下降算法的三元锂电池循环寿命<b class='flag-5'>预测</b>

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数,实现了快速适应。上下文学习则引入了注意力机制,使模型能够根据当前场景动态调整行为策略。在预训练-微调范式中,我们要注意任务表示的重要性:好的表示
    发表于 12-24 15:03

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    ,NVDIA与微软的竞争 。计算能力的飞速提升是大模型得以兴起的重要基石。GPU/TPU 等高性能计算设备的迅猛发展,宛如为大模型的训练打造了一台强大的引擎。它们能够以极高的速度处理海量的数据,使得
    发表于 12-24 13:10

    【「大模型启示录」阅读体验】营销领域大模型的应用

    今天跟随「大模型启示录」这本书,学习在营销领域应用大模型。 大模型通过分析大量的消费者数据,包括购买历史、浏览记录、社交媒体互动等,能够识别消费者的偏好和行为模式。这种分析能力有助于企业更好地理
    发表于 12-24 12:48

    【「大模型启示录」阅读体验】对大模型更深入的认知

    阅读《大模型启示录》这本书,我得说,它彻底颠覆了我对大模型的理解。作为一个经常用KIMI和豆包这类AI工具来完成作业、整理资料的大学生,我原以为大模型就是这些工具背后的技术。但这本书让我意识到
    发表于 12-20 15:46