0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT背后的原理简析

要长高 来源:网络整理 作者:网络整理 2023-02-09 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ChatGPT 是 OpenAI 发布的最新语言模型,比其前身 GPT-3 有显著提升。与许多大型语言模型类似,ChatGPT 能以不同样式、不同目的生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型,并且在设计上非常注重交互性。

从官网介绍可以看到,ChatGPT与InstructGPT是同源的模型。

chatGPT是一种基于转移学 习的大型语言模型,它使用GPT-2 (Generative PretrainedTransformer2)模型的技术,并进行了进一步的训练和优化。

GPT-2模型是一种基于注意力机制的神经网络模型,它能够处理序列建横问题,如自然语言处理中的语言建模和机器翻译。它使用了一种叫做transformer的架构, 它能够通过自注意力机制来学习语言的结构和语义。GPT-2模型预先训练了一个大型语料库上,以便在实际应用中能够更好地表现。

chatGPT是在GPT-2模型的基础上进一步训练和优化而得到的。 它使用了更多的语料库,并且进行了专门的训练来提高在对话系统中的表现。这使得chatGPT能够在对话中白然地回应用户的输入,并且能够生成流畅、连贯、通顺的文本。

那么接下来我们来看下什么是InstructGPT。从字面上来看,顾名思义,它就是指令式的GPT,“which is trained to follow an instruction in a prompt and provide a detailed response”。接下来我们来看下InstructGPT论文中的主要原理:

pYYBAGPknAmAfqGdAAFfaj7uGl0745.png

InstructGPT整体训练流程

从该图可以看出,InstructGPT是基于GPT-3模型训练出来的,具体步骤如下:

步骤1.)从GPT-3的输入语句数据集中采样部分输入,基于这些输入,采用人工标注完成希望得到输出结果与行为,然后利用这些标注数据进行GPT-3有监督的训练。该模型即作为指令式GPT的冷启动模型。

步骤2.)在采样的输入语句中,进行前向推理获得多个模型输出结果,通过人工标注进行这些输出结果的排序打标。最终这些标注数据用来训练reward反馈模型。

步骤3.)采样新的输入语句,policy策略网络生成输出结果,然后通过reward反馈模型计算反馈,该反馈回过头来作用于policy策略网络。以此反复,这里就是标准的reinforcement learning强化学习的训练框架了。

所以总结起来ChatGPT(对话GPT)其实就是InstructGPT(指令式GPT)的同源模型,然后指令式GPT就是基于GPT-3,先通过人工标注方式训练出强化学习的冷启动模型与reward反馈模型,最后通过强化学习的方式学习出对话友好型的ChatGPT模型。

InstructGPT的训练实际上是分为三个阶段的,第一阶段就是我们上文所述,利用人工标注的数据微调GPT3;第二阶段,需要训练一个评价模型即Reward Model,该模型需学习人类对于模型回复的评价方式,对于给定的上文与生成回复给出分数;第三阶段,利用训练好的Reward Model作为反馈信号,去指导GPT进一步进行微调,将目标设定为Reward分数最大化,从而使模型产生更加符合人类偏好的回复。

文章综合CSDN、赛尔实验室、 IT架构师联盟

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106778
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9808
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10069
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新能源电池产业链及投资机会-磷酸亚铁锂

    新能源电池产业链及投资机会-磷酸亚铁锂  一、前言
    发表于 12-25 09:34 1168次阅读

    LLM风口背后ChatGPT的成本问题

    趁着ChatGPT这一热门话题还未消退,我们来聊一聊这类大规模语言模型(LLM)或通用人工智能(AGI)背后的细节。毕竟目前相关的概念股跟风大涨,但还是有不少人在持观望态度。无论是国外还是国内
    的头像 发表于 02-15 01:19 5813次阅读

    基于ATM理念的UTRAN传输架构

    基于ATM理念的UTRAN传输架构:UTRAN(UMTS无线接入网)系统传输网承载其内部业务传送及至CN(核心网)侧的业务汇聚功能,考虑3G网络内,话音、媒体流及Internet等数据业务的多样
    发表于 10-22 10:49 15次下载

    电动汽车用锂离子电池技术的国内外进展

    电动汽车用锂离子电池技术的国内外进展
    发表于 11-10 13:53 954次阅读

    PCB线路板电镀铜工艺

    PCB线路板电镀铜工艺   一.电镀工艺的分类:   酸性光亮铜电镀电镀镍/金电镀锡   二.工艺流程:
    发表于 11-17 14:01 4590次阅读

    EPON技术

    EPON技术 EPON是一个新技术,用于保证提供一个高品质与高带宽利用率的应用。   EPON在日本、韩国、中国大陆、中国台湾及其它以以太网络为基础的地区都
    发表于 01-22 10:43 1110次阅读

    笔记本屏幕亮度与反应速度

    笔记本屏幕亮度与反应速度 屏幕亮度   笔记本TFT-LCD的亮度值一般都在150~200 cd/m2(极少数可以
    发表于 01-23 09:34 968次阅读

    BGA封装技术与质量控制

    BGA封装技术与质量控制   SMT(Surface Mount Technology)表面安装技术顺应了电子产品小型化、轻型化的潮流趋势,为实现电子
    发表于 03-30 16:49 1778次阅读

    鼠标HID例程(中)

    鼠标 HID 例程 紧接《鼠标 HID 例程(上)》一文,继续向大家介绍鼠 标 HID 例程的未完的内容。
    发表于 07-26 15:18 0次下载

    笼型三相异步电动机噪声故障

    笼型三相异步电动机噪声故障_陈金刚
    发表于 01-01 15:44 1次下载

    比较器的原理及应用资料下载

    电子发烧友网为你提供比较器的原理及应用资料下载的电子资料下载,更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料,希望可以帮助到广大的电子工程师们。
    发表于 04-14 08:40 27次下载
    <b class='flag-5'>简</b><b class='flag-5'>析</b>比较器的原理及应用资料下载

    5G AAU 功放控制和监测模块

    5G AAU 功放控制和监测模块
    发表于 10-28 12:00 2次下载
    5G AAU 功放控制和监测模块<b class='flag-5'>简</b><b class='flag-5'>析</b>

    ChatGPT成功背后的技术原因

    ChatGPT不仅是自然语言理解领域的一项技术进步,会引发新一轮信息服务和内容生成领域的商业潮流,同时,其背后基于海量数据的深度生成技术,以及基于人类反馈的强化学习技术,是更长远的进步动力,会引起生命科学等领域的长足发展。
    发表于 02-21 09:40 1460次阅读

    chatgpt是什么意思 ChatGPT背后的技术原理

      今天我们为大家带来的文章,深入浅出地阐释了ChatGPT背后的技术原理,没有NLP或算法经验的小伙伴,也可以轻松理解ChatGPT是如何工作的。  ChatGPT是一种机器学习自然
    发表于 07-18 17:12 0次下载

    AFE8092帧同步特性

    AFE8092帧同步特性
    的头像 发表于 08-24 13:37 1190次阅读
    AFE8092帧同步特性<b class='flag-5'>简</b><b class='flag-5'>析</b>