ChatGPT背后的原理简析-电子发烧友网

ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型，并且在设计上非常注重交互性。

从官网介绍可以看到，ChatGPT与InstructGPT是同源的模型。

chatGPT是一种基于转移学习的大型语言模型，它使用GPT-2 （Generative PretrainedTransformer2）模型的技术，并进行了进一步的训练和优化。

GPT-2模型是一种基于注意力机制的神经网络模型，它能够处理序列建横问题，如自然语言处理中的语言建模和机器翻译。它使用了一种叫做transformer的架构，它能够通过自注意力机制来学习语言的结构和语义。GPT-2模型预先训练了一个大型语料库上，以便在实际应用中能够更好地表现。

chatGPT是在GPT-2模型的基础上进一步训练和优化而得到的。它使用了更多的语料库，并且进行了专门的训练来提高在对话系统中的表现。这使得chatGPT能够在对话中白然地回应用户的输入，并且能够生成流畅、连贯、通顺的文本。

那么接下来我们来看下什么是InstructGPT。从字面上来看，顾名思义，它就是指令式的GPT，“which is trained to follow an instruction in a prompt and provide a detailed response”。接下来我们来看下InstructGPT论文中的主要原理：

InstructGPT整体训练流程

从该图可以看出，InstructGPT是基于GPT-3模型训练出来的，具体步骤如下：

步骤1.）从GPT-3的输入语句数据集中采样部分输入，基于这些输入，采用人工标注完成希望得到输出结果与行为，然后利用这些标注数据进行GPT-3有监督的训练。该模型即作为指令式GPT的冷启动模型。

步骤2.）在采样的输入语句中，进行前向推理获得多个模型输出结果，通过人工标注进行这些输出结果的排序打标。最终这些标注数据用来训练reward反馈模型。

步骤3.）采样新的输入语句，policy策略网络生成输出结果，然后通过reward反馈模型计算反馈，该反馈回过头来作用于policy策略网络。以此反复，这里就是标准的reinforcement learning强化学习的训练框架了。

所以总结起来ChatGPT（对话GPT）其实就是InstructGPT（指令式GPT）的同源模型，然后指令式GPT就是基于GPT-3，先通过人工标注方式训练出强化学习的冷启动模型与reward反馈模型，最后通过强化学习的方式学习出对话友好型的ChatGPT模型。

InstructGPT的训练实际上是分为三个阶段的，第一阶段就是我们上文所述，利用人工标注的数据微调GPT3；第二阶段，需要训练一个评价模型即Reward Model，该模型需学习人类对于模型回复的评价方式，对于给定的上文与生成回复给出分数；第三阶段，利用训练好的Reward Model作为反馈信号，去指导GPT进一步进行微调，将目标设定为Reward分数最大化，从而使模型产生更加符合人类偏好的回复。

文章综合CSDN、赛尔实验室、 IT架构师联盟

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4574

浏览量
98749
OpenAI

OpenAI

+关注

关注
8

文章
760

浏览量
5913
ChatGPT

ChatGPT

+关注

关注
27

文章
1409

浏览量
4747

了解ChatGPT背后的芯片

ChatGPT 等生成式人工智能工具对社会众多领域产生了巨大影响。作为工程师，了解使之成为可能的计算技术对我们很有帮助。近年来，随着新技术以前所未有的速度出现，人工智能取得了重大飞跃。毫无疑问

发表于 08-11 10:45 •806次阅读

了解<b class='flag-5'>ChatGPT</b><b class='flag-5'>背后</b>的芯片

ChatGPT背后的数据标注，工作量大，报酬低！

用户在短短上线两个月就达到1亿。而强大的ChatGPT背后，离不开一项重要的工作，那就是数据标注。据美媒报道，为了训练ChatGPT，OpenAI的合作伙伴Sama雇佣了肯尼亚、乌干达和印度的外包员工，对庞大的数据库手动进

发表于 02-17 09:17 •7006次阅读

ChatGPT背后的算力芯片

在今年以来可以说是最热的赛道，而AI大模型对算力的需求爆发，也带动了AI服务器中各种类型的芯片需求，所以本期核芯观察将关注ChatGPT背后所用到的算力芯片产业链，梳理目前主流类型的AI算力芯片产业上下游企业以及运作模式。 Chat

发表于 05-21 00:01 •3097次阅读

【核芯观察】ChatGPT背后的算力芯片（二）

在今年以来可以说是最热的赛道，而AI大模型对算力的需求爆发，也带动了AI服务器中各种类型的芯片需求，所以本期核芯观察将关注ChatGPT背后所用到的算力芯片产业链，梳理目前主流类型的AI算力芯片产业上下游企业以及运作模式。接上期Chat

发表于 05-28 00:34 •2379次阅读

【核芯观察】ChatGPT背后的算力芯片（三）

在今年以来可以说是最热的赛道，而AI大模型对算力的需求爆发，也带动了AI服务器中各种类型的芯片需求，所以本期核芯观察将关注ChatGPT背后所用到的算力芯片产业链，梳理目前主流类型的AI算力芯片产业上下游企业以及运作模式。接上期Chat

发表于 06-04 05:05 •2125次阅读

ChatGPT背后的核心技术

输入几个简单的关键词，AI能帮你生成一篇短篇小说甚至是专业论文。最近大火的ChatGPT在邮件撰写、文本翻译、代码编写等任务上强大表现，让埃隆·马斯克都声称感受到了AI的“危险”。ChatGPT

发表于 02-09 16:18 •4.7w次阅读

解读ChatGPT背后的技术重点

我们观察到，尽管在训练数据、模型和微调方面存在许多差异，但也存在一些共性。上述所有聊天机器人的一个共同目标是「指令依从 (instruction following)」，即遵循用户指定的指令。例如，要求 ChatGPT 写一首关于微调的诗。

发表于 02-09 17:11 •1233次阅读

ChatGPT背后的核心技术报告

一是，未来很长一段时间在智能化领域，我们都将经历“科研、算力、基础架构、工程、数据、解决方案”这个循环的快速迭代；流动性、创新性短期不会稳定下来，而是会越来越强。

发表于 02-14 09:13 •1727次阅读

ChatGPT关于几个硬件问题的回答

相比以往的AI对话模型，ChatGPT背后的自然语言处理技术着实让人感到惊叹。

发表于 02-15 14:42 •380次阅读

ChatGPT背后的经济账

搜索是一个有趣的机会，2021年，仅谷歌就从搜索相关的广告中获得了超1000亿美元的收入[1]。ChatGPT（一个使用LLM的聊天机器人，它可以生成高质量的答案，以回答类似于搜索的查询）的“病毒性”传播已经引发了许多关于搜索领域潜在影响的思考，其中一个就是LLM如今的经济可行性：

发表于 02-16 11:35 •1335次阅读

解析ChatGPT背后的技术演进

GPT-3模型于2020年6月被发布，它在多项自然语言处理任务上取得了惊人的表现，并被认为是迄今为止最先进的自然语言处理模型之一。GPT-3训练使用的数据集为多种高质量数据集的混合，一次保证了训练质量；

发表于 03-28 13:54 •3252次阅读

解析ChatGPT背后的技术演进

　　Attention注意力机制与Transformer是大语言模型的基石。　　1）Attention机制在并行计算（效率更高）以及解决长距离信息依赖的能力（效果更好）上优于过去的神经网络模型。　　2）Transformer模型没有使用传统的CNN和RNN结构，其完全是由Attention机制组成，其中Self-Attention（自注意力）是Transformer的核心。　　3）OpenAI的GPT模型和Google的BERT模型虽然都是基于Transformer所构建，但GPT模型仅使用了解

发表于 03-29 16:57 •1次下载

ChatGPT背后的大模型技术

由于ChatGPT可以适用于非常多的任务，很多人认为 AI 已经迎来拐点。李开复将此前的 AI 定义为 AI 1.0，此后的AI定义为AI 2.0。AI 1.0 中模型适用于单领域，AI 2.0

发表于 05-29 11:16 •922次阅读

chatgpt是什么意思 ChatGPT背后的技术原理

　　今天我们为大家带来的文章，深入浅出地阐释了ChatGPT背后的技术原理，没有NLP或算法经验的小伙伴，也可以轻松理解ChatGPT是如何工作的。　　ChatGPT是一种机器学习自然

发表于 07-18 17:12 •0次下载

了解ChatGPT背后的芯片

帮助。近年来，随着新技术以前所未有的速度出现，人工智能取得了重大飞跃。毫无疑问，ChatGPT、Bard和Einstein等工具将影响各个行业——从媒体和内容创建

发表于 08-14 10:13 •382次阅读