0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Transformer架构的InstructGPT介绍

jf_pmFSk4VX 来源:GiantPandaCV 2023-03-08 09:48 次阅读

1. 论文信息

1.1 prompt learning

Prompt Learning是自然语言处理中的一种技术,它通过设计一些提示语(prompt)来指导模型在执行任务时进行学习和推理。Prompt Learning技术的核心思想是,在模型的输入中加入一些人工设计的提示语,这些提示语能够帮助模型更好地理解输入数据的含义和任务要求,从而提高模型在特定任务上的性能。通常情况下,提示语可以是一个问题、一段描述或者一个特定的标记序列。

1.2 GPT的介绍

GPT(Generative Pre-trained Transformer)的目标是训练出一种能够生成自然语言文本的模型。它使用了大规模的预训练数据和神经网络技术来自动学习文本数据的语言规律,进而能够生成自然流畅的文本。GPT是一种基于Transformer架构的深度学习模型,可以用于自然语言生成、文本分类、语言理解等多种任务。

GPT的目标是通过无监督学习的方式,将海量的自然语言文本转化为一种通用的语言表示形式,从而使得模型能够在不同的任务中进行迁移学习,提高模型的泛化能力。为了达到这个目标,GPT使用了预训练和微调两个阶段。在预训练阶段,GPT使用大量的无标签数据对模型进行训练,从而学习文本的语言规律;在微调阶段,GPT使用有标签数据对模型进行微调,以适应特定的任务。

GPT是“Generative Pre-trained Transformer”的缩写,是由OpenAI推出的自然语言处理模型。目前已经发布了三代版本,每一代都有其独特的特点和应用。

以下是GPT一、二、三代的对比:

GPT-1

发布于2018年,包含1.17亿个参数

使用了12层transformer结构,可以预测下一个词。

在通用自然语言处理任务上表现出色,包括文本分类、情感分析、摘要生成等。

缺点是对于长文本生成不如人意,容易出现重复和无意义的内容。

GPT-2

发布于2019年,参数量是GPT-1的10倍,达到了1.5亿个。

使用了24层transformer结构,可以生成更长、更复杂的文本。

在多项自然语言处理任务上表现出色,并且可以生成高质量的文章、对话等。

由于生成的文本过于真实,存在滥用的风险,OpenAI没有将模型公开发布。

GPT-3

发布于2020年,参数量是GPT-2的13倍,达到了1.75万亿个。

使用了1750亿个语言模型参数,可以生成更加自然、流畅、有逻辑的文本。

在多项自然语言处理任务上表现出色,甚至可以完成类似编程的任务,例如编写简单的代码。

GPT-3也被用于自然语言生成、对话系统、问答系统等应用,具有广泛的应用前景。

总体来说,随着模型的迭代和参数量的增加,GPT的性能逐渐提高,同时也具有更广泛的应用前景。

1.3 InstructGPT

InstructGPT是一种基于GPT-3的自然语言处理模型,它是由AI2(Allen Institute for Artificial Intelligence)开发的。与GPT-3不同的是,InstructGPT专注于解决指导型对话(instructional dialogue)的任务。指导型对话是指一种对话形式,其中一个人(通常是教师或者专家)向另一个人(通常是学生或者用户)提供指导、解释和建议。在这种对话中,用户通常会提出一系列问题,而指导者则会针对这些问题提供详细的答案和指导。

InstructGPT使用了GPT-3的架构和预训练技术,但是对其进行了针对性的微调,使其能够更好地应对指导型对话任务。具体而言,InstructGPT通过对大量的指导型对话数据进行微调,使得模型能够更加准确地理解用户的问题,并且能够生成更加准确、详细的答案和指导。此外,InstructGPT还支持多轮对话,可以对用户的多个问题进行连续的回答和指导。

InstructGPT的应用场景包括在线教育、智能客服等领域,可以帮助用户更快地获取所需的知识和指导,并且能够提高教育和客服的效率。

2. 方法框架

InstructGPT是一种基于语言模型的自然语言处理技术,旨在解决指令性任务(instructional tasks),例如问答、推荐、提示、教育等领域。其技术路线主要包括以下几个步骤:

数据收集:收集大规模的指令性文本数据,包括问答、教育、用户指南等。

数据预处理:对收集的数据进行预处理,包括分词、标记化、词干提取、停用词过滤、词向量化等。

模型训练:使用预处理后的数据训练深度学习模型,通常采用基于Transformer的神经网络结构,例如GPT(Generative Pre-trained Transformer)。

模型微调:针对具体的指令性任务,对预训练模型进行微调,例如通过迁移学习或fine-tuning的方法,使得模型能够更好地适应特定的任务和领域。

模型优化:对微调后的模型进行进一步优化,包括模型压缩、量化、剪枝等技术,以提高模型的速度和效率。

应用部署:将优化后的模型部署到具体的应用场景中,例如问答系统、推荐系统、教育平台等,提供高效、准确的指令性服务。

3. InstructGPT的训练模式

0cc2a646-bcb1-11ed-bfe3-dac502259ad0.png

我们得想办法怎么让这个过程变得更轻松一点:

首先利用GPT-3进行初始化,希望对这个比较强大的模型先进行一些prompt learning来进行fine-tuning。先人工构造一批数据,让模型学一学,获得一个模型。

然后,我们让模型根据一系列提示输出来评估其效果。我们让模型针对每个提示生成多个输出,随后让人员对这些输出进行打分排序。虽然排序过程也需要人工干预,但相较于直接让人员编写训练数据,这种方法更为便捷。因此,这一过程能够更轻松地标注更多数据。然而,这些标注数据不能直接用于训练模型,因为它们代表了一种排序结果。但我们可以训练一个打分模型,称为“reward model”。该模型的作用在于对于每一个pair进行打分,以评估输出结果与提示是否足够匹配。

接下来,我们继续训练模型,给定一些prompt,得到输出之后,把prompt和output输入给RM,得到打分,然后借助强化学习的方法,来训练该模型,如此反复迭代,最终修炼得到最终的模型,也就是最终的InstructGPT。

可以看出InstructGPT的训练模式就是先靠人类手工设计一些精华信息,然后利用模型来尝试模仿这些信息。之后根据模仿程度进行比对和打分,根据打分进行调整。最后打分机器就可以和模型配合,自动化地进行模型的迭代。这种迭代过程就是RLHF

InstructGPT论文中,给出了上述三个步骤,涉及的训练样本也是非常多的:

SFT数据集:人类预设的13k的prompts;

RM数据集:用来训练打分模型的数据,包含33K的prompts;

PRO数据集:31K最后的数据。

前两步的prompts,来自于OpenAI的在线API上的用户使用数据,以及雇佣的标注者手写的。最后一步则全都是从API数据中采样的,下表的具体数据:

4. 对InstructGPT的展望

作为一个基于自然语言处理技术的AI语言模型,InstructGPT可以为用户提供基本的对话和回答问题的服务,但它仍存在以下不足:

缺乏真实人类的情感和情绪表达能力,无法在情感和社交领域提供有意义的支持。

缺乏真实世界知识和实际经验,对于需要领域专业知识的问题回答可能不够准确。

可能存在一些潜在的偏见和错误,这取决于模型的训练数据和算法

随着对话时间的增加,InstructGPT的回答可能变得越来越冗长或者不够精确。

语言模型的工作基于已有的数据集,如果没有合适的数据集或者缺少某些领域的数据,模型的表现就会受到限制。

总之,InstructGPT目前还存在一些限制,尽管我们已经取得了很大进展,但仍需要进一步的研究和发展,以实现更加高效和智能的AI对话系统。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Pro
    Pro
    +关注

    关注

    0

    文章

    94

    浏览量

    39110
  • GPT
    GPT
    +关注

    关注

    0

    文章

    302

    浏览量

    14872
  • 自然语言处理

    关注

    1

    文章

    509

    浏览量

    13103
  • OpenAI
    +关注

    关注

    8

    文章

    763

    浏览量

    5918

原文标题:InstructGPT介绍

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    关于深度学习模型Transformer模型的具体实现方案

    Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
    发表于 11-17 10:34 320次阅读
    关于深度学习模型<b class='flag-5'>Transformer</b>模型的具体实现方案

    ABBYY PDF Transformer+创建PDF文档的几种方式

    ABBYY PDF Transformer+可用于从纸质文档、Microsoft Word文档、图像文件和从任何其他流行格式创建PDF文件。下面由小编给大家简单介绍通过ABBYY PDF
    发表于 09-18 15:44

    如何更改ABBYY PDF Transformer+界面语言

    在安装ABBYY PDF Transformer+时会让您选择界面语言。此语言将用于所有消息、对话框、按钮和菜单项。在特殊情况下,您可能需要在安装完成后更改界面语言以适应需求,方法其实很简单,本文
    发表于 10-11 16:13

    ABBYY PDF Transformer+快捷键教程

    ABBYY PDF Transformer+提供了一系列的操作快捷键,恰当的运用快捷键能够很好的帮助你节约时间,提高效率。文本下面介绍了ABBYY PDF Transformer+快捷键的具体指令
    发表于 10-26 11:33

    谷歌将AutoML应用于Transformer架构,翻译结果飙升!

    为了探索AutoML在序列域中的应用是否能够取得的成功,谷歌的研究团队在进行基于进化的神经架构搜索(NAS)之后,使用了翻译作为一般的序列任务的代理,并找到了Evolved Transformer这一新的Transformer
    的头像 发表于 06-16 11:29 2872次阅读

    如何使用Transformer来做物体检测?

    导读 本文为一个Facebook的目标检测Transformer (DETR)的完整指南,详细介绍了DETR架构的内部工作方式以及代码。 介绍 DEtection
    的头像 发表于 04-25 10:45 2344次阅读
    如何使用<b class='flag-5'>Transformer</b>来做物体检测?

    Transformer深度学习架构的应用指南介绍

    Understanding, NLU)信息检索和自然语言生成(Natural Language Generation, NLG)等语言和语义任务中取得了显著的成功。这一壮举主要归功于开创性的Transformer架构,导致
    的头像 发表于 05-06 11:32 4237次阅读
    <b class='flag-5'>Transformer</b>深度学习<b class='flag-5'>架构</b>的应用指南<b class='flag-5'>介绍</b>

    使用跨界模型Transformer来做物体检测!

    这是一个Facebook的目标检测Transformer (DETR)的完整指南。 介绍 DEtection TRansformer (DETR)是Facebook研究团队巧妙地利
    的头像 发表于 06-10 16:04 1951次阅读
    使用跨界模型<b class='flag-5'>Transformer</b>来做物体检测!

    Transformer的复杂度和高效设计及Transformer的应用

    有帮助。 本文涉及25篇Transformer相关的文章,对原文感兴趣的读者可以关注公众号回复: ACL2021Transformers,下载本文所涉及的所有文章~本文主要内容: 前言 ACL 2021
    的头像 发表于 09-01 09:27 5717次阅读
    <b class='flag-5'>Transformer</b>的复杂度和高效设计及<b class='flag-5'>Transformer</b>的应用

    基于Transformer架构的文档图像自监督预训练技术

    本文简要介绍ACM MM 2022录用论文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。该论文
    的头像 发表于 11-15 11:32 986次阅读

    InstructGPT与ChatGPT的学习与解读

      相比于GPT,2022年初推出的InstructGPT在某种程度上更像是ChatGPT的“直系前辈”。因为InstructGPT大量的使用到了人类反馈与指导,在大力出奇迹的GPT3的基础上,更加
    发表于 02-13 09:47 0次下载
    <b class='flag-5'>InstructGPT</b>与ChatGPT的学习与解读

    ChatGPT/GPT的原理 ChatGPT的技术架构

    ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的对话AI模型,是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4
    发表于 02-24 10:05 1466次阅读

    Transformer结构及其应用详解

    本文首先详细介绍Transformer的基本结构,然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看
    的头像 发表于 06-08 09:56 1452次阅读
    <b class='flag-5'>Transformer</b>结构及其应用详解

    RetNet架构Transformer架构对比分析

    微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer 架构的优势是同时具备:训练
    发表于 07-26 10:44 982次阅读
    RetNet<b class='flag-5'>架构</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>对比分析

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 222次阅读
    基于<b class='flag-5'>Transformer</b>的多模态BEV融合方案