0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

受控文本生成模型的一般架构及故事生成任务等方面的具体应用

深度学习自然语言处理 来源:哈工大讯飞联合实验室 作者:申资卓 2021-10-13 09:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自:哈工大讯飞联合实验室

本期导读:本文是对受控文本生成任务的一个简单的介绍。首先,本文介绍了受控文本生成模型的一般架构,点明了受控文本生成模型的特点。然后,本文介绍了受控文本生成技术在故事生成任务和常识生成任务上的具体应用,指出了受控文本生成技术在具体应用场景下的改进方向。

0. 什么是受控文本生成

文本生成任务是自然语言处理领域十分重要的一类任务。文本摘要、语法纠错、人机对话等很多自然语言处理任务都可以被视为文本生成任务。GPT-2、BART、T5等文本生成相关的技术也在这些任务上取得了较好的效果。

受控文本生成任务与常规的文本生成任务有一些不同。常规的文本生成任务对生成文本的内容(Content)通常没有强制性的约束,而受控文本生成任务会要求生成文本的内容必须满足一些既定的约束条件,如风格(Style)、主题(Topic)等。

例如,文本风格转换(Text Style Transfer)就是一类十分经典的受控文本生成任务,该任务要求生成文本的内容在语义上需要与转换前保持一致,在风格上需要转换为预定义好的目标风格。从应用的角度来看,受控文本生成技术更有希望构建出场景适配的、用户可接受的文本生成系统。因此,受控文本生成技术已经被越来越多的研究者关注。

1. 受控文本生成模型的一般架构

CMU的一些研究者们发表在COLING 2020的一篇论文对受控文本生成模型的一般架构(见图1)进行了比较细致的描述。受控文本生成模型在生成受控文本时可以通过5个子模块对生成文本进行控制。

第一个模块称为额外输入模块(External Input module),该模块负责提供生成受控文本时的初始信号

第二个模块称为序列输入模块(Sequential Input module),该模块负责提供生成受控文本时每个时间步上的输入。

第三个模块称为生成操作模块(Generator Operations module),该模块决定每个时间步向量表示的计算方式,即是使用RNN计算,还是使用Transformer计算,亦或是使用其他计算方式。

第四个模块称为输出模块(Output module),该模块负责将每个时间步的向量表示映射为输出结果。

第五个模块称为训练目标模块(Training Objective module),该模块负责损失函数的计算。

其中额外输入模块,是受控文本生成模型中比较特殊且重要的一个模块,该模块通常会提供一个与控制目标相关的向量表示作为受控文本生成的初始信号,从而保证生成的文本满足预定义的控制目标。另外,输出模块也是受控文本生成模型致力于改进的一个模块。常规的文本生成任务只需要将每个时间步的向量表示映射为词表分布作为输出空间即可,而在受控文本生成模型中就需要通过某种方式改变输出空间的分布去获得期望的输出结果。

2. 受控文本生成技术在故事生成任务上的应用

本节介绍一个发表在EMNLP 2020上的利用受控文本生成技术改进故事生成的工作。该工作使用的数据集为ROCStories dataset(该数据集中的每个故事都由5个句子组成),其任务设定为给定故事的第一个句子,机器自动生成后面的句子。

如果不使用受控文本生成技术,该任务就是一个简单的语言模型式的文本生成任务,直接使用GPT-2就可以完成。但是,直接使用GPT-2生成的故事很难保证生成的结果是语义连贯且逻辑自洽的。因此,将受控文本生成技术引入到故事生成任务中就有可能控制故事生成的内容,从而改进故事生成的效果。

该工作首先使用一个基于GPT-2的关键词预测模型预测出与下一句相关的关键词,然后使用这些关键词去大规模的知识库中检索出与这些关键词相关的三元组,这些三元组会通过一些模板被转化为句子。

由于这些由三元组转化的句子数量较多且可能存在大量的噪音,因此,还需要一个与下一句信息相关联的基于BERT的排序模型对这些句子进行排序,从而选择出与下一句信息最相关的TopN个句子。在获得这些来源于知识库的句子后,我们就可以将这些句子作为控制信息并与当前句进行拼接一起作为GPT-2的输入去生成下一句。上述流程需要循环进行直到生成故事中所有的句子。图2是该工作整体的流程图。

e3bc4c42-14b5-11ec-8fb8-12bb97331649.png

图2 基于知识库信息控制的故事生成流程图

这个工作虽然没有对受控文本生成模型进行改进,但是从大规模知识库中获取控制信息进行文本生成的思路还是有一定借鉴意义的。

3. 受控文本生成技术在常识生成任务上的应用

本节介绍一个发表在ACL 2021上将受控文本生成技术应用在常识生成任务上的工作。常识生成任务是一项比较新颖的文本生成任务。该任务的设定为给定一个概念集合,机器需要自动生成一个能够描述这个概念集合的句子,并且生成的句子不能违背常识。例如,给定一个概念集合{apple, bag, put},理想情况下机器应该生成“A girl puts an apple in her bag”这样的句子。如果机器生成了“A girl eats an apple”或者“A girl puts a bag in her apple”,都不能算是一个合格的生成结果。因此,要想获得一个较好的生成结果,我们首先需要保证的就是概念集合里的概念都要出现在输出结果中。

本节介绍的工作提出了一种名为“Mention Flags”的方法,通过在解码端引入一个提及标记矩阵(Mention Flag Matrix)来标记输入项与输出项的提及关系,从而控制每个时间步解码时的输出。提及标记矩阵中的元素共有3种不同的取值,取0时表示该输入项不是控制项,取1时表示该输入项是控制项,但在输出项中未出现。取2时表示该输入项是控制项,并已经在输出项中出现。以输入为{apple, bag, put},输出为“A girl puts an apple in her bag”为例。

在训练时,提及标记矩阵可以通过输入与输出的对齐数据直接转换得到。在推理时,我们只需要在每个时间步递增式地扩充提及标记矩阵的每一列即可。

最后是如何将提及标记矩阵融入到模型中的问题。由于该工作使用的是基于Transformer的文本生成模型,其作者将提及标记矩阵视为输入项与输出项的相对位置(Relative Position),在计算输出项与输入项的交叉注意力(Cross Attention)时将相对位置信息融入到模型计算中。

4. 小结

本文简单介绍了受控文本生成与常规文本生成任务的区别,并对受控文本生成模型的一般架构进行了阐述。受控文本生成的特殊点主要在于受控信息的获取以及对输出结果的控制。因此,要想获得一个较好的受控文本生成系统,就可以从这两点上对文本生成的模型或方案进行改进。另外,文本还介绍了受控文本生成技术在故事生成任务和常识生成任务上的应用,这些方法和思想同样可以借鉴到其他受控文本生成任务中。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • CMU
    CMU
    +关注

    关注

    0

    文章

    21

    浏览量

    15629
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26262
  • GPT
    GPT
    +关注

    关注

    0

    文章

    374

    浏览量

    16984
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23345

原文标题:受控文本生成任务简述

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工作流大模型节点说明

    模型节点是平台提供的基础节点之,开发者可以在该节点使用大语言模型处理任务。 节点说明 大模型节点可以调用大型语言
    发表于 03-19 14:56

    京东零售广告创意:统的布局生成和评估模型

    至关重要的作用。当前的布局生成方法在能力上具有任务特定性,并且评估标准与人类感知不致,导致其应用范围有限且评估效果不佳。为了解决这些问题,Uni-Layout实现了统一生成、模拟人类
    的头像 发表于 01-13 16:18 1197次阅读
    京东零售广告创意:统<b class='flag-5'>一</b>的布局<b class='flag-5'>生成</b>和评估<b class='flag-5'>模型</b>

    模型支撑后勤保障方案生成系统:功能特点与平台架构解析

        大模型支撑后勤保障方案生成系统:功能特点与平台架构解析    大模型支撑后勤保障方案生成系统凭借智能预测、动态调度、路径优化、库存管
    的头像 发表于 12-17 15:49 426次阅读

    五大大模型支撑后勤保障方案生成系统软件的应用与未来发展

    ”综合管理平台,以及北约联合后勤管理信息系统(JLMIS)。这些系统融合大数据、人工智能、物联网等前沿技术,实现从资源调度到应急响应的全流程智能优化。具体如下:    、北京华盛恒辉大模型后勤保障方案
    的头像 发表于 12-17 15:24 417次阅读

    万里红文本生成算法通过国家网信办备案

    近日,国家互联网信息办公室发布了第十四批深度合成服务算法备案信息,北京万里红科技有限公司(以下简称:万里红)自主研发的“万里红文本生成算法”正式通过备案。该算法致力于通过自动化的方式,提升知识问答、RAG分类、预测、文档生成的准确率,确保信息的安全性和合规性,为用户提供及
    的头像 发表于 11-14 09:06 837次阅读

    如何让大模型生成你想要的测试用例?

    应用大模型生成测试用例,常见的知识库,测试大模型,微调,RAG等技术门槛都不低,甚至很难,因此对于应用者而言,最快的方式就是应用好提示词,调教属于个人风格的测试用例智能生成模块,让智能
    的头像 发表于 09-26 10:01 1149次阅读
    如何让大<b class='flag-5'>模型</b><b class='flag-5'>生成</b>你想要的测试用例?

    思必驰鸣智能客服大模型通过生成式人工智能服务备案

    近日,江苏网信发布新生成式人工智能服务备案信息,其中,由思必驰控股子公司驰必准自主研发的鸣智能客服大模型通过《生成式人工智能服务管理暂
    的头像 发表于 09-16 18:08 1368次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    能够有效捕捉AI生成图像与真实手绘扫描图像在纹理、笔触、光影、全局致性等方面的细微差异。 边缘端部署:将模型量化、编译,最终高效运行在算力有限的MaixCAM-Pro开发板上。 实时
    发表于 08-21 13:59

    AI生成的测试用例真的靠谱吗?

    软件测试正经历场深刻的技术革命。AI,尤其是以GPT、通义千问、文心言、Claude等为代表的大语言模型(LLM),开始广泛介入测试流程:从需求分析、测试用例设计,到脚本生成与测试
    的头像 发表于 08-01 10:02 1925次阅读
    AI<b class='flag-5'>生成</b>的测试用例真的靠谱吗?

    速看!EASY-EAI教你离线部署Deepseek R1大模型

    和自然语言推理等复杂任务。作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。本文主要说明DeepSeek-R1
    的头像 发表于 07-25 15:22 1594次阅读
    速看!EASY-EAI教你离线部署Deepseek R1大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第章读后心得

    分析(趋势分析、数据可视化 ),辅助决策流程 自然语言处理 :语言理解(文本分类、意图识别等 )、翻译(多语言 )、转换(文体、格式转换 )、文本生成(文案、故事、诗歌文学创作 ),处理各类自然语言
    发表于 07-17 11:59

    Copilot操作指南():使用图片生成原理图符号、PCB封装

    “  上周推出支持图片生成模型的华秋发行版之后,得到了很多小伙伴的肯定。但看到更多的回复是:为什么我的 Copilot 无法生成符号?只有普通的文本回复?今天就为大家详细讲解下图片
    的头像 发表于 07-15 11:14 5348次阅读
    Copilot操作指南(<b class='flag-5'>一</b>):使用图片<b class='flag-5'>生成</b>原理图符号、PCB封装

    关于鸿蒙App上架中“AI文本生成模块的资质证明文件”的情况说明

    检查结果为“通过”或审核状态为“审核通过”。 那么对于这个问题,我也是尝试去解决……这里分享下我了解到的情况和方法 首先,这个政策虽然说是针对AI文本生成模块,但实际上,针对的是所有调用了AI大模型
    发表于 06-30 18:37

    谷歌新生成式AI媒体模型登陆Vertex AI平台

    我们在 Vertex AI 上推出新生成式 AI 媒体模型: Imagen 4、Veo 3 和 Lyria 2。
    的头像 发表于 06-18 09:56 1319次阅读

    生成式人工智能认证:重构AI时代的人才培养与职业跃迁路径

    ,恰似座连接技术前沿与个体成长的桥梁,既承载着时代对人才的迫切需求,也指向着未来职场的核心竞争力。 、技术革命的双重性:赋能与失衡并存 生成式人工智能的突破性,在于其首次让机器具备了“无中生有”的创造力。从
    的头像 发表于 05-23 09:29 1013次阅读