0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

检索增强型语言表征模型预训练

Tensorflowers 来源:TensorFlow 2020-09-27 14:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自然语言处理的最新进展以 无监督预训练 为基础,使用大量文本训练通用语言表征模型 (Language Representation Models),无需人工标注或标签。这些预训练模型,如 BERT和 RoBERTa,经证明可以记忆大量世界知识,例如“the birthplace of Francesco Bartolomeo Conti”、“the developer of JDK”和“the owner of Border TV”。

RoBERTa
https://arxiv.org/abs/1907.11692

经证明可以记忆大量世界知识
https://arxiv.org/pdf/1909.01066.pdf

虽然知识编码能力对于某些自然语言处理任务(如问题回答、信息检索和文本生成等)尤为重要,但这些模型是 隐式地 记忆知识,也就是说世界知识在模型权重中以抽象的方式被捕获,导致已存储的知识及其在模型中的位置都难以确定。此外,存储空间以及模型的准确率也受到网络规模的限制。为了获取更多的世界知识,标准做法是训练更大的网络,这可能非常缓慢或非常昂贵。

如果有一种预训练方法可以 显式地 获取知识,如引用额外的大型外部文本语料库,在不增加模型大小或复杂性的情况下获得准确结果,会怎么样?

例如,模型可以引用外部文集中的句子“Francesco Bartolomeo Conti was born in Florence”来确定这位音乐家的出生地,而不是依靠模型隐晦的访问存储于自身参数中的某个知识。像这样检索包含显性知识的文本,将提高预训练的效率,同时使模型能够在不使用数十亿个参数的情况下顺利完成知识密集型任务。

在 2020 ICML 我们介绍的 “REALM: Retrieval-Augmented Language Model Pre-Training”中,我们分享了一种语言预训练模型的新范例,用 知识检索器 (Knowledge Retriever) 增强语言模型,让 REALM 模型能够从原始文本文档中 显式 检索文本中的世界知识,而不是将所有知识存储在模型参数中。我们还开源了 REALM 代码库,以演示如何联合训练检索器和语言表示。

REALM: Retrieval-Augmented Language Model Pre-Training
https://arxiv.org/abs/2002.08909

REALM 代码库
https://github.com/google-research/language/tree/master/language/realm

背景:预训练语言表征模型

要了解标准语言表征模型记忆世界知识的方式,首先应该回顾这些模型的预训练过程。自从 BERT 问世以来,称为遮蔽语言建模 (Masked Language Modeling) 的填空任务已广泛用于预训练语言表征模型。给定某些单词被遮盖的文本,任务是填充缺失的单词。任务的样本如下所示:

I am so thirsty. I need to __ water.

预训练期间,模型将遍历大量样本并调整参数,预测缺失的单词(上述样本中的答案:answer: drink)。于是,填空任务使模型记住了世界中的某些事实。例如,在以下样本中,需要了解爱因斯坦的出生地才能填补缺失单词:

Einstein was a __-born scientist. (answer: German)

但是,模型捕获的世界知识存储在模型权重中,因此是抽象的,难以模型到底理解存储了哪些信息。

检索增强型语言表征模型预训练

与标准语言表征模型相比,REALM 通过 知识检索器 增强语言表征模型,首先从外部文档集中检索另一段文本作为支持知识,在实验中为 Wikipedia 文本语料库,然后将这一段支持文本与原始文本一起输入语言表征模型。

Wikipedia 文本语料库
https://archive.org/details/wikimediadownloads

REALM 的关键理念是检索系统应提高模型填补缺失单词的能力。因此,应该奖励提供了更多上下文填补缺失单词的检索。如果检索到的信息不能帮助模型做出预测,就应该进行阻拦,为更好的检索腾出空间。

假定预训练期间只有未标记的文本,那么该如何训练知识检索器?事实证明,可以使用填补单词的任务来间接训练知识检索器,无需任何人工标注。假设查询的输入为:

We paid twenty __ at the Buckingham Palace gift shop.

在没有检索的情况下,很难填补句子中缺失的单词 (answer: pounds),因为模型需要隐式存储白金汉宫所在国家和相关货币的知识,并在两者之间建立联系。如果提供了一段与从外部语料库中检索的必要知识显式连接的段落,模型会更容易填补缺失的单词。

在此例中,检索器会因为检索以下句子获得奖励。

Buckingham Palace is the London residence of the British monarchy.

由于检索步骤需要添加更多上下文,因此可能会有多个检索目标对填补缺失单词有所帮助,例如“The official currency of the United Kingdom is the Pound.”。下图演示了整个过程:

REALM 的计算挑战

扩展 REALM 预训练使模型从数百万个文档中检索知识具有一定挑战性。在 REALM 中,最佳文档选择为最大内积搜索 (Maximum Inner Product Search,MIPS)。检索前,MIPS 模型需要首先对集合中的所有文档进行编码,使每个文档都有一个对应的文档向量。输入到达时会被编码为一个查询向量。在 MIPS 中,给定查询就会检索出集合中文档向量和查询向量之间具有最大内积值的文档,如下图所示:

REALM 采用 ScaNN软件包高效执行 MIPS,在预先计算文档向量的情况下,相对降低了寻找最大内积值的成本。但是,如果在训练期间更新了模型参数,通常有必要对整个文档集重新编码文档向量。为了解决算力上的挑战,检索器经过结构化设计可以缓存并异步更新对每个文档执行的计算。另外,要实现良好性能并使训练可控,应每 500 个训练步骤更新文档向量而不是每步都更新。

将 REALM 应用于开放域问答

将 REALM 应用于开放域问答 (Open-QA) 评估其有效性,这是自然语言处理中知识最密集的任务之一。任务的目的是回答问题,例如“What is the angle of the equilateral triangle(等边三角形的一角是多少度)?”

在标准问答任务中(例如 SQuAD 或 Natural Questions),支持文档是输入的一部分,因此模型只需要在给定文档中查找答案。Open-QA 中没有给定文档,因此 Open-QA 模型需要自主查找知识,这就使 Open-QA 成为检查 REALM 有效性的绝佳任务。

SQuAD
https://arxiv.org/abs/1606.05250

Natural Questions
https://ai.google.com/research/NaturalQuestions/

下图是 OpenQA 版本 Natural Question 的结果。我们主要将结果与 T5 进行比较,T5 是另一种无需标注文档即可训练模型的方法。从图中可以清楚地看到,REALM 预训练生成了非常强大的 Open-QA 模型,仅使用少量参数 (300M),性能就比更大的 T5 (11B) 模型要高出近 4 个点。

结论

REALM 有助于推动人们对端到端检索增强型模型的关注,包括最近的一个检索增强型生成模型。我们期待以多种方式扩展这一工作范围,包括 :

将类似 REALM 的方法应用于需要知识密集型推理和可解释出处的新应用(超越 Open-QA)

了解对其他形式的知识进行检索的好处,例如图像、知识图谱结构甚至其他语言的文本。我们也很高兴看到研究界开始使用开源 REALM 代码库!

检索增强型生成模型
https://arxiv.org/abs/2005.11401

REALM 代码库
https://github.com/google-research/language/tree/master/language/realm

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3819

    浏览量

    52272
  • 代码
    +关注

    关注

    30

    文章

    4976

    浏览量

    74386
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14724

原文标题:REALM:将检索集成到语言表征模型,搞定知识密集型任务!

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RAG(检索增强生成)原理与实践

    引言 在大语言模型(LLM)蓬勃发展的今天,如何让AI更准确地回答特定领域的问题成为了一个关键挑战。RAG(Retrieval-Augmented Generation,检索增强生成)
    发表于 02-11 12:46

    什么是大模型,智能体...?大模型100问,快速全面了解!

    ,LLM)是大模型中最主要的一类,专门用于处理和生成人类语言。大语言模型通过“阅读”海量的文本数据(如书籍、网页、文章等)进行
    的头像 发表于 02-02 16:36 1133次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    选型手册:VS3540AC P 沟道增强型功率 MOSFET 晶体管

    威兆半导体推出的VS3540AC是一款面向-30V低压小电流场景的P沟道增强型功率MOSFET,采用SOT23小型封装,适配低压负电源切换、小型负载开关等领域。一、产品基本信息器件类型:P沟道增强型
    的头像 发表于 12-10 09:44 1278次阅读
    选型手册:VS3540AC P 沟道<b class='flag-5'>增强型</b>功率 MOSFET 晶体管

    选型手册:VS1401ATH N 沟道增强型功率 MOSFET 晶体管

    选型手册:VS1401ATHN沟道增强型功率MOSFET晶体管威兆半导体推出的VS1401ATH是一款面向100V中压超大电流场景的N沟道增强型功率MOSFET,采用TO-220AB直插封装,凭借
    的头像 发表于 11-28 12:14 2562次阅读
    选型手册:VS1401ATH N 沟道<b class='flag-5'>增强型</b>功率 MOSFET 晶体管

    FS60N03 N沟道增强型功率MOSFET数据表

    电子发烧友网站提供《FS60N03 N沟道增强型功率MOSFET数据表.pdf》资料免费下载
    发表于 09-23 14:59 0次下载

    新洁能推出增强型N沟道MOSFET系列产品

    新洁能研发团队沟槽工艺平台推出耐压30V 1mΩ级别增强型N沟道MOSFET 系列产品。
    的头像 发表于 08-22 18:02 2518次阅读
    新洁能推出<b class='flag-5'>增强型</b>N沟道MOSFET系列产品

    增强型触摸按键芯片RM1281A规格书

    电子发烧友网站提供《增强型触摸按键芯片RM1281A规格书.pdf》资料免费下载
    发表于 07-29 16:22 0次下载

    18 路触按和PWM增强型 RISC MCU RM1211A数据手册

    电子发烧友网站提供《18 路触按和PWM增强型 RISC MCU RM1211A数据手册.pdf》资料免费下载
    发表于 07-29 16:20 10次下载

    26 路触控按键和 PWM 的增强型 8051SOC RM1221A数据手册

    26 路触控按键和 PWM 的增强型 8051SOC基于 8051 指令的高速 1T 增强型 MTP SOC
    发表于 07-25 15:28 0次下载

    26 路触控按键和PWM的增强型 RM1273A用户手册

    26 路触控按键和 PWM 的增强型 8051MCU  基于 8051 指令的高速 1T 增强型 MTP SOC
    发表于 07-24 15:10 5次下载

    增强型和耗尽MOS管的应用特性和选型方案

    耗尽MOS的特点让其应用极少,而PMOS的高成本和大电阻也让人望而却步。而综合开关特性和成本型号优势的增强型NMOS成为最优选择。合科泰作为电子元器件专业制造商,可以提供各种种类丰富、型号齐全
    的头像 发表于 06-20 15:38 1717次阅读
    <b class='flag-5'>增强型</b>和耗尽<b class='flag-5'>型</b>MOS管的应用特性和选型方案

    注入增强型IGBT学习笔记

    加强IGBT导通时的电导调制效应,又可限制阳极空穴的注入,于是形成了注入增强型 IGBT(Injection Enhanced Insulated Gate Bipolar Transistor,IE-IGBT)。
    的头像 发表于 05-21 14:15 2039次阅读
    注入<b class='flag-5'>增强型</b>IGBT学习笔记

    2319AI P沟道增强型MOSFET规格书

    电子发烧友网站提供《2319AI P沟道增强型MOSFET规格书.pdf》资料免费下载
    发表于 05-14 17:39 0次下载

    2318AI N沟道增强型MOSFET规格书

    电子发烧友网站提供《2318AI N沟道增强型MOSFET规格书.pdf》资料免费下载
    发表于 05-09 18:14 0次下载

    60N02D N沟道增强型MOSFET规格书

    电子发烧友网站提供《60N02D N沟道增强型MOSFET规格书.pdf》资料免费下载
    发表于 05-09 18:04 0次下载