0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

检索增强型语言表征模型预训练

Tensorflowers 来源:TensorFlow 2020-09-27 14:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自然语言处理的最新进展以 无监督预训练 为基础,使用大量文本训练通用语言表征模型 (Language Representation Models),无需人工标注或标签。这些预训练模型,如 BERT和 RoBERTa,经证明可以记忆大量世界知识,例如“the birthplace of Francesco Bartolomeo Conti”、“the developer of JDK”和“the owner of Border TV”。

RoBERTa
https://arxiv.org/abs/1907.11692

经证明可以记忆大量世界知识
https://arxiv.org/pdf/1909.01066.pdf

虽然知识编码能力对于某些自然语言处理任务(如问题回答、信息检索和文本生成等)尤为重要,但这些模型是 隐式地 记忆知识,也就是说世界知识在模型权重中以抽象的方式被捕获,导致已存储的知识及其在模型中的位置都难以确定。此外,存储空间以及模型的准确率也受到网络规模的限制。为了获取更多的世界知识,标准做法是训练更大的网络,这可能非常缓慢或非常昂贵。

如果有一种预训练方法可以 显式地 获取知识,如引用额外的大型外部文本语料库,在不增加模型大小或复杂性的情况下获得准确结果,会怎么样?

例如,模型可以引用外部文集中的句子“Francesco Bartolomeo Conti was born in Florence”来确定这位音乐家的出生地,而不是依靠模型隐晦的访问存储于自身参数中的某个知识。像这样检索包含显性知识的文本,将提高预训练的效率,同时使模型能够在不使用数十亿个参数的情况下顺利完成知识密集型任务。

在 2020 ICML 我们介绍的 “REALM: Retrieval-Augmented Language Model Pre-Training”中,我们分享了一种语言预训练模型的新范例,用 知识检索器 (Knowledge Retriever) 增强语言模型,让 REALM 模型能够从原始文本文档中 显式 检索文本中的世界知识,而不是将所有知识存储在模型参数中。我们还开源了 REALM 代码库,以演示如何联合训练检索器和语言表示。

REALM: Retrieval-Augmented Language Model Pre-Training
https://arxiv.org/abs/2002.08909

REALM 代码库
https://github.com/google-research/language/tree/master/language/realm

背景:预训练语言表征模型

要了解标准语言表征模型记忆世界知识的方式,首先应该回顾这些模型的预训练过程。自从 BERT 问世以来,称为遮蔽语言建模 (Masked Language Modeling) 的填空任务已广泛用于预训练语言表征模型。给定某些单词被遮盖的文本,任务是填充缺失的单词。任务的样本如下所示:

I am so thirsty. I need to __ water.

预训练期间,模型将遍历大量样本并调整参数,预测缺失的单词(上述样本中的答案:answer: drink)。于是,填空任务使模型记住了世界中的某些事实。例如,在以下样本中,需要了解爱因斯坦的出生地才能填补缺失单词:

Einstein was a __-born scientist. (answer: German)

但是,模型捕获的世界知识存储在模型权重中,因此是抽象的,难以模型到底理解存储了哪些信息。

检索增强型语言表征模型预训练

与标准语言表征模型相比,REALM 通过 知识检索器 增强语言表征模型,首先从外部文档集中检索另一段文本作为支持知识,在实验中为 Wikipedia 文本语料库,然后将这一段支持文本与原始文本一起输入语言表征模型。

Wikipedia 文本语料库
https://archive.org/details/wikimediadownloads

REALM 的关键理念是检索系统应提高模型填补缺失单词的能力。因此,应该奖励提供了更多上下文填补缺失单词的检索。如果检索到的信息不能帮助模型做出预测,就应该进行阻拦,为更好的检索腾出空间。

假定预训练期间只有未标记的文本,那么该如何训练知识检索器?事实证明,可以使用填补单词的任务来间接训练知识检索器,无需任何人工标注。假设查询的输入为:

We paid twenty __ at the Buckingham Palace gift shop.

在没有检索的情况下,很难填补句子中缺失的单词 (answer: pounds),因为模型需要隐式存储白金汉宫所在国家和相关货币的知识,并在两者之间建立联系。如果提供了一段与从外部语料库中检索的必要知识显式连接的段落,模型会更容易填补缺失的单词。

在此例中,检索器会因为检索以下句子获得奖励。

Buckingham Palace is the London residence of the British monarchy.

由于检索步骤需要添加更多上下文,因此可能会有多个检索目标对填补缺失单词有所帮助,例如“The official currency of the United Kingdom is the Pound.”。下图演示了整个过程:

REALM 的计算挑战

扩展 REALM 预训练使模型从数百万个文档中检索知识具有一定挑战性。在 REALM 中,最佳文档选择为最大内积搜索 (Maximum Inner Product Search,MIPS)。检索前,MIPS 模型需要首先对集合中的所有文档进行编码,使每个文档都有一个对应的文档向量。输入到达时会被编码为一个查询向量。在 MIPS 中,给定查询就会检索出集合中文档向量和查询向量之间具有最大内积值的文档,如下图所示:

REALM 采用 ScaNN软件包高效执行 MIPS,在预先计算文档向量的情况下,相对降低了寻找最大内积值的成本。但是,如果在训练期间更新了模型参数,通常有必要对整个文档集重新编码文档向量。为了解决算力上的挑战,检索器经过结构化设计可以缓存并异步更新对每个文档执行的计算。另外,要实现良好性能并使训练可控,应每 500 个训练步骤更新文档向量而不是每步都更新。

将 REALM 应用于开放域问答

将 REALM 应用于开放域问答 (Open-QA) 评估其有效性,这是自然语言处理中知识最密集的任务之一。任务的目的是回答问题,例如“What is the angle of the equilateral triangle(等边三角形的一角是多少度)?”

在标准问答任务中(例如 SQuAD 或 Natural Questions),支持文档是输入的一部分,因此模型只需要在给定文档中查找答案。Open-QA 中没有给定文档,因此 Open-QA 模型需要自主查找知识,这就使 Open-QA 成为检查 REALM 有效性的绝佳任务。

SQuAD
https://arxiv.org/abs/1606.05250

Natural Questions
https://ai.google.com/research/NaturalQuestions/

下图是 OpenQA 版本 Natural Question 的结果。我们主要将结果与 T5 进行比较,T5 是另一种无需标注文档即可训练模型的方法。从图中可以清楚地看到,REALM 预训练生成了非常强大的 Open-QA 模型,仅使用少量参数 (300M),性能就比更大的 T5 (11B) 模型要高出近 4 个点。

结论

REALM 有助于推动人们对端到端检索增强型模型的关注,包括最近的一个检索增强型生成模型。我们期待以多种方式扩展这一工作范围,包括 :

将类似 REALM 的方法应用于需要知识密集型推理和可解释出处的新应用(超越 Open-QA)

了解对其他形式的知识进行检索的好处,例如图像、知识图谱结构甚至其他语言的文本。我们也很高兴看到研究界开始使用开源 REALM 代码库!

检索增强型生成模型
https://arxiv.org/abs/2005.11401

REALM 代码库
https://github.com/google-research/language/tree/master/language/realm

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51712
  • 代码
    +关注

    关注

    30

    文章

    4941

    浏览量

    73147
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563

原文标题:REALM:将检索集成到语言表征模型,搞定知识密集型任务!

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    选型手册:VS1401ATH N 沟道增强型功率 MOSFET 晶体管

    选型手册:VS1401ATHN沟道增强型功率MOSFET晶体管威兆半导体推出的VS1401ATH是一款面向100V中压超大电流场景的N沟道增强型功率MOSFET,采用TO-220AB直插封装,凭借
    的头像 发表于 11-28 12:14 130次阅读
    选型手册:VS1401ATH N 沟道<b class='flag-5'>增强型</b>功率 MOSFET 晶体管

    新洁能推出增强型N沟道MOSFET系列产品

    新洁能研发团队沟槽工艺平台推出耐压30V 1mΩ级别增强型N沟道MOSFET 系列产品。
    的头像 发表于 08-22 18:02 1422次阅读
    新洁能推出<b class='flag-5'>增强型</b>N沟道MOSFET系列产品

    26 路触控按键和 PWM 的增强型 8051SOC RM1221A数据手册

    26 路触控按键和 PWM 的增强型 8051SOC基于 8051 指令的高速 1T 增强型 MTP SOC
    发表于 07-25 15:28 0次下载

    26 路触控按键和PWM的增强型 RM1273A用户手册

    26 路触控按键和 PWM 的增强型 8051MCU  基于 8051 指令的高速 1T 增强型 MTP SOC
    发表于 07-24 15:10 2次下载

    增强型和耗尽MOS管的应用特性和选型方案

    耗尽MOS的特点让其应用极少,而PMOS的高成本和大电阻也让人望而却步。而综合开关特性和成本型号优势的增强型NMOS成为最优选择。合科泰作为电子元器件专业制造商,可以提供各种种类丰富、型号齐全
    的头像 发表于 06-20 15:38 1038次阅读
    <b class='flag-5'>增强型</b>和耗尽<b class='flag-5'>型</b>MOS管的应用特性和选型方案

    注入增强型IGBT学习笔记

    加强IGBT导通时的电导调制效应,又可限制阳极空穴的注入,于是形成了注入增强型 IGBT(Injection Enhanced Insulated Gate Bipolar Transistor,IE-IGBT)。
    的头像 发表于 05-21 14:15 1263次阅读
    注入<b class='flag-5'>增强型</b>IGBT学习笔记

    LT9435ASQ P沟道增强型功率MOSFET规格书

    电子发烧友网站提供《LT9435ASQ P沟道增强型功率MOSFET规格书.pdf》资料免费下载
    发表于 03-26 15:53 0次下载

    用PaddleNLP为GPT-2模型制作FineWeb二进制训练数据集

    作者:算力魔方创始人/英特尔创新大使刘力 《用PaddleNLP在4060单卡上实践大模型训练技术》发布后收到读者热烈反响,很多读者要求进一步讲解更多的技术细节。本文主要针对大语言
    的头像 发表于 03-21 18:24 3825次阅读
    用PaddleNLP为GPT-2<b class='flag-5'>模型</b>制作FineWeb二进制<b class='flag-5'>预</b><b class='flag-5'>训练</b>数据集

    从Open Model Zoo下载的FastSeg大型公共训练模型,无法导入名称是怎么回事?

    从 Open Model Zoo 下载的 FastSeg 大型公共训练模型。 运行 converter.py 以将 FastSeg 大型模型转换为中间表示 (IR): pyth
    发表于 03-05 07:22

    小白学大模型训练语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的一项研究中,科学家们为了深入了解如何高效地训练大型
    的头像 发表于 03-03 11:51 1209次阅读
    小白学大<b class='flag-5'>模型</b>:<b class='flag-5'>训练</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060单卡上实践大模型训练技术

    作者:算力魔方创始人/英特尔创新大使刘力 之前我们分享了《从零开始训练一个大语言模型需要投资多少钱》,其中高昂的训练费用让许多对大
    的头像 发表于 02-19 16:10 2133次阅读
    用PaddleNLP在4060单卡上实践大<b class='flag-5'>模型</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>技术

    腾讯公布大语言模型训练新专利

    近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯在大语言模型
    的头像 发表于 02-10 09:37 714次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    今天学习<基于大模型的RAG应用开发与优化>这本书。大模型微调是深度学习领域中的一项关键技术,它指的是在已经训练好的大型深度学习模型
    发表于 01-14 16:51

    检索增强型生成(RAG)系统详解

    成流畅且类似人类的文本方面表现出色,但它们有时在事实准确性上存在困难。当准确性非常重要时,这可能是一个巨大的问题。 那么,这个问题的解决方案是什么呢?答案是检索增强型生成(RAG)系统。 RAG集成了像GPT这样的模型的强大功能
    的头像 发表于 12-24 10:44 1637次阅读
    <b class='flag-5'>检索</b><b class='flag-5'>增强型</b>生成(RAG)系统详解

    KerasHub统一、全面的训练模型

    深度学习领域正在迅速发展,在处理各种类型的任务中,训练模型变得越来越重要。Keras 以其用户友好 API 和对易用性的重视而闻名,始终处于这一动向的前沿。Keras 拥有专用的内
    的头像 发表于 12-20 10:32 771次阅读