检索增强型语言表征模型预训练-电子发烧友网

自然语言处理的最新进展以无监督预训练为基础，使用大量文本训练通用语言表征模型 (Language Representation Models)，无需人工标注或标签。这些预训练模型，如 BERT和 RoBERTa，经证明可以记忆大量世界知识，例如“the birthplace of Francesco Bartolomeo Conti”、“the developer of JDK”和“the owner of Border TV”。

RoBERTa
https://arxiv.org/abs/1907.11692

经证明可以记忆大量世界知识
https://arxiv.org/pdf/1909.01066.pdf

虽然知识编码能力对于某些自然语言处理任务（如问题回答、信息检索和文本生成等）尤为重要，但这些模型是隐式地记忆知识，也就是说世界知识在模型权重中以抽象的方式被捕获，导致已存储的知识及其在模型中的位置都难以确定。此外，存储空间以及模型的准确率也受到网络规模的限制。为了获取更多的世界知识，标准做法是训练更大的网络，这可能非常缓慢或非常昂贵。

如果有一种预训练方法可以显式地获取知识，如引用额外的大型外部文本语料库，在不增加模型大小或复杂性的情况下获得准确结果，会怎么样？

例如，模型可以引用外部文集中的句子“Francesco Bartolomeo Conti was born in Florence”来确定这位音乐家的出生地，而不是依靠模型隐晦的访问存储于自身参数中的某个知识。像这样检索包含显性知识的文本，将提高预训练的效率，同时使模型能够在不使用数十亿个参数的情况下顺利完成知识密集型任务。

在 2020 ICML 我们介绍的 “REALM: Retrieval-Augmented Language Model Pre-Training”中，我们分享了一种语言预训练模型的新范例，用知识检索器 (Knowledge Retriever) 增强语言模型，让 REALM 模型能够从原始文本文档中显式检索文本中的世界知识，而不是将所有知识存储在模型参数中。我们还开源了 REALM 代码库，以演示如何联合训练检索器和语言表示。

REALM: Retrieval-Augmented Language Model Pre-Training
https://arxiv.org/abs/2002.08909

REALM 代码库
https://github.com/google-research/language/tree/master/language/realm

背景：预训练语言表征模型

要了解标准语言表征模型记忆世界知识的方式，首先应该回顾这些模型的预训练过程。自从 BERT 问世以来，称为遮蔽语言建模 (Masked Language Modeling) 的填空任务已广泛用于预训练语言表征模型。给定某些单词被遮盖的文本，任务是填充缺失的单词。任务的样本如下所示：

I am so thirsty. I need to __ water.

预训练期间，模型将遍历大量样本并调整参数，预测缺失的单词（上述样本中的答案：answer: drink）。于是，填空任务使模型记住了世界中的某些事实。例如，在以下样本中，需要了解爱因斯坦的出生地才能填补缺失单词：

Einstein was a __-born scientist. (answer: German)

但是，模型捕获的世界知识存储在模型权重中，因此是抽象的，难以模型到底理解存储了哪些信息。

检索增强型语言表征模型预训练

与标准语言表征模型相比，REALM 通过知识检索器增强语言表征模型，首先从外部文档集中检索另一段文本作为支持知识，在实验中为 Wikipedia 文本语料库，然后将这一段支持文本与原始文本一起输入语言表征模型。

Wikipedia 文本语料库
https://archive.org/details/wikimediadownloads

REALM 的关键理念是检索系统应提高模型填补缺失单词的能力。因此，应该奖励提供了更多上下文填补缺失单词的检索。如果检索到的信息不能帮助模型做出预测，就应该进行阻拦，为更好的检索腾出空间。

假定预训练期间只有未标记的文本，那么该如何训练知识检索器？事实证明，可以使用填补单词的任务来间接训练知识检索器，无需任何人工标注。假设查询的输入为：

We paid twenty __ at the Buckingham Palace gift shop.

在没有检索的情况下，很难填补句子中缺失的单词 (answer: pounds)，因为模型需要隐式存储白金汉宫所在国家和相关货币的知识，并在两者之间建立联系。如果提供了一段与从外部语料库中检索的必要知识显式连接的段落，模型会更容易填补缺失的单词。

在此例中，检索器会因为检索以下句子获得奖励。

Buckingham Palace is the London residence of the British monarchy.

由于检索步骤需要添加更多上下文，因此可能会有多个检索目标对填补缺失单词有所帮助，例如“The official currency of the United Kingdom is the Pound.”。下图演示了整个过程：

REALM 的计算挑战

扩展 REALM 预训练使模型从数百万个文档中检索知识具有一定挑战性。在 REALM 中，最佳文档选择为最大内积搜索 (Maximum Inner Product Search，MIPS)。检索前，MIPS 模型需要首先对集合中的所有文档进行编码，使每个文档都有一个对应的文档向量。输入到达时会被编码为一个查询向量。在 MIPS 中，给定查询就会检索出集合中文档向量和查询向量之间具有最大内积值的文档，如下图所示：

REALM 采用 ScaNN软件包高效执行 MIPS，在预先计算文档向量的情况下，相对降低了寻找最大内积值的成本。但是，如果在训练期间更新了模型参数，通常有必要对整个文档集重新编码文档向量。为了解决算力上的挑战，检索器经过结构化设计可以缓存并异步更新对每个文档执行的计算。另外，要实现良好性能并使训练可控，应每 500 个训练步骤更新文档向量而不是每步都更新。

将 REALM 应用于开放域问答

将 REALM 应用于开放域问答 (Open-QA) 评估其有效性，这是自然语言处理中知识最密集的任务之一。任务的目的是回答问题，例如“What is the angle of the equilateral triangle（等边三角形的一角是多少度）?”

在标准问答任务中（例如 SQuAD 或 Natural Questions），支持文档是输入的一部分，因此模型只需要在给定文档中查找答案。Open-QA 中没有给定文档，因此 Open-QA 模型需要自主查找知识，这就使 Open-QA 成为检查 REALM 有效性的绝佳任务。

SQuAD
https://arxiv.org/abs/1606.05250

Natural Questions
https://ai.google.com/research/NaturalQuestions/

下图是 OpenQA 版本 Natural Question 的结果。我们主要将结果与 T5 进行比较，T5 是另一种无需标注文档即可训练模型的方法。从图中可以清楚地看到，REALM 预训练生成了非常强大的 Open-QA 模型，仅使用少量参数 (300M)，性能就比更大的 T5 (11B) 模型要高出近 4 个点。

结论

REALM 有助于推动人们对端到端检索增强型模型的关注，包括最近的一个检索增强型生成模型。我们期待以多种方式扩展这一工作范围，包括：

将类似 REALM 的方法应用于需要知识密集型推理和可解释出处的新应用（超越 Open-QA）

了解对其他形式的知识进行检索的好处，例如图像、知识图谱结构甚至其他语言的文本。我们也很高兴看到研究界开始使用开源 REALM 代码库！

检索增强型生成模型
https://arxiv.org/abs/2005.11401

REALM 代码库
https://github.com/google-research/language/tree/master/language/realm

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
2704

浏览量
47667
代码

代码

+关注

关注
30

文章
4554

浏览量
66720
自然语言处理

自然语言处理

+关注

关注
1

文章
509

浏览量
13098

原文标题：REALM：将检索集成到语言表征模型，搞定知识密集型任务！

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

盘点一下史上最全大语言模型训练中的网络技术

人工智能的基础设施在大语言模型训练和推理过程中发挥了关键的作用。随着大语言模型规模不断增大，其对计算和通信的需求也在不断增加。高

发表于 03-27 17:24 •372次阅读

盘点一下史上最全大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>训练</b>中的网络技术

【书籍评测活动NO.30】大规模语言模型：从理论到实践

TOP1的桂冠，可想大家对本书的认可和支持！这本书为什么如此受欢迎？它究竟讲了什么？下面就给大家详细~~ 本书主要内容本书围绕大语言模型构建的四个主要阶段——预训练、有监督微调、

发表于 03-11 15:16

一种基于表征工程的生成式语言大模型人类偏好对齐策略

最近复旦大学自然语言处理组郑骁庆和黄萱菁团队提出了基于表征工程（Representation Engineering）的生成式语言大模型人类偏好对齐方法RAHF（如图1所示），作为基于

发表于 01-03 14:25 •198次阅读

一种基于<b class='flag-5'>表征</b>工程的生成式<b class='flag-5'>语言</b>大<b class='flag-5'>模型</b>人类偏好对齐策略

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言模型

发表于 12-04 15:51 •402次阅读

什么是检索增强生成？

检索增强生成是一种使用从外部来源获取的事实，来提高生成式 AI 模型准确性和可靠性的技术。为了理解这一生成式 AI 领域的最新进展，让我们以法庭为例。法官通常根据对法律的一般理解来审理和判决

发表于 11-16 21:15 •611次阅读

基于检索的大语言模型简介

简介章节讲的是比较基础的，主要介绍了本次要介绍的概念，即检索（Retrieval）和大语言模型（LLM）

发表于 11-15 14:50 •344次阅读

大语言模型（LLM）预训练数据集调研分析

大语言模型涉及数据的通常有有多个阶段（Aligning language models to follow instructions [1] ）：pre-train、sft（supervised

发表于 09-19 10:00 •559次阅读

虹科分享 | 谷歌Vertex AI平台使用Redis搭建大语言模型

基础模型和高性能数据层这两个基本组件始终是创建高效、可扩展语言模型应用的关键，利用Redis搭建大语言模型，能够实现高效可扩展的语义搜索、

发表于 09-18 11:26 •331次阅读

ST25TV通过带有增强型NDEF的NFC标签来提高用户体验

借助其增强型 NDEF 功能（ANDEF），ST25TV512C 和 ST25TV02KC 标签IC具备了上下文自动NDEF消息传递服务。最终用户只需简单地“点击”标签，便可动态生成相应的响应

发表于 09-13 06:33

检索增强LLM的方案全面的介绍

分分享了 ChatGPT 这类模型是如何一步一步训练的，后半部分主要分享了 LLM 模型的一些应用方向，其中就对检索增强 LLM 这个应用方

发表于 09-08 16:39 •854次阅读

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些

发表于 09-01 17:14 •1105次阅读

检索增强的语言模型方法的详细剖析

本篇内容是对于ACL‘23会议上陈丹琦团队带来的Tutorial所进行的学习记录，以此从问题设置、架构、应用、挑战等角度全面了解检索增强的语言模型，作为对后续工作的准备与入门，也希

发表于 08-21 09:58 •1307次阅读

如何在英特尔® 平台上实现高效的大语言模型训练后量化

本文介绍了可提升大语言模型的训练后量化表现的增强型 SmoothQuant 技术，说明了这项技术的用法，并证明了其在准确率方面的优势。此方法已整合至英特尔 Neural Compr

发表于 07-14 20:10 •562次阅读

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大

发表于 06-15 16:36 •319次阅读

2.1V-5.5V、增强型1T 8051 Flash MCU

MS80F751x系列MCU是增强型1T 8051 Flash MCU，最快支持48MHz外设运行，24MHz内核运行，工作电压2.1V-5.5V，GPIO最多可达30个，内置LCD/LED驱动模块

发表于 05-06 09:28