0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

稠密向量检索的Query深度交互的文档多视角表征

深度学习自然语言处理 来源:NLP工作站 作者:NLP工作站 2022-08-18 15:37 次阅读

今天给大家带来一篇北航和微软出品的稠密向量检索模型Dual-Cross-Encoder,结合Query生成和对比学习技术,将文档与生成的不同伪query进行深度交互学习构建文档的不同视角的表征向量,再与Query向量进行稠密向量检索。

Paper:https://arxiv.org/pdf/2208.04232.pdf
Github:https://github.com/jordane95/dual-cross-encoder

介绍

目前,稠密向量检索已经在信息检索中起着至关重要的地位,相较于传统的BM25,它可以更好地获取问题与文档之间的语义信息。针对query和document的相关性评分主要有Dual-Encoder和Cross-Encoder两种框架:

Cross-Encoder,由于计算量太大,无法在召回阶段使用;

Dual-Encoder,由于query和document没有相互,并且无法很好地表现长文档中的多主题内容。

一些研究(Poly-Encoder、ColBERT等)致力于用后期交互体系结构,权衡模型的速度与效果,但「无法直接使用ANN进行排序」。与之前的工作不同,我们主要使用生成的query来学习查询通知的文档表示。d016835e-1ea7-11ed-ba43-dac502259ad0.png我们提出了一种新的稠密检索模型,使用生成的伪query与每个文档进行深度交互编码,以获得融合query信息的多视角文档表示,并单独编码query向量,使得该模型不仅像普通的Dual-Encoder模型一样具有很高的推理效率,而且在文档编码中与query深度交互,提供多视角表示,以更好地匹配不同的查询query。

Dual-Cross-Encoder模型

Dual-Cross-Encoder中,文档编码器部分为Cross-Encoder,而问题编码器与文档编码器之间的模式相当于Dual-Encoder。具体来说,问题编码器为

文档编码器为

它们之间相似性是通过点积来衡量的,

注意,来自问题编码器和文档编码器的query是不相同的,因为只能访问到训练集中的文档的标准query,并且手动编写整个语料库中的每个文档可能出现的query是不现实的。

因此,使用T5模型,依赖doc2query技术为每个文档生成若干伪query,并在解码时采用Top-K方式,保证query的多样性。

模型训练

采用对比学习的方式训练模型,而对比学习的宗旨就是拉近相似数据,推开不相似数据,有效地学习数据表征。

将query信息融合到文档表示中后,重新定义正例和负例,对于给定,四种形式的正负例,为、、和。

难负例:负文档从通过BM25排名靠前的文档中随机抽取得来。难负例可以使模型学习到更细粒度的信息,如负文档通常与query有关,但不能准确回答,并且还阻止模型只学习来自query端的匹配信号,而忽略文档端信息。

批次内负例:可以提高训练效率,使模型学习到主题层次的辨别能力。

训练阶段,使用数据增强的方式,将生成的query视为伪标注数据,首先在这些噪声数据上,进行模型训练,视作一个热身阶段;然后在真实标注的高质量训练集上进行模型微调。

模型推理

创建索引

对语料库进行编码,以获得具有query深度交互的多视图文档表示。将表示为第个文档的第个视图,

其中,表示Query生成模型。

检索

当进行检索时,使用问题编码器对其进行编码,获取上下文表征向量。对文档进行多视角向量编码,并将其问题与文档中不同视角相关性得分的最大值(max-pooling)作为问题与文档的相关性得分。

支持直接使用ANN进行排序。

实现细节

在8块32GB V100上进行模型训练,采用bert-base-uncase初始化所有编码器,query最大长度为16,文档最大长度为128,每个样本的正例和负例数量对比为1:7。训练的Batch-Size大小为32,学习率为5e−6,warmup10%的步数。

结果

从下表中可以看出,相较于DPR Dual-Encoder,具有显著提高,证明了方法的有效性;并媲美Col-Bert模型,同时更高效。d0388026-1ea7-11ed-ba43-dac502259ad0.png从下图可以看出,query生成质量与检索呈正相关。d062b1ca-1ea7-11ed-ba43-dac502259ad0.png

总结

挺有意思一篇文章,通过伪query来表征不同视角的文档,并且支持ANN排序。现在越来越多的长文档表征论文从多个不同视角出发,单一向量确实很难表达出多种差异较大的信息,甚至训练中会导致趋同。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3357

    浏览量

    131434
  • 框架
    +关注

    关注

    0

    文章

    297

    浏览量

    17039
  • Query
    +关注

    关注

    0

    文章

    11

    浏览量

    9269
  • 模型
    +关注

    关注

    1

    文章

    2701

    浏览量

    47663

原文标题:Dual-Cross-Encoder:面向稠密向量检索的Query深度交互的文档多视角表征

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    音频信息识别与检索技术

    都在增加的语音文档或视频文档,在日常生活中的音视频电子邮件等。目前针对文字信息的检索已经有许多成功的应用,如:Google、Yahoo、百度等搜索引擎,但如何利用计算机对非结构化的海量多媒体数据做信息
    发表于 03-05 22:53

    基于模糊聚类表征的音频例子检索及相关反馈

    避免先前基于例子的音频检索要按照监督机制训练不同类别的复杂的音频模板,直接从原始音频流中提取压缩域特征,使用时空约束机制进行压缩域特征的模糊聚类,用聚类结果的质心来表征整个音频例子,基于聚类质心完成
    发表于 03-06 22:10

    什么是Query

    什么是Query  英文缩写: Query 中文译名: 查询 分  类: IP与多媒体 解  释: 为了在数据库中寻找某一特定
    发表于 02-23 09:32 685次阅读

    基于最小重构误差向量图像检索算法

    针对局部聚合描述符向量( VLAD)模型中对特征软量化时权重系数的取值不确定性和特征量化误差较大问题,提出一种具有最小重构误差的权重系数分配算法。该算法以最小化重构误差为标准,将具有最小化重构误差
    发表于 12-18 09:56 0次下载
    基于最小重构误差<b class='flag-5'>向量</b>图像<b class='flag-5'>检索</b>算法

    相似查询树的快速密文检索

    问题,提出在大数据下的基于相似查询树的密文检索方法(MRSE-SS).该方法通过设置聚类中心和成员之间的最大距离对文档向量进行聚类,并把中心向量看成,z维超球体的球心,最大距离作为半径
    发表于 01-14 10:31 0次下载
    相似查询树的快速密文<b class='flag-5'>检索</b>

    深度学习全新打开方式Google Brain提出概念激活向量新方法

    最近,Google Brain团队的研究人员发表了一篇论文,提出了一种名为概念激活向量(Concept Activation Vectors, CAV)的新方法,它为深度学习模型的可解释性提供了一个新的视角
    的头像 发表于 07-31 14:11 2731次阅读

    实现支持检索关键词语义扩展的可排序密文检索的方案详细说明

    针对云计算环境下已有的密文检索方案不支持检索关键词语义扩展、精确度不够、检索结果不支持排序的问题,提出一种支持检索关键词语义扩展的可排序密文检索
    发表于 11-08 15:11 10次下载
    实现支持<b class='flag-5'>检索</b>关键词语义扩展的可排序密文<b class='flag-5'>检索</b>的方案详细说明

    支持检索关键词语义扩展的可排序密文检索方案详细资料说明

    针对云计算环境下已有的密文检索方案不支持检索关键词语义扩展、精确度不够、检索结果不支持排序的问题,提岀一种支持检索关键词语义扩展的可排序密文检索
    发表于 03-08 16:19 15次下载
    支持<b class='flag-5'>检索</b>关键词语义扩展的可排序密文<b class='flag-5'>检索</b>方案详细资料说明

    针对大规模高维数据的最近邻检索方法

    本文针对大规模高维数据近邻检索中的瓶颈问题,提岀基于向量量化的一种检索方法一簇內乘积量化树方法。该方法运用向量量化和乘积量化的多层树状结构高效表征
    发表于 05-10 16:45 3次下载

    Query是什么意思

    query是请求查询的意思。
    的头像 发表于 07-25 16:08 1.7w次阅读

    稠密检索模型在zero-shot场景下的泛化能力

    稠密检索任务旨在通过给定的query,在一个庞大的document语料库中召回与query高度相关的document(本文中document泛指语料库中的文本内容,可以是句子,段落,文
    的头像 发表于 05-16 15:06 1286次阅读

    通过Token实现多视角文档向量表征的构建

    该篇论文与前两天分享的DCSR-面向开放域段落检索的句子感知的对比学习一文有异曲同工之妙,都是在检索排序不引入额外计算量的同时,通过插入特殊Token构建长文档的多语义向量表征,使得同
    的头像 发表于 07-08 11:13 617次阅读

    能遵循instruction的句向量模型

    向量技术是将连续的文本转化为固定长度的稠密向量,将句子映射到同一个向量空间中
    的头像 发表于 06-13 14:56 638次阅读
    能遵循instruction的句<b class='flag-5'>向量</b>模型

    UniVL-DR: 多模态稠密向量检索模型

    多模态数据的信息获取需求在用户搜索过程中尤为重要。 ▲ 图1. 不同多模态检索框架示意图 为了实现多模态检索过程,当前的多媒体搜索系统通常采用“分而治之”的方法。如
    的头像 发表于 08-06 22:00 520次阅读
    UniVL-DR: 多模态<b class='flag-5'>稠密</b><b class='flag-5'>向量</b><b class='flag-5'>检索</b>模型

    什么是向量数据库?关系数据库和向量数据库之间的区别是什么?

    向量数据库是一种以向量嵌入(高维向量)方式存储和管理非结构化数据(如文本、图像或音频)的数据库,以便于快速查找和检索类似对象。
    的头像 发表于 08-16 10:13 1273次阅读
    什么是<b class='flag-5'>向量</b>数据库?关系数据库和<b class='flag-5'>向量</b>数据库之间的区别是什么?