0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过Token实现多视角文档向量表征的构建

深度学习自然语言处理 来源:NLP工作站 作者:刘聪 2022-07-08 11:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

写在前面

今天给大家带来一篇ACL2022论文MVR,「面向开放域检索的多视角文档表征」,主要解决同一个文档向量与多个语义差异较大问题向量语义不匹配的问题。通过「插入多个特殊Token」实现多视角文档向量表征的构建,并为了防止多种视角间向量的趋同,引入了「退火温度」的全局-局部损失,论文全称《Multi-View Document Representation Learning for Open-Domain Dense Retrieval》。

该篇论文与前两天分享的DCSR-面向开放域段落检索的句子感知的对比学习一文有异曲同工之妙,都是在检索排序不引入额外计算量的同时,通过插入特殊Token构建长文档的多语义向量表征,使得同一文档可以与多种不同问题的向量表征相似。

8665290c-f08c-11ec-ba43-dac502259ad0.png

并且目前的检索召回模型均存在一些缺陷:

Cross-encoder类模型(BERT)由于计算量太大,无法在召回阶段使用;

Bi-encoder类模型(DPR)无法很好地表现长文档中的多主题要素;

Late Interaction类模型(ColBERT)由于使用sum操作,无法直接使用ANN进行排序;

Attention-based Aggregator类模型(PolyEncoder)增加了额外运算并且无法直接使用ANN进行排序。

867ad496-f08c-11ec-ba43-dac502259ad0.png

模型

868cedd4-f08c-11ec-ba43-dac502259ad0.png

通常向量表征时,采用特殊字符[CLS]对应的向量表征作为文本的向量表征。为了获取文档中更细粒度的语义信息,MVR引入多个特殊字符[VIE]替代[CLS]。

对于文档来说,在文本前插入多个字符[],为了防止干扰原始文本的位置信息,我们将[]的所有位置信息设置为0,文档语句位置信息从1开始。

对于问题来说,由于问题较短且通常表示同一含义,因此仅使用一个特殊字符[VIE]。

模型采用双编码器作为骨干,分别对问题和文档进行编码,如下:

其中,表示链接符,[VIE]和[SEP]为BERT模型的特殊字符,和分别为问题编码器和文档编码器。

如上图所示,首先计算问题向量与每个视角的文档向量进行点积,获取每一个视角的得分,然后通过max-pooler操作,获取视角中分值最大的作为问题向量与文档向量的得分,如下:

为了防止多种视角间向量的趋同,引入了带有退火温度的Global-Local Loss,包括全局对比损失和局部均匀损失,如下:

其中,全局对比损失为传统的对比损失函数,给定一个问题、一个正例文档以及多个负例文档,损失函数如下:

为了提高多视角向量的均匀性,提出局部均匀性损失,强制将选择的查询向量与视角向量更紧密,原理其他其视角向量,如下:

为了进一步区分不同视角向量间的差异,采用了退火温度,逐步调整不同视角向量的softmax分布,如下:

其中,为控制退火速度的超参,为模型训练轮数,每训练一轮,温度更新一次。注意:在全局对比损失和局部均匀损失中,均使用了退火温度。

实验

如下表所示,MVR方法对比于其他模型,获取了更好的效果。

86a9f596-f08c-11ec-ba43-dac502259ad0.png

并且,通过实验发现,当视角个数选择8时,MVR模型效果最佳。

86d99328-f08c-11ec-ba43-dac502259ad0.png

针对Global-Local Loss进行消融实验,发现当没有局部均匀损失和退火温度时,会使得效果下降;当两者都没有时,效果下降更加明显;并且一个合适退火速度,对训练较为重要。

86ef0b4a-f08c-11ec-ba43-dac502259ad0.png

相比于其他模型来说,在文档编码阶段和检索召回阶段的速度基本没有影响,但由于需要存储多个视角向量,因此造成存储空间变大。

8705501c-f08c-11ec-ba43-dac502259ad0.png

并且,对比了简单的句子切割或者等片段截断方法获取一个文本的多个向量表征,发现其效果均不理想,与DCSR一文观点一致。

87189046-f08c-11ec-ba43-dac502259ad0.png

总结

该论文为了对长文档更好地进行向量表征,引入多个特殊字符,使其生成「多种不同视角的向量表征」,解决了同一个文档向量与多个语义差异较大问题向量语义不匹配的问题。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3904

    浏览量

    141451

原文标题:ACL2022 | MVR:面向开放域检索的多视角文档表征

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    通过接口获取携程酒店详情数据的技术实现

     技术分享: 在开发旅游类应用时,整合酒店数据是常见需求。本文将以技术视角探讨如何通过接口获取携程平台的酒店详情数据(注:实际商用需获得官方授权)。 一、接口调用基础 认证机制 通常需要申请
    的头像 发表于 11-17 14:15 134次阅读
    <b class='flag-5'>通过</b>接口获取携程酒店详情数据的技术<b class='flag-5'>实现</b>

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    轮交互机制程序会提供预设问题供用户选择(官方案例中也有输入序号,可以快速提问),同时支持用户自定义输入,核心交互逻辑通过以下机制实现: 上下文记忆 通过设置
    发表于 09-05 17:25

    微型“芯”变革:奥迪威MEMS能量表开启燃气智慧计量新时代

    奥迪威MEMS能量表方案不仅重新定义了燃气表的产品形态,更为构建更加安全、高效的能源管理体系奠定了坚实基础,开启智慧燃气计量新篇章。
    的头像 发表于 08-27 10:13 1005次阅读
    微型“芯”变革:奥迪威MEMS能<b class='flag-5'>量表</b>开启燃气智慧计量新时代

    在中断向量表中,数字较小的中断向量能否以 larg 中断中断向量

    在中断向量表中,数字较小的中断向量能否以 larg 中断中断向量
    发表于 08-21 08:17

    工业相机视角成像 高效解决瓶体检测难题

    广角式侧面视角成像系统通过成像和照明一体式设计,解决了多相机布局复杂、反光干扰及异形瓶检测适应性差等痛点。
    的头像 发表于 07-17 15:16 591次阅读
    工业相机<b class='flag-5'>多</b><b class='flag-5'>视角</b>成像 高效解决瓶体检测难题

    AT32 IAP using the USART

    的中断向量表相应的移动,移动的偏移量为x AT32 USART IAP 快速使用方法 硬件资源 文档中是用 AT-START-AT32F403A 实验板的硬件条件为例,IAP demo 源代码还包括
    发表于 07-11 10:51

    通过御控工业网关实现远程调试下载国外PLC

    御控工业网关通过构建安全隧道、协议解析、数据透传三大核心技术,将跨国设备维护周期从5天压缩至2小时,成为破解海外设备运维难题的关键工具。
    的头像 发表于 06-24 17:21 327次阅读

    PLC通过智能网关实现HTTP协议通讯,先取得token后再提交获取JSON格式的数据文件

    组1获取到的token通过以上任务组2配置生成的JSON文件,以及接收的JSON文件如下: 从以上配置可以看到,通过‘数据处理/初始值’ 可以实现简单的数据处理,还可支持更多的数据
    发表于 06-17 16:07

    HarmonyOS5云服务技术分享--认证文档问题

    ​​: 通过创建不同项目区分测试环境与生产环境。 每个项目可独立管理不同版本的认证服务配置。 ​​2. 开通认证服务​​ 登录AGC控制台,进入目标项目,在「构建 > 认证服务」页面启用
    发表于 05-22 13:20

    请问如何通过S32K312命令行构建代码?

    现在我们已经通过 S32DS3.5 IDE 开发了固件,它也可以工作了。 最近,我们收到了通过命令行构建代码的要求,并且 我从 S32DS 帮助内容中读取了相关文档,但这种情况会发生
    发表于 04-09 07:48

    Token经济,风起陇东

    以万全之力,筑成东数西算的token经济走廊
    的头像 发表于 04-01 09:46 2241次阅读
    <b class='flag-5'>Token</b>经济,风起陇东

    恭喜福建好视角顺利通过三体系复审

    的规范化管理。通过复审,企业能够不断提升内部管理水平,增强市场竞争力。2025年3月,福建好视角电子科技有限公司顺利通过三体系复审。此次审核全面检验了质量管理体系(QM
    的头像 发表于 03-25 10:57 694次阅读
    恭喜福建好<b class='flag-5'>视角</b>顺利<b class='flag-5'>通过</b>三体系复审

    《AI Agent 应用与项目实战》阅读心得3——RAG架构与部署本地知识库

    功能模块包括文档处理器、向量化引擎、检索模块和响应生成器。文档处理器负责解析不同格式的输入文件,将文本内容规范化处理;向量化引擎使用预训练的embedding模型将文本转换为
    发表于 03-07 19:49

    2025年Next Token Prediction范式会统一模态吗

    训练方法与推理策略 性能评测体系 现存挑战与未来方向 综述的完整目录如下: 模态的 Tokenization 我们认为模态的 Tokenization 是 MMNTP 的基石和最重要的部分,它将
    的头像 发表于 01-21 10:11 925次阅读
    2025年Next <b class='flag-5'>Token</b> Prediction范式会统一<b class='flag-5'>多</b>模态吗

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    引入外部知识库来增强生成模型的能力。而Embedding在 Embedding模型将用户的问题和文档库中的文本转换为向量表示,这是RAG系统进行信息检索和文本生成的基础。RAG系统通过计算用户问题
    发表于 01-17 19:53