0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在检索任务中训练数据在推理时也大有用处

深度学习自然语言处理 来源:NewBeeNLP 作者:h1654155273.8628 2022-06-15 10:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从大规模数据中检索通常比较耗时,仅从训练数据中也能有巨大收益。具体做法是检索与输入文本最相似的训练样例,拼接后作为输入喂入模型,然后生成结果。结果在摘要、翻译、语言模型和QA上都取得了不错的效果。

论文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code:microsoft/REINA[2]

一句话概述:在检索任务中训练数据在推理时也大有用处。

文章上来就给我们呈现了整体的结构:

b2e83ada-ebed-11ec-ba43-dac502259ad0.jpg

有点类似 Prompt 学习,但本文主要关注有监督学习的设置。结果不仅效果很好,而且很容易扩展(只要增加有标注训练数据就行),计算代价也小。我觉得本文相对最有意思的一个发现是文中所写:即便有成吨的参数,一个模型也不能记住训练数据中的所有模式。所以,重新捕获相关的训练数据作为一个手拉手提示器,就可以提供明确的信息来提高模型(推理)的性能。

整体架构如下图所示(REINA):

b316d20a-ebed-11ec-ba43-dac502259ad0.jpg

一张图其实已经很清楚地表达出意思了:对不同的任务构造不同的输入,但都会将训练数据拼接上后再喂入模型,得到最后的答案,这里的答案是通过语言模型生成的。检索算法使用 BM25。

形式化模型为:

其中,M 表示生成模型,x 是输入,大括号里的就是 top K 个检索到的最相似的训练数据。

对 QA 任务,将输入文本和每个选项拼接后作为 query,然后获取相关的训练数据。如果需要加入外部知识,则调整为:

其中,C 表示选项。拼接实体字典定义和关系 R,用来为一个 Q 构造知识 K。

Ex 表示与 Q 相关的实体,Ec 表示与 A 相关的实体。本文的相关指:在句子中出现。

用人话简单描述一下就是:给定 Q,在训练数据中找到相似的 QA 对,对每个 QA 对,找到其中所涉及的实体和关系,然后将实体的定义和关系也拼接进去,最后组成一长串文本作为模型输入。

相似检索使用 Lucene Index,模型训练使用 Transformers。实验结果(以文本摘要为例)如下:

b3394fe2-ebed-11ec-ba43-dac502259ad0.jpg

结果显示,REINA 可以显著提升(几乎所有数据集)使用不同预训练模型初始化的基线。在 case 分析时,作者发现 REINA 的数据和真实标签之间有很强的相关性。

总之,本文的思路非常简单,但效果却不错,在工业上可以一试,尤其是生成式文本摘要和 QA 任务。不过,感觉这好像也算是一种 prompt 吧,使用训练数据来「拉近」输入和真实标签之间的距离。

本文参考资料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7317

    浏览量

    94054
  • 检索
    +关注

    关注

    0

    文章

    27

    浏览量

    13385

原文标题:ACL2022 | 微软:永远不要低估你的训练数据!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Ubuntu20.04系统训练神经网络模型的一些经验

    本帖欲分享Ubuntu20.04系统训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析(文本/图像/语音)和实时交互能力,能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多
    发表于 07-16 15:29

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其导航策略学习
    的头像 发表于 07-08 10:00 451次阅读
    Aux-Think打破视觉语言导航<b class='flag-5'>任务</b>的常规<b class='flag-5'>推理</b>范式

    使用MicroPython部署的ocrrec_image.py推理得到的输出结果很差,如何解决呢?

    使用在线平台训练OCR识别任务,测试结果表现很好。 期待结果和实际结果 实际的推理结果很差,推理不出任何信息。
    发表于 04-29 06:54

    阵列云从训练推理

    云场景下,阵列云(分布式计算集群)从模型训练推理的完整技术流程可结构化分解如下: 一、训练阶段技术实现 1,资源动态编排‌ 基于Kubernetes集群或云厂商弹性计算服务(如AW
    的头像 发表于 03-28 08:32 555次阅读

    数据标注服务—奠定大模型训练数据基石

    数据标注是大模型训练过程中不可或缺的基础环节,其质量直接影响着模型的性能表现。大模型训练数据
    的头像 发表于 03-21 10:30 2349次阅读

    标贝数据标注服务:奠定大模型训练数据基石

    数据标注是大模型训练过程中不可或缺的基础环节,其质量直接影响着模型的性能表现。大模型训练数据
    的头像 发表于 03-21 10:27 894次阅读
    标贝<b class='flag-5'>数据</b>标注服务:奠定大模型<b class='flag-5'>训练</b>的<b class='flag-5'>数据</b>基石

    YOLOv5类rgb888p_size这个参数要与模型推理训练的尺寸一致吗?一致会达到更好的效果?

    YOLOv5类rgb888p_size这个参数要与模型推理训练的尺寸一致吗,一致会达到更好的效果
    发表于 03-11 08:12

    壁仞科技支持DeepSeek-V3满血版训练推理

    DeepSeek开源周开源了部分关键模块的代码及推理系统参考架构,再次引发行业震动,但目前尚未开源DeepSeek-V3 满血版完整训练代码。壁仞科技凭借八大自主创新技术,实现
    的头像 发表于 03-04 14:01 1946次阅读

    DeepSeek推出NSA机制,加速长上下文训练推理

    的特性,专为超快速的长上下文训练推理而设计。 NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓越的性能表现。这一机制
    的头像 发表于 02-19 14:01 939次阅读

    AI大模型汽车应用推理、降本与可解释性研究

    ,加强大模型对复杂任务处理能力和自主决策能力。 部分大模型公司的推理模型发布情况 来源:佐思汽研《2024-2025年AI大模型及其汽车领域的应用研究报告》 推理模型的密集上线,是为
    的头像 发表于 02-18 15:02 1878次阅读
    AI大模型<b class='flag-5'>在</b>汽车应用<b class='flag-5'>中</b>的<b class='flag-5'>推理</b>、降本与可解释性研究

    FP8大模型训练的应用

    。如果在训练时使用 FP8 精度,可以更方便快速的将 FP8 部署到推理侧,使 FP8 训练可以更容易顺畅地与低精度推理相结合等。
    的头像 发表于 01-23 09:39 1932次阅读
    FP8<b class='flag-5'>在</b>大模型<b class='flag-5'>训练</b><b class='flag-5'>中</b>的应用

    智谱GLM-Zero深度推理模型预览版正式上线

    。 GLM-Zero-Preview专注于提升AI的推理能力,擅长处理数理逻辑、代码以及需要深度推理的复杂问题。据官方介绍,与同基座模型相比,GLM-Zero-Preview不显著降低通用
    的头像 发表于 01-02 10:55 826次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    布外任务展示出多样化和复杂的推广能力。 知识载体 知识嵌入训练期间学习的模型参数。 知识载体是记忆和隐藏状态,专注于上下文学习和适应。 可扩展性 通过扩展参数和预
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+数据具身人工智能的价值

    活动挖掘互联网数据,但 EAI 数据必须在各种且通常不可预测的环境捕获无数物理交互。 例如,虽然易于访问的聊天数据允许使用 570 GB
    发表于 12-24 00:33