0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在检索任务中训练数据在推理时也大有用处

深度学习自然语言处理 来源:NewBeeNLP 作者:h1654155273.8628 2022-06-15 10:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从大规模数据中检索通常比较耗时,仅从训练数据中也能有巨大收益。具体做法是检索与输入文本最相似的训练样例,拼接后作为输入喂入模型,然后生成结果。结果在摘要、翻译、语言模型和QA上都取得了不错的效果。

论文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code:microsoft/REINA[2]

一句话概述:在检索任务中训练数据在推理时也大有用处。

文章上来就给我们呈现了整体的结构:

b2e83ada-ebed-11ec-ba43-dac502259ad0.jpg

有点类似 Prompt 学习,但本文主要关注有监督学习的设置。结果不仅效果很好,而且很容易扩展(只要增加有标注训练数据就行),计算代价也小。我觉得本文相对最有意思的一个发现是文中所写:即便有成吨的参数,一个模型也不能记住训练数据中的所有模式。所以,重新捕获相关的训练数据作为一个手拉手提示器,就可以提供明确的信息来提高模型(推理)的性能。

整体架构如下图所示(REINA):

b316d20a-ebed-11ec-ba43-dac502259ad0.jpg

一张图其实已经很清楚地表达出意思了:对不同的任务构造不同的输入,但都会将训练数据拼接上后再喂入模型,得到最后的答案,这里的答案是通过语言模型生成的。检索算法使用 BM25。

形式化模型为:

其中,M 表示生成模型,x 是输入,大括号里的就是 top K 个检索到的最相似的训练数据。

对 QA 任务,将输入文本和每个选项拼接后作为 query,然后获取相关的训练数据。如果需要加入外部知识,则调整为:

其中,C 表示选项。拼接实体字典定义和关系 R,用来为一个 Q 构造知识 K。

Ex 表示与 Q 相关的实体,Ec 表示与 A 相关的实体。本文的相关指:在句子中出现。

用人话简单描述一下就是:给定 Q,在训练数据中找到相似的 QA 对,对每个 QA 对,找到其中所涉及的实体和关系,然后将实体的定义和关系也拼接进去,最后组成一长串文本作为模型输入。

相似检索使用 Lucene Index,模型训练使用 Transformers。实验结果(以文本摘要为例)如下:

b3394fe2-ebed-11ec-ba43-dac502259ad0.jpg

结果显示,REINA 可以显著提升(几乎所有数据集)使用不同预训练模型初始化的基线。在 case 分析时,作者发现 REINA 的数据和真实标签之间有很强的相关性。

总之,本文的思路非常简单,但效果却不错,在工业上可以一试,尤其是生成式文本摘要和 QA 任务。不过,感觉这好像也算是一种 prompt 吧,使用训练数据来「拉近」输入和真实标签之间的距离。

本文参考资料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95020
  • 检索
    +关注

    关注

    0

    文章

    27

    浏览量

    13432

原文标题:ACL2022 | 微软:永远不要低估你的训练数据!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【瑞萨AI挑战赛】手写数字识别模型RA8P1 Titan Board上的部署

    训练多分类模型,实现手写字母、汉字的识别; 边缘计算拓展:利用开发板的以太网接口,将识别结果上传至边缘服务器,实现多设备的协同推理数据管理。 RA8P1 Titan Board开发板为嵌入式AI开发
    发表于 03-15 20:42

    RAG(检索增强生成)原理与实践

    思想 RAG的核心思想非常直观:在生成答案之前,先从知识库检索相关信息,然后将这些信息作为上下文提供给大语言模型,让模型基于这些\"参考资料\"来生成更准确的回答。 这就像是让AI
    发表于 02-11 12:46

    训练推理:大模型算力需求的新拐点已至

    大模型产业发展的早期阶段,行业焦点主要集中大模型训练所需的算力投入。一个万亿参数大模型的训练可能需要数千张GPU芯片连续运行数月,成本高达数千万甚至上亿元。但随着大模型技术的成熟和
    的头像 发表于 02-05 16:07 1031次阅读
    从<b class='flag-5'>训练</b>到<b class='flag-5'>推理</b>:大模型算力需求的新拐点已至

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    电子发烧友网综合报道,人工智能迅猛发展的当下,AI推理芯片需求正呈爆发式增长。   AI推理,即支撑如ChatGPT这类AI模型响应用户问题和请求的计算过程。过去,英伟达
    的头像 发表于 02-03 17:15 3258次阅读

    数据传输拖慢训练?三维一体调度让AI任务提速40%

    、模型三者割裂,资源调度与数据流转不同步,训练任务频繁卡顿;更无奈的是,优化了算法、升级了硬件,却因底层传输与调度低效,始终无法突破训练效率瓶颈。 AI模型规模越来越大、
    的头像 发表于 01-26 14:20 255次阅读

    使用NVIDIA Grove简化Kubernetes上的复杂AI推理

    器 (vision encoders)、键值 (KV) 路由器等。此外,完整的代理式管道正在兴起,其中多个模型实例协同工作,执行推理检索或多模态任务
    的头像 发表于 11-14 10:25 5445次阅读
    使用NVIDIA Grove简化Kubernetes上的复杂AI<b class='flag-5'>推理</b>

    Ubuntu20.04系统训练神经网络模型的一些经验

    本帖欲分享Ubuntu20.04系统训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    一文看懂AI训练推理与训推一体的底层关系

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持很多人听过“大模型”,但没搞懂两件事。我们总说AI有多强,但真正决定AI能否落地的,是它的两个阶段:训练(Training)和推理
    的头像 发表于 09-19 11:58 2869次阅读
    一文看懂AI<b class='flag-5'>训练</b>、<b class='flag-5'>推理</b>与训推一体的底层关系

    PCIe协议分析仪能测试哪些设备?

    训练环境中高效的数据交换。 异构计算集群 测试场景:包含CPU、GPU、FPGA等多种计算单元的系统,分析各组件间的PCIe通信模式。 应用价值:优化
    发表于 07-25 14:09

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    推理能力和泛化能力。 多项基准测试,DeepSeek-V3的表现优于GPT-4等主流闭源模型,长文本处理、 代码生成和数学推理等领
    发表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析(文本/图像/语音)和实时交互能力,能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多
    发表于 07-16 15:29

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其导航策略学习
    的头像 发表于 07-08 10:00 744次阅读
    Aux-Think打破视觉语言导航<b class='flag-5'>任务</b>的常规<b class='flag-5'>推理</b>范式

    大模型推理显存和计算量估计方法研究

    方法。 一、引言 大模型推理是指在已知输入数据的情况下,通过深度学习模型进行预测或分类的过程。然而,大模型的推理过程对显存和计算资源的需求较高,这给实际应用带来了以下挑战: 显存不足:大模型
    发表于 07-03 19:43

    CPU密集型任务开发指导

    ; }} Worker线程完成任务之后,执行Worker线程销毁操作。销毁线程的方式主要有两种:根据需要可以宿主线程对Worker线
    发表于 06-19 06:05

    使用MicroPython部署的ocrrec_image.py推理得到的输出结果很差,如何解决呢?

    使用在线平台训练OCR识别任务,测试结果表现很好。 期待结果和实际结果 实际的推理结果很差,推理不出任何信息。
    发表于 04-29 06:54