0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器

CVer 来源:CVer 2023-11-27 16:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大语言模型(LLM)能够以一种无需微调的方式从少量示例中学习,这种方式被称为 "上下文学习"(In-context Learning)。目前只在大模型上观察到上下文学习现象,那么,常规大小的模型是否具备类似的能力呢?GPT4、Llama等大模型在非常多的领域中都表现出了杰出的性能,但很多场景受限于资源或者实时性要求较高,无法使用大模型。为了探索小模型的上下文学习能力,字节和华东师大的研究团队在场景文本识别任务上进行了研究。

场景文本识别(Scene Text Recognition)的目标是将图像中的文本内容提取出来。实际应用场景中,场景文本识别面临着多种挑战:不同的场景、文字排版、形变、光照变化、字迹模糊、字体多样性等,因此很难训练一个能应对所有场景的统一的文本识别模型。一个直接的解决办法是收集相应的数据,然后在特定场景下对模型进行微调。但是这一过程需要重新训练模型,当场景变多、领域任务变得复杂时,实际的训练、存储、维护资源则呈几何倍增长。如果文本识别模型也能具备上下文学习能力,面对新的场景,只需少量标注数据作为提示,就能提升在新场景上的性能,那么上面的问题就迎刃而解。然而,场景文本识别是一个资源敏感型任务,将大模型当作文本识别器非常耗费资源,并且通过初步的实验,研究人员发现传统的训练大模型的方法在场景文本识别任务上并不适用。

为了解决这个问题,来自字节和华东师大的研究团队提出了自进化文本识别器,ESTR(Ego-Evolving Scene Text Recognizer),一个融合了上下文学习能力的常规大小文本识别器,无需微调即可快速适应不同的文本识别场景。ESTR配备了一种上下文训练和上下文推理模式,不仅在常规数据集上达到了SOTA的水平,而且可以使用单一模型提升在各个场景中的识别性能,实现对新场景的快速适应,甚至超过了经过微调后专用模型的识别性能。ESTR证明,常规大小的模型足以在文本识别任务中实现有效的上下文学习能力。ESTR在各种场景中无需微调即可表现出卓越的适应性,甚至超过了经过微调后的识别性能。

8e61a640-8c75-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/pdf/2311.13120

方法

图1介绍了ESTR的训练和推理流程。

8e777d4e-8c75-11ee-939d-92fbcf53809c.png

1.基础文本识别训练

基础文本识别训练阶段采用自回归框架训练视觉编码器和语言解码器:

8e992818-8c75-11ee-939d-92fbcf53809c.png

2.上下文训练

上下文训练阶段ESTR 将根据文中提出的上下文训练范式进行进一步训练。在这一阶段,ESTR 会学习理解不同样本之间的联系,从而从上下文提示中获益。

8ea68454-8c75-11ee-939d-92fbcf53809c.png

如图2所示,这篇文章提出 ST 策略,在场景文本数据中进行随机的分割和转换,从而生成一组 "子样本"。子样本在视觉和语言方面都是内在联系的。这些内在联系的样本被拼接成一个序列,模型从这些语义丰富的序列中学习上下文知识,从而获取上下文学习的能力。这一阶段同样采用自回归框架进行训练:

8eb82718-8c75-11ee-939d-92fbcf53809c.png

3.上下文推理

针对一个测试样本,该框架会从上下文提示池中选择 个样本,这些样本在视觉隐空间与测试样本具有最高的相似度。具体来说,这篇文章通过对视觉token序列做平均池化,计算出图像embedding 。然后,从上下文池中选择图像嵌入与 的余弦相似度最高的前 N 个样本,从而形成上下文提示。

8ec51a9a-8c75-11ee-939d-92fbcf53809c.png

上下文提示和测试样本拼接在一起送入模型,ESTR便会以一种无训练的方式从上下文提示中学得新知识,提升测试样本的识别准确率。值得注意的是,上下文提示池只保留了视觉编码器输出的token,使得上下文提示的选择过程非常高效。此外,由于上下文提示池很小,而且ESTR不需要训练就能直接进行推理,因此额外的消耗也降到了最低限度。

实验

实验从三个角度进行:

1.传统数据集

从训练集中随机抽取很少的样本(1000个,训练集 0.025% 的样本数量)组成上下文提示池,在12个常见的场景文本识别测试集中进行的测试,结果如下:

8eef0760-8c75-11ee-939d-92fbcf53809c.png

2.跨域场景

跨域场景下每个测试集仅提供100个域内训练样本,无训练和微调对比结果如下。ESTR甚至超过了SOTA方法的微调结果。

8f0ad454-8c75-11ee-939d-92fbcf53809c.png

3.困难样本修正

研究人员收集了一批困难样本,对这些样本提供了10%~20%的标注,对比ESTR的无训练学习方法和SOTA方法的微调学习方法,结果如下:

8f2a9f82-8c75-11ee-939d-92fbcf53809c.png

可以发现,ESTR-ICL大大降低了困难样本的错误率。

未来展望

ESTR证明了使用合适的训练和推理策略,小模型也可以拥有和LLM类似的In-context Learning的能力。在一些实时性要求比较强的任务中,使用小模型也可以对新场景进行快速的适应。更重要的是,这种使用单一模型来实现对新场景快速适应的方法使得构建统一高效的小模型更近了一步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • 识别器
    +关注

    关注

    0

    文章

    25

    浏览量

    7826
  • 大模型
    +关注

    关注

    2

    文章

    3449

    浏览量

    4974

原文标题:小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 219次阅读
    大语言<b class='flag-5'>模型</b>如何处理<b class='flag-5'>上下文</b>窗口中的输入

    请问riscv中断还需要软件保存上下文和恢复吗?

    的处理在进入和退出中断处理模式时没有硬件自动保存和恢复上下文(通用寄存)的操作,因此需要软件明确地使用(汇编语言编写的)指令进行上下文
    发表于 10-20 09:56

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    配置模型路径、max_new_tokens(生成内容最大 token 数)、max_context_len(最大上下文长度)、top_k、特殊 token 等关键参数;随后加载视觉编码模型
    发表于 09-05 17:25

    HarmonyOSAI编程编辑区代码续写

    场景),便于模型能理解代码上下文。 代码生成设置 进入File &amp;gt; Settings &amp;gt; CodeGenie &amp
    发表于 08-21 15:43

    HarmonyOS AI辅助编程工具(CodeGenie)代码续写

    注释行场景),便于模型能理解代码上下文。 二、代码生成设置 进入File &amp;gt; Settings &amp;gt; CodeGenie &
    发表于 07-15 16:15

    鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版

    摘要:随着鸿蒙系统API升级至16版本(modelVersion5.1.1),多项API已废弃。获取上下文需使用UIContext,具体方法包括:在组件中使用getUIContext(),在类中使
    的头像 发表于 07-01 10:57 608次阅读
    鸿蒙NEXT-API19获取<b class='flag-5'>上下文</b>,在class中和ability中获取<b class='flag-5'>上下文</b>,API迁移示例-解决无法在EntryAbility中无法使用最新版

    新知|Verizon与AT&amp;amp;amp;T可以手机直接连接卫星了

    近日,Verizon与AT&amp;T宣布,手机直连卫星方面取得重要进展,使用普通手机实现了通过卫星的视频通话。很显然,Verizon与AT&amp;T的这一举措是针对此前T-Mobile
    的头像 发表于 06-19 07:07 900次阅读
    新知|Verizon与AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T<b class='flag-5'>也</b>可以手机直接连接卫星了

    S32K在AUTOSAR中使用CAT1 ISR,是否需要执行上下文切换?

    如果我们在 AUTOSAR 中使用 CAT1 ISR,是否需要执行上下文切换?另外,是否需要返回指令才能跳回到作系统?您有没有带有 CAT1 ISR 的 S32K3x4 微控制的示例?
    发表于 03-27 07:34

    DeepSeek推出NSA机制,加速长上下文训练与推理

    的特性,专为超快速的长上下文训练和推理而设计。 NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。 在广泛的基准测试、涉及长
    的头像 发表于 02-19 14:01 928次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】RAG基本概念

    多路召回策略从海量数据中初步筛选相关信息,利用语义相似度计算深入评估信息与需求的匹配程度,再通过上下文相关性过滤确保信息的精准度。大模型集成层,为了能与主流的大语言模型(LLM)顺利对接,进行
    发表于 02-08 00:22

    阿里云通义开源长文本模型Qwen2.5-1M

    近日,阿里云通义宣布了一项重大开源举措,推出了支持100万Tokens上下文的Qwen2.5-1M模型。这一新模型在处理长文本任务中展现出了卓越的性能,稳定超越了GPT-4o-mini
    的头像 发表于 02-05 14:01 791次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    与文档库中每个文档向量的相似度,来检索最相关的文档。这一过程依赖于Embedding模型文本语义的准确捕捉。检索到的文档与用户的问题一起被Embedding模型转换为向量,形成新的上下文
    发表于 01-17 19:53

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    。对于文本数据,可以采用同义词替换、句法变换、上下文扩展等技术。微调策略和方法全参数微调:对模型的所有参数进行再训练。虽然需要大量的计算资源,但它可以充分适应特定任务。轻量级微调方法:
    发表于 01-14 16:51

    新品| Atomic Echo Base 语音识别底座 &amp;amp;amp; GroveY Cable 连接线

    新品:AtomicEchoBase&amp;GroveYCable01AtomicEchoBaseFEATURESAtomicEchoBase是一款专为M5Atom系列主机设计的语音识别底座,集成
    的头像 发表于 12-27 18:35 1324次阅读
    新品| Atomic Echo Base 语音<b class='flag-5'>识别</b>底座 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; GroveY Cable 连接线

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数,实现了快速适应。上下文学习则引入了注意力机制,使模型能够根据当前场景动态调整行为策略。在预训练-微调范式中,我们要注意任务表示的重要性:好的表示
    发表于 12-24 15:03