0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器

CVer 来源:CVer 2023-11-27 16:28 次阅读

大语言模型(LLM)能够以一种无需微调的方式从少量示例中学习,这种方式被称为 "上下文学习"(In-context Learning)。目前只在大模型上观察到上下文学习现象,那么,常规大小的模型是否具备类似的能力呢?GPT4、Llama等大模型在非常多的领域中都表现出了杰出的性能,但很多场景受限于资源或者实时性要求较高,无法使用大模型。为了探索小模型的上下文学习能力,字节和华东师大的研究团队在场景文本识别任务上进行了研究。

场景文本识别(Scene Text Recognition)的目标是将图像中的文本内容提取出来。实际应用场景中,场景文本识别面临着多种挑战:不同的场景、文字排版、形变、光照变化、字迹模糊、字体多样性等,因此很难训练一个能应对所有场景的统一的文本识别模型。一个直接的解决办法是收集相应的数据,然后在特定场景下对模型进行微调。但是这一过程需要重新训练模型,当场景变多、领域任务变得复杂时,实际的训练、存储、维护资源则呈几何倍增长。如果文本识别模型也能具备上下文学习能力,面对新的场景,只需少量标注数据作为提示,就能提升在新场景上的性能,那么上面的问题就迎刃而解。然而,场景文本识别是一个资源敏感型任务,将大模型当作文本识别器非常耗费资源,并且通过初步的实验,研究人员发现传统的训练大模型的方法在场景文本识别任务上并不适用。

为了解决这个问题,来自字节和华东师大的研究团队提出了自进化文本识别器,ESTR(Ego-Evolving Scene Text Recognizer),一个融合了上下文学习能力的常规大小文本识别器,无需微调即可快速适应不同的文本识别场景。ESTR配备了一种上下文训练和上下文推理模式,不仅在常规数据集上达到了SOTA的水平,而且可以使用单一模型提升在各个场景中的识别性能,实现对新场景的快速适应,甚至超过了经过微调后专用模型的识别性能。ESTR证明,常规大小的模型足以在文本识别任务中实现有效的上下文学习能力。ESTR在各种场景中无需微调即可表现出卓越的适应性,甚至超过了经过微调后的识别性能。

8e61a640-8c75-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/pdf/2311.13120

方法

图1介绍了ESTR的训练和推理流程。

8e777d4e-8c75-11ee-939d-92fbcf53809c.png

1.基础文本识别训练

基础文本识别训练阶段采用自回归框架训练视觉编码器和语言解码器:

8e992818-8c75-11ee-939d-92fbcf53809c.png

2.上下文训练

上下文训练阶段ESTR 将根据文中提出的上下文训练范式进行进一步训练。在这一阶段,ESTR 会学习理解不同样本之间的联系,从而从上下文提示中获益。

8ea68454-8c75-11ee-939d-92fbcf53809c.png

如图2所示,这篇文章提出 ST 策略,在场景文本数据中进行随机的分割和转换,从而生成一组 "子样本"。子样本在视觉和语言方面都是内在联系的。这些内在联系的样本被拼接成一个序列,模型从这些语义丰富的序列中学习上下文知识,从而获取上下文学习的能力。这一阶段同样采用自回归框架进行训练:

8eb82718-8c75-11ee-939d-92fbcf53809c.png

3.上下文推理

针对一个测试样本,该框架会从上下文提示池中选择 个样本,这些样本在视觉隐空间与测试样本具有最高的相似度。具体来说,这篇文章通过对视觉token序列做平均池化,计算出图像embedding 。然后,从上下文池中选择图像嵌入与 的余弦相似度最高的前 N 个样本,从而形成上下文提示。

8ec51a9a-8c75-11ee-939d-92fbcf53809c.png

上下文提示和测试样本拼接在一起送入模型,ESTR便会以一种无训练的方式从上下文提示中学得新知识,提升测试样本的识别准确率。值得注意的是,上下文提示池只保留了视觉编码器输出的token,使得上下文提示的选择过程非常高效。此外,由于上下文提示池很小,而且ESTR不需要训练就能直接进行推理,因此额外的消耗也降到了最低限度。

实验

实验从三个角度进行:

1.传统数据集

从训练集中随机抽取很少的样本(1000个,训练集 0.025% 的样本数量)组成上下文提示池,在12个常见的场景文本识别测试集中进行的测试,结果如下:

8eef0760-8c75-11ee-939d-92fbcf53809c.png

2.跨域场景

跨域场景下每个测试集仅提供100个域内训练样本,无训练和微调对比结果如下。ESTR甚至超过了SOTA方法的微调结果。

8f0ad454-8c75-11ee-939d-92fbcf53809c.png

3.困难样本修正

研究人员收集了一批困难样本,对这些样本提供了10%~20%的标注,对比ESTR的无训练学习方法和SOTA方法的微调学习方法,结果如下:

8f2a9f82-8c75-11ee-939d-92fbcf53809c.png

可以发现,ESTR-ICL大大降低了困难样本的错误率。

未来展望

ESTR证明了使用合适的训练和推理策略,小模型也可以拥有和LLM类似的In-context Learning的能力。在一些实时性要求比较强的任务中,使用小模型也可以对新场景进行快速的适应。更重要的是,这种使用单一模型来实现对新场景快速适应的方法使得构建统一高效的小模型更近了一步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2706

    浏览量

    47697
  • 识别器
    +关注

    关注

    0

    文章

    19

    浏览量

    7548
  • 大模型
    +关注

    关注

    2

    文章

    1536

    浏览量

    1135

原文标题:小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请问risc-v中断还需要软件保存上下文和恢复吗?

    risc-v中断还需要软件保存上下文和恢复吗?
    发表于 02-26 07:40

    ISR的上下文保存和恢复是如何完成的?

    函数:ifxCPU_enableInterrupts ();如果我让更高优先级的 ISR 中断优先级较低的 ISR,那么 ISR 的上下文保存和恢复是如何完成的?
    发表于 01-22 06:28

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    如果是第三方框架的模型,比如 TensorFlow、TensorFlow Lite、Caffe、ONNX 等,可以使用模型转换工具转换为.ms 格式的模型文件。 创建上下文,设置线程数
    发表于 12-14 11:41

    FreeRTOS系列技术文章:上下文切换

    嵌入式实时操作系统(RTOS)中的上下文切换是指保存和恢复任务的状态,以使调度程序能够切换到另一个任务,从而促进多任务处理。
    的头像 发表于 11-21 15:48 417次阅读

    全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

    已经成功应用于自然语言处理、计算机视觉和时间序列预测等领域的各种学习任务。虽然取得了成功,但这些模型仍面临着严重的可扩展性限制,原因是对其注意力层的精确计算导致了二次(在序列长度上)运行时和内存复杂性。这对将 Transformer
    的头像 发表于 11-20 09:15 299次阅读
    全新近似注意力机制HyperAttention:对长<b class='flag-5'>上下文</b>友好、LLM推理提速50%

    李开复4个多月后“放大招”:对标OpenAI、谷歌,发布“全球最强”开源大模型

    在语言模型中,上下文窗口是大模型综合运算能力的金指标之一,对于理解和生成与特定上下文相关的文本至关重要,拥有更长窗口的语言
    的头像 发表于 11-06 15:47 328次阅读
    李开复4个多月后“放大招”:对标OpenAI、谷歌,发布“全球最强”开源大<b class='flag-5'>模型</b>

    港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

    它代表着业界对长文本大语言模型的重新思考和关注,有效扩展了大语言模型上下文窗口,允许模型考虑和处理较长的
    的头像 发表于 10-18 15:54 314次阅读
    港中文贾佳亚团队联手MIT发布超长<b class='flag-5'>文本</b>扩展技术,打破LLM遗忘魔咒

    为什么transformer性能这么好?Transformer的上下文学习能力是哪来的?

    为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来?在人工智能领域里,transformer 已成为深度学习
    的头像 发表于 09-25 12:05 807次阅读
    为什么transformer性能这么好?Transformer的<b class='flag-5'>上下文学习</b>能力是哪来的?

    Linux技术:什么是cpu上下文切换

    过多的上下文切换会消耗 CPU 的时间来保存和恢复寄存器、程序计数器、内核栈和虚拟内存等数据,从而导致系统性能显着下降。 既然上下文切换对系统性能的影响如此之大,那么我们如何检查它呢?好了,你可以使用 vmstat 工具来查询你系统的
    发表于 09-01 09:31 233次阅读
    Linux技术:什么是cpu<b class='flag-5'>上下文</b>切换

    华东师大实现超灵敏、高分辨、大视场的中红外单光子三维成像

    华东师大精密光谱科学与技术国家重点实验室曾和平教授与黄坤研究员团队在中红外三维成像领域取得进展,发展了宽视场、超灵敏、高分辨的中红外上转换三维成像技术,获得了单光子成像灵敏度与飞秒光学门控精度,可为芯片无损检测
    的头像 发表于 07-26 09:18 1136次阅读
    <b class='flag-5'>华东师大</b>实现超灵敏、高分辨、大视场的中红外单光子三维成像

    首篇!Point-In-Context:探索用于3D点云理解的上下文学习

    随着基于广泛数据训练的大模型兴起,上下文学习(In-Context Learning)已成为一种新的学习范式,在自然语言处理(NLP)和计算机视觉(CV)任务中表现出了巨大的潜力。
    的头像 发表于 07-13 14:41 419次阅读
    首篇!Point-In-Context:探索用于3D点云理解的<b class='flag-5'>上下文学习</b>

    谷歌新作SPAE:GPT等大语言模型可以通过上下文学习解决视觉任务

    这篇论文揭示了 PaLM 或 GPT 在通过上下文学习解决视觉任务方面的能力,并提出了新方法 SPAE(Semantic Pyramid AutoEncoder)。这种新方法使得 LLM 能够执行图像生成任务,而无需进行任何参数
    的头像 发表于 07-09 15:35 842次阅读
    谷歌新作SPAE:GPT等大语言<b class='flag-5'>模型</b>可以通过<b class='flag-5'>上下文学习</b>解决视觉任务

    我们能否扩展现有的预训练 LLM 的上下文窗口

    50 页的文字,意味着在对话或生成文本时,GPT-4 最多可以记住 50 页左右内容。    一般来讲,大语言模型处理上下文窗口大小的能力是预定好的。例
    的头像 发表于 06-30 11:09 410次阅读
    我们能否扩展现有的预训练 LLM 的<b class='flag-5'>上下文</b>窗口

    下载量超300w的ChatGLM-6B再升级:8-32k上下文,推理提速42%

    基于 FlashAttention 技术,项目团队将基座模型上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练
    的头像 发表于 06-29 16:15 977次阅读
    下载量超300w的ChatGLM-6B再升级:8-32k<b class='flag-5'>上下文</b>,推理提速42%

    切换k8s上下文有多快

    use-context 命令就会很低效。 今天介绍3个工具会让你在多k8s集群环境中工作的很轻松。我将从以下几个方面来评估工具实用性: 速度 如果你有多个k8s集群可选择,你切换k8s上下文有多快?你还记得所有的集群上下文? 灵活性 工具是否具备高级特性比如支持多con
    的头像 发表于 05-29 15:26 450次阅读
    切换k8s<b class='flag-5'>上下文</b>有多快