0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

上交提出RCLSTR:面向场景文本识别的关系对比学习

CVer 来源:CSIG文档图像分析与识别专 2023-09-14 17:21 次阅读

本文简单介绍ACMMM2023录用的论文“Relational Contrastive Learning for Scene Text Recognition”的主要工作。该论文主要研究了基于对比学习的文本识别自监督方法。文章受到基于上下文感知方法在文字监督学习中取得的巨大成功[1],利用文本和背景的异质性,将文字的上下文信息理解为文本基元的关系,为表征学习提供有效的自监督标签。但是由于词汇依赖[2],文本关系被限制在有限的数据集中,这可能导致过拟合并损害表征的鲁棒性。因此,该文提出通过重排、分层和交互来丰富文本关系,并设计了一个统一的框架RCLSTR: Relational Contrastive Learning for Scene Text Recognition。实验表明,该方法能够有效提升对比学习文本识别的自监督性能。

一、背景介绍

场景文本图像的特点与自然图像有很大的不同。首先,前景(文本)和背景是异构的,文本识别主要依赖于文本而不是背景。第二,大部分文本图像通常具有从左到右的结构。第三,文本图像包含了字符序列和多粒度的结构。先前的文本自监督方法主要是从自然图像迁移而来的,仅仅探索了文本的部分特点。该文章启发于上下文感知方法在文字监督学习中的成功应用,在自监督对比学习中充分探索文本的特点。提出通过重排、分层和交互来丰富文本关系,从而形成更完整的对比学习机制。

7c3252cc-524f-11ee-a25d-92fbcf53809c.png

如上图所示,首先,对于“重排”,文本图像可以被分割并重新排列成新的上下文关系,该文设计了一个重排模块来生成新的单词图像,丰富了文本关系的多样性。第二,对于“分层”,由于文本图像中存在词、子词、字符等多个不同粒度的对象,提出了一种分层结构在多个层级上进行表征学习,从而丰富语义信息,增强表征的鲁棒性。第三,对于“交互”,利用不同层级对象之间的交互,例如字符-子词和子词-词相似度,约束不同层级上语义相似性的一致性,从而促进学习高质量的表征。

二、方法介绍

基于MoCo[3]的框架,该文提出了用于文本识别的关系对比学习框架(RCLSTR)。如下图所示:1、在Online分支(上半部分)中引入了一个新的重排阶段,从原始分支中产生水平重排的图像,称为关系正则化模块(Relational Regularization)。2、文章设计了一个分层结构来学习每一层内部的关系,称为分层关系模块(Hierarchical Relation)。3、提出了一个跨层次关系一致性模块(Cross-Hierarchy Relational Consistency),以便网络学习层级之间的关系。

7c6a8ad4-524f-11ee-a25d-92fbcf53809c.png

对于Relational Regularization,该文提出了一个重排模块来生成新的文本图像,生成的图像包含更多的上下文关系。如下图所示,该模块将文本图像水平划分为几个片段,然后随机打乱,重新连接片段后生成重排后的图像。重排后的图像经过Online编码器和投影层后得到对应特征,然后将特征复位到原始图片中的位置。

7c994a36-524f-11ee-a25d-92fbcf53809c.png

文章分别计算了原始特征7cb99098-524f-11ee-a25d-92fbcf53809c.png和正则化特征7cc3322e-524f-11ee-a25d-92fbcf53809c.png(对应于重新排列的图像)上的对比损失,然后将两者求和得到:

7cd409aa-524f-11ee-a25d-92fbcf53809c.png

对于Hierarchical Relation,考虑到文本在水平方向上具有不同的粒度,该文提出了一种分层的对比学习结构,通过不同粒度的池化层将特征映射到帧、子词和词三个层次,然后进行分层级的关系对比学习,每个层级计算对比损失(上标7ce6809e-524f-11ee-a25d-92fbcf53809c.png指代帧、子词和词三个层级),并求和得到:

7cf25342-524f-11ee-a25d-92fbcf53809c.png

对于Cross-Hierarchy Relational Consistency,提出一致性约束来学习相邻层之间的关系,实现帧-子词和子词-词之间的一致性约束。对于帧-子词关系,由于来自相同空间位置(在同一图像中)的帧和子词特征在特征空间中表现出更高的相似性,因此将其视为正样本对,将其他位置的特征视为负样本对,子词-词之间的正负对关系类似。该模块通过KL损失来约束相似度分布之间的一致性:

7d07db72-524f-11ee-a25d-92fbcf53809c.png

其中7d186f8c-524f-11ee-a25d-92fbcf53809c.png表示帧-子词一致性损失,7d29f3ec-524f-11ee-a25d-92fbcf53809c.png表示子词-词一致性损失。最后总的损失函数为正则化的多层级损失和跨层级损失求和:

7d377904-524f-11ee-a25d-92fbcf53809c.png

三、实验结果

表征质量的结果如下表所示,与SeqMoCo的baseline相比,加入三个主要模块后,基于CTC的解码器性能平均提高了+12.38%,基于注意力的解码器平均提高了+10.15%。同时,该表也展示了三个关键模块各自的有效性。

7d4c5162-524f-11ee-a25d-92fbcf53809c.png

下图是使用t-SNE[4]将IIIT5K[5]数据集图像特征可视化的结果,对应于SeqMoCo(Baseline)和该文的方法RCLSTR。可以看出,RCLSTR方法能更好地挖掘字符关系,对应相同类别的字符特征能够更好地成簇。

7d786ed2-524f-11ee-a25d-92fbcf53809c.png

四、总结

该工作提出了一个新的场景文本识别的关系对比学习框架(RCLSTR)。在这个框架中,通过三个模块对文本图像之间的关系进行了充分的探讨。提出了Relational Regularization模块,以丰富图像内部和图像间的上下文关系。同时设计了用于关系对比学习的Hierarchical Relation模块,在不同粒度上进行分层级对比学习。此外,针对场景文本图像中不同层次的交互,设计了Cross-Hierarchy Relational Consistency模块。实验结果表明该方法能够有效提升对比学习文本识别的自监督性能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40159
  • 模块
    +关注

    关注

    7

    文章

    2485

    浏览量

    46539
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24356

原文标题:ACM MM 2023 | 上交提出RCLSTR:面向场景文本识别的关系对比学习

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请问instaspin foc识别的参数跟注入电流大小关系比较大怎么处理?

    instaspin foc识别的参数跟注入电流大小关系比较大.Rs Ls学习的电流设置为1A或者10A,都能识别完成,但是发现学到的Rs和Ls前后差别却很大,有2倍的差距.请问这种情况
    发表于 09-21 14:15

    人脸识别的三大模式

    机场安检人员通过换班来保证识别的准确率。其次1:N则是在海量的人像数据库中找出当前用户的人脸数据并进行匹配。1:N具有动态比对与非配合的特 点,动态对比是指通过对动态视频流的截取来获得人脸数据并进
    发表于 08-06 14:15

    基于多标记学习的汽车评论文本多性能识别

    针对汽车产品评论文本中出现的多方面性能,提出一种基于多标记学习的汽车评论文本多方面性能识别方法。首先,结合
    发表于 12-06 17:12 0次下载
    基于多标记<b class='flag-5'>学习</b>的汽车评论<b class='flag-5'>文本</b>多性能<b class='flag-5'>识别</b>

    基于面向文本标题的任务关系抽取

    为了克服文本标题的人物关系抽取中非人物实体的干扰、关系特征词的选取以及标题中多人物实体对目标实体的关系判定的影响,提出基于决策树的人物实体判
    发表于 12-22 09:56 0次下载
    基于<b class='flag-5'>面向</b><b class='flag-5'>文本</b>标题的任务<b class='flag-5'>关系</b>抽取

    面向人体动作识别的随机增量型混合学习机模型

    针对自然人机交互应用中的人体动作识别问题,总结了传统机器学习模型在识别人体动作时的缺点,然后在此基础上针对自然人机交互应用的独特要求提出面向
    发表于 01-03 15:50 1次下载
    <b class='flag-5'>面向</b>人体动作<b class='flag-5'>识别的</b>随机增量型混合<b class='flag-5'>学习</b>机模型

    面向实体识别的聚类算法

    实体识别是数据质量的一个重要方面,对于大数据处理不可或缺,已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.
    发表于 01-09 15:52 0次下载

    如何使用EAST文本检测器在自然场景下检测文本

    EAST是一种基于深度学习文本探测器,即高效、准确的场景文本检测(Efficient and Accurate Scene Text detectionpipeline)。更重要的是
    的头像 发表于 08-24 08:40 1.1w次阅读

    AI场景识别大比分领先旗舰机小米8

    近段时间,有网友在网上上传了一段荣耀8X和小米8 AI场景识别的对比视频。视频中,荣耀8X能迅速地识别出“花朵”、“人像”、“文本”、“绿植
    发表于 09-21 10:18 7559次阅读

    语音识别的应用场景

    在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交换机、电话机、手机已经包含了语音识别拨号功能、语音记事本、语音智能玩具等产品,同时也包括语音识别与语音合成功能。人们可以通过电话网络用语音
    的头像 发表于 03-27 15:04 1.9w次阅读

    识别文本蕴涵任务的小样本学习

    识别文本蕴涵的任务,也称自然语言推理,是指确定一段文本(前提)是否可被另一段文本(假设)所暗示或否认(或两者都不能)。虽然这一问题通常被视为机器学习
    的头像 发表于 03-10 18:06 2548次阅读
    <b class='flag-5'>识别</b><b class='flag-5'>文本</b>蕴涵任务的小样本<b class='flag-5'>学习</b>

    面向网络攻击识别的威胁情报画像分析方法

    新型网络攻击向高隐蔽性、高持久性和髙扩散性的方向发展,导致攻击识别与检测难度骤增。为提高网络攻击识别的效率与准确性,提出一种面向攻击识别的
    发表于 05-12 13:57 2次下载

    面向人脸识别的FusNet网络模型

    面向人脸识别的FusNet网络模型
    发表于 06-09 14:59 8次下载

    机器视觉与生物特征识别的关系

    机器视觉与生物特征识别的关系 机器视觉和生物特征识别是目前科技领域非常热门的方向。机器视觉是指利用电子设备来对物体进行识别、分析和处理,尤其是指计算机对视觉信息的处理;而生物特征
    的头像 发表于 08-09 17:43 498次阅读

    小模型也能进行上下文学习!字节&amp;华东师大联合提出自进化文本识别

    场景文本识别(Scene Text Recognition)的目标是将图像中的文本内容提取出来。实际应用场景中,
    的头像 发表于 11-27 16:28 487次阅读
    小模型也能进行上下文<b class='flag-5'>学习</b>!字节&amp;华东师大联合<b class='flag-5'>提出</b>自进化<b class='flag-5'>文本</b><b class='flag-5'>识别</b>器

    如何使用Python进行图像识别的自动学习自动训练?

    如何使用Python进行图像识别的自动学习自动训练? 使用Python进行图像识别的自动学习和自动训练需要掌握一些重要的概念和技术。在本文中,我们将介绍如何使用Python中的一些常用
    的头像 发表于 01-12 16:06 219次阅读