0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用视觉语言模型对检测器进行预训练

电子工程师 来源:CSIG文档图像分析与识别专 作者:CSIG文档图像分析与 2022-08-08 15:33 次阅读

本文简要介绍了发表于CVPR 2022的论文“Vision-Language Pre-Trainingfor Boosting Scene Text Detector”的相关工作。大规模预训练在视觉任务中有着重要的作用,而视觉语言模型与多模态的特征联合近期也收到了广泛的关注。本文针对场景文本检测的问题,提出了利用视觉语言模型对检测器进行预训练,通过设计Image-text Contrastive Learning、Masked LanguageModeling和Word-in-image Prediction三个预训练任务有效得结合文本、图像两个模态的特征,帮助主干网络提取到更丰富的视觉与语义特征,以此提高文本检测器的性能。该预训练方法可以有效提升各文本检测器在各大公开场景文本数据集上的评估结果。

一、研究背景

预训练通常被用于自然语言处理以及计算机视觉领域,以增强主干网络的特征提取能力,达到加速训练和提高模型泛化性能的目的。该方法亦可以用于场景文本检测当中,如最早的使用ImageNet预训练模型初始化参数,到使用合成数据直接预训练检测器再在真实数据上Finetune,再到通过定义一些预训练任务训练网络参数等。但这些方法都存在一些问题,比如中合成数据与真实数据的Domain Gap导致模型在真实场景下Finetune效果不佳,中没有充分利用视觉与文本之间的联系。基于这些观察,本文提出了一个通过视觉语言模型进行图像、文本两个模态特征对齐的预训练方法VLPT-STD,用于提升场景文本检测器的性能。

二、方法介绍

本文提出了一个全新的用于场景文本检测预训练的框架—VLPT-STD,它基于视觉语言模型设计,可以有效地利用文本、图像两种模态的特征,使得网络提取到更丰富的特征表达。其算法流程如图1所示,主要分为Image Encoder,Text Encoder以及Cross-model Encoder三个部分,并且设计了三个预训练任务让网络学习到跨模态的表达,提高网络的特征提取能力。

2.1 模型结构

Image Encoder用于提取场景文本图片的视觉特征编码,Text Encoder则提取图片中文本内容的编码,最后视觉特征编码和文本内容编码一起输入Cross-model Encoder当中进行多模态特征融合。

Image Encoder 包含了一个ResNet50-FPN的主干网络结构和一个注意力池化层。场景文本图像首先输入到ResNet50-FPN中得到特征,然后通过注意力池化层得到一个图像特征编码序列2e05472c-16c2-11ed-ba43-dac502259ad0.png2e19e33a-16c2-11ed-ba43-dac502259ad0.png代表[CLS] Token的编码,S代表视觉Token的数量,d是维度。注意力池化层是一层Transformer中的多头注意力模块。

Text Encoder先将输入的文本转化成一个编码序列2e219602-16c2-11ed-ba43-dac502259ad0.png,K代表序列长度,然后通过三层多头注意力模块得到文本特征编码。

Cross-model由四个相同的Transformer Decoder组成,它将视觉编码序列和文本编码序列W结合到了一起,并将其最后的输出用于预测Masked Language Modeling预训练任务。

2e372ba2-16c2-11ed-ba43-dac502259ad0.png

图1 VLPT-STD整体框架

2.2 预训练任务

本文定义了三个预训练任务,包括Image-text Contrastive Learning(ITC)、Word-in-image Prediction(WIP)和Masked Language Modeling(MLM)。

Image-text Contrastive Learning(ITC)的目的是使得文本编码序列的每一项都能在视觉编码序列中找到最相似的编码,也就是让每个单词的文本编码与其对应的文本图片区域视觉特征匹配(例如,“Last”的Text Embedding与图片中“Last”位置的区域特征相似度最高)。

该任务对每个图像编码2e46ad3e-16c2-11ed-ba43-dac502259ad0.png和文本编码2e53d57c-16c2-11ed-ba43-dac502259ad0.png分别运用InfoNCE loss[4]去计算相似度。2e5cd76c-16c2-11ed-ba43-dac502259ad0.png2e6beb08-16c2-11ed-ba43-dac502259ad0.png代表一个Batch内所有的图像编码和文本编码,它们分别为Image Encoder得到的2e19e33a-16c2-11ed-ba43-dac502259ad0.png和Text Encoder得到的2e837ff2-16c2-11ed-ba43-dac502259ad0.png

2e8cacee-16c2-11ed-ba43-dac502259ad0.png

N代表Batch Size。ITC任务最终的损失函数为:2ea901aa-16c2-11ed-ba43-dac502259ad0.png

Word-in-Image Prediction(WIP)是通过在图像编码和文本单词编码中应用对比学习去区分出现在图片中的文本(正类)与不存在德文本(负类),从而预测给定的一组单词是否出现在输入图片中。如图1左上角所示,训练时图片中有的单词作为正样本,其编码为2eb12f24-16c2-11ed-ba43-dac502259ad0.png;负样本则是训练过程中基于文本编码的相似度进行采样得到(如对于正样本“Lost”,负样本可为“Lose”,“Last”等),文中选取的是Top-L(L=63)相似的文本,对于每一个正样本的编码2ebf0126-16c2-11ed-ba43-dac502259ad0.png,其负样本编码为

2ec8e6be-16c2-11ed-ba43-dac502259ad0.png

。输入图片为I,WIP的损失函数定义如下:

2eda0f70-16c2-11ed-ba43-dac502259ad0.png

MaskedLanguage Modeling (MLM)类似于BERT,该任务首先随机掩盖文本编码w,然后让网络利用所有的视觉特征编码v和未被掩盖的文本编码2ee5e494-16c2-11ed-ba43-dac502259ad0.png预测缺失的单词文本2ef4306c-16c2-11ed-ba43-dac502259ad0.png。如图1所示,图片中的文本“And”,“Was”等被掩盖,MLM任务是将它们预测恢复。其损失函数如下所示:

2efbfbf8-16c2-11ed-ba43-dac502259ad0.png

最终的损失函数为:

2f0fcb10-16c2-11ed-ba43-dac502259ad0.png

三、实验

3.1 实验细节

本文提出的VLPT-STD在SynthText [5]上进行预训练,然后将预训练得到的主干网络用于EAST [6],PSENet [7]和DB[2]这三个文本检测器在各个公开的真实场景数据集上进行Finetune。实验使用了八块v100,Batch Size为800。

3.2 与State-of-the-art的方法比较

表格1到表格3展示了文章提出的预训练方法与之前预训练方法对于三个不同的文本检测器性能提升的对比。

2f1b2c58-16c2-11ed-ba43-dac502259ad0.png

2f3078ba-16c2-11ed-ba43-dac502259ad0.png

2f42afb2-16c2-11ed-ba43-dac502259ad0.png

3.2 消融实验

首先是对模型设计的消融实验,如表格4所示。文章探究了Image Encoder中作者改进的FPN结构和Cross-model Encoder中Cross-attention的作用。

2f738f10-16c2-11ed-ba43-dac502259ad0.png

其次是对预训练任务的消融实验,如表格5所示。

2f803f9e-16c2-11ed-ba43-dac502259ad0.png

最后是对预训练的数据集进行了探究,作者对比了SynthText和TextOCR [8]两种数据集,结果如表6所示。

2f91586a-16c2-11ed-ba43-dac502259ad0.png

3.3 可视化结果

文章首先展示了Cross-model当中Attention Map的可视化结果。可以看到一个文本是与Attention Map中高亮区域是一一匹配的。

2f9c8d66-16c2-11ed-ba43-dac502259ad0.png

然后文章展示了和之前预训练方法STKM [3] 对比的检测结果。

2fe8e148-16c2-11ed-ba43-dac502259ad0.png

四、总结与讨论

在场景文本检测当中,本文是第一篇用视觉语言模型以及多模态特征融合的思路去设计预训练任务以提升文本检测性能的工作,它设计了三个简单有效的任务,提高了主干网络对文本图像特征的表征能力。如何利用文本和图像两种模态的特征也是未来OCR领域的一个重要方向。

原文作者:Sibo Song, Jianqiang Wan, Zhibo Yang, Jun Tang, Wenqing Cheng, Xiang Bai, Cong Yao

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    803

    浏览量

    47231
  • 计算机
    +关注

    关注

    19

    文章

    6597

    浏览量

    83892

原文标题:CVPR 2022 | 阿里&华科提出:针对场景文本检测的视觉语言模型预训练

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何利用Transformers了解视觉语言模型

    模型称为 “视觉语言模型是什么意思?一个结合了视觉语言模态的
    发表于 03-03 09:49 644次阅读
    如何<b class='flag-5'>利用</b>Transformers了解<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    TOP1的桂冠,可想大家对本书的认可和支持! 这本书为什么如此受欢迎?它究竟讲了什么?下面就给大家详细~~ 本书主要内容 本书围绕大语言模型构建的四个主要阶段——训练、有监督微调、
    发表于 03-11 15:16

    Pytorch模型训练实用PDF教程【中文】

    及优化,从而给大家带来清晰的机器学习结构。通过本教程,希望能够给大家带来一个清晰的模型训练结构。当模型训练遇到问题时,需要通过可视化工具对
    发表于 12-21 09:18

    基于Keras利用训练好的hdf5模型进行目标检测实现输出模型中的表情或性别gradcam

    CV:基于Keras利用训练好的hdf5模型进行目标检测实现输出模型中的脸部表情或性别的grad
    发表于 12-27 16:48

    如何利用FPGA实现Laplacian图像边缘检测器的研究?

    图形处理领域,图像处理的速度一直是一个很难突破的设计瓶颈。这里通过研究图像边缘检测器的FPGA实现,来探讨如何利用FPGA实现Laplacian图像边缘检测器的研究?
    发表于 07-31 06:38

    如何利用Haar Cascade特征检测器来实现人脸检测

    怎样采用LBP特征进行人脸检测与人脸识别呢?如何利用Haar Cascade特征检测器来实现人脸检测呢?
    发表于 02-28 08:20

    一种脱离预训练的多尺度目标检测网络模型

    为提高卷积神经网络目标检测模型精度并增强检测器对小目标的检测能力,提出一种脱离预训练的多尺度目标检测
    发表于 04-02 11:35 26次下载
    一种脱离预<b class='flag-5'>训练</b>的多尺度目标<b class='flag-5'>检测</b>网络<b class='flag-5'>模型</b>

    一种基于乱序语言模型的预训练模型-PERT

    由于乱序语言模型不使用[MASK]标记,减轻了预训练任务与微调任务之间的gap,并由于预测空间大小为输入序列长度,使得计算效率高于掩码语言模型
    的头像 发表于 05-10 15:01 1163次阅读

    基于视频语言模型LiteVL的无参的特征池化方法

    我们提出了LiteVL,这是一种视频语言模型,它无需大量的视频语言训练或目标检测器。LiteVL从预先
    的头像 发表于 12-05 10:54 411次阅读

    利用视觉+语言数据增强视觉特征

    传统的多模态预训练方法通常需要"大数据"+"大模型"的组合来同时学习视觉+语言的联合特征。但是关注如何利用
    的头像 发表于 02-13 13:44 721次阅读

    多维度剖析视觉-语言训练的技术路线

    视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域,旨在赋予 AI 系统从多模态数据中学习有效信息的能力。受 NLP 预
    的头像 发表于 02-23 11:15 605次阅读

    基于预训练模型语言增强的零样本视觉学习

    在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升 怎么让能力更好?可以引入其他知识,即其他的预训练模型,包括大
    的头像 发表于 06-15 16:36 271次阅读
    基于预<b class='flag-5'>训练</b><b class='flag-5'>模型</b>和<b class='flag-5'>语言</b>增强的零样本<b class='flag-5'>视觉</b>学习

    训练语言模型带来的硬件挑战

    生成式AI和大语言模型(LLM)正在以难以置信的方式吸引全世界的目光,本文简要介绍了大语言模型训练这些
    的头像 发表于 09-01 17:14 1032次阅读
    <b class='flag-5'>训练</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>带来的硬件挑战

    哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

    最近,大型多模态(即视觉语言模型(LMM)在图像描述、视觉理解、视觉推理等多种视觉任务上表现
    的头像 发表于 11-21 16:08 523次阅读
    哈工大提出Myriad:<b class='flag-5'>利用</b><b class='flag-5'>视觉</b>专家<b class='flag-5'>进行</b>工业异常<b class='flag-5'>检测</b>的大型多模态<b class='flag-5'>模型</b>

    机器人基于开源的多模态语言视觉模型

    ByteDance Research 基于开源的多模态语言视觉模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以
    发表于 01-19 11:43 103次阅读
    机器人基于开源的多模态<b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>