引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别-电子发烧友网

引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别。

华中科技大学白翔老师团队在自然场景文本检测与识别领域成果颇丰，这篇被ECCV2018接收的论文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。

文章指出，最近，基于深度神经网络的模型已经主导了场景文本检测和识别领域。在该文中，研究了场景“text spotting”的问题，其旨在自然图像中同时进行文本检测和识别。

该文受到Mask R-CNN的启发提出了一种用于场景text spotting的可端到端训练的神经网络模型：Mask TextSpotter。与以前使用端到端可训练深度神经网络完成text spotting的方法不同，Mask TextSpotter利用简单且平滑的端到端学习过程，通过语义分割获得精确的文本检测和识别。此外，它在处理不规则形状的文本实例（例如，弯曲文本）方面优于之前的方法。

在ICDAR2013、ICDAR2015和Total-Text数据库上的实验表明，所提出的方法在场景文本检测和端到端文本识别任务中都达到了state-of-the-art的水平。

弯曲形状文本检测与识别的例子：

左图是水平text spotting方法的结果，它的检测框是水平的；中间图是具有方向的text spotting方法的结果，它的检测框倾斜；右图是该文提出的Mask TextSpotter算法的结果，它的检测框不是外接矩形而是一个最小外接多边形，对这种弯曲文本达到了更精确的文本检测和识别。

▌网络架构

网络架构由四部分组成，骨干网feature pyramid network (FPN)，文本候选区域生成网络region proposal network (RPN)，文本包围盒回归网络Fast R-CNN，文本实例分割与字符分割网络mask branch。

▌训练阶段

RPN首先生成大量的文本候选区域，然后这些候选区域的RoI特征被送入Fast R-CNN branch和mask branch，由它们去分别生成精确的文本候选包围盒（text candidate boxes）、文本实例分割图（text instance segmentation maps）、字符分割图（character segmentation maps）。

尤其值得一提的是Mask Branch，如下图：

它将输入的RoI（固定大小16*64）经过4层卷积层和1层反卷积层，生成38通道的图（大小32*128），包括一个全局文本实例图——它给出了文本区域的精确定位，无论文本排列的形状如何它都能分割出来，还包括36个字符图（对应于字符0～9，A～Z），一个字符背景图（排除字符后的的所有背景区域），在后处理阶段字符背景图会被用到。

这是一个多任务模型，其Loss组成：

▌推理阶段

推理阶段mask branch的输入RoIs来自于Fast R-CNN的输出。

推理的过程如下：首先输入一幅测试图像，通过Fast R-CNN获取候选文本区域，然后通过NMS（非极大抑制）过滤掉冗余的候选区域，剩下的候选区域resize后送入mask branch，得到全局文本实例图，和字符图。通过计算全局文本实例图的轮廓可以直接得到包围文本的多边形，通过在字符图上使用提出的pixel voting方法生成字符序列。

如上图所示，Pixel voting方法根据字符背景图中每一个联通区域，计算每一字符层相应区域的平均字符概率，即得到了识别的结果。

为了在识别出来的字符序列中找到最佳匹配单词，作者在编辑距离（Edit Distance）基础上发明了加权编辑距离（Weighted Edit Distance）。

识别结果示例：

▌ICDAR2013的结果

该库主要用来验证在水平文本上的识别效果。

▌ICDAR2015的结果

用来验证方向变化的文本的结果。

▌Total-Text结果

验证弯曲的文本检测识别结果。

弯曲文本识别示例

▌速度

在Titan Xp显卡上，720*1280的图像，速度可以达到6.9FPS。

▌效果分析

作者通过进一步的实验分析，发现：如果去除字符图子网络，只训练检测模型，检测的性能会下降，说明检测可以受益于识别模块。下图中Ours(det only)为只有检测的模型。

如果去除训练样本中的真实世界字符标注图像，模型依然可以达到相当竞争力的性能。下图中Ours(a)即不使用真实世界字符标注图像的训练结果。

通过加权编辑距离（weighted edit distance）和原始编辑距离的比较，发现，加权编辑距离可以明显提高识别性能。下图中Ours(b)为原始编辑距离的结果。

该文将Mask R-CNN语义分割的方法用于文本检测与识别，取得了显著的性能改进，并能成功应对任意形状的文本，其他语义分割方法是否也能拿来试一下呢？（该文目前还没有开源代码。）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98716
文本

文本

+关注

关注
0

文章
118

浏览量
16919

原文标题：ECCV 2018 | 华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

手把手教你使用LabVIEW实现Mask R-CNN图像实例分割（含源码）

使用LabVIEW实现Mask R-CNN图像实例分割

发表于 03-21 13:39 •1401次阅读

手把手教你使用LabVIEW实现<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>图像实例<b class='flag-5'>分割</b>（含源码）

van-自然和医学图像的深度语义分割：网络结构

。基于此作者引入反卷积（deconvolution）操作，对缩小后的特征进行上采样，恢复原始图像大小。跳跃结构：语义分割包括语义

发表于 12-28 11:03

van-自然和医学图像的深度语义分割：网络结构

。基于此作者引入反卷积（deconvolution）操作，对缩小后的特征进行上采样，恢复原始图像大小。跳跃结构：语义分割包括语义

发表于 12-28 11:06

Mask R-CNN：自动从视频中制作目标物体的GIF动图

用深度学习模型——Mask R-CNN，自动从视频中制作目标物体的GIF动图。

发表于 02-03 14:19 •1.1w次阅读

什么是Mask R-CNN？Mask R-CNN的工作原理

它的概念很简单：对于每个目标对象，Faster R-CNN都有两个输出，一是分类标签，二是候选窗口；为了分割目标像素，我们可以在前两个输出的基础上增加第三个输出——指示对象在窗口中像素位置的二进制

发表于 07-20 08:53 •6.7w次阅读

手把手教你操作Faster R-CNN和Mask R-CNN

R-CNN又承继于R-CNN，因此，为了能让大家更好的理解基于CNN的目标检测方法，我们从R-CNN开始切入，一直介绍到

发表于 04-04 16:32 •1.3w次阅读

FAIR何恺明、Ross等人最新提出实例分割的通用框架TensorMask

然而，尽管目前性能最好的对象检测器依赖于滑动窗口预测来生成初始候选区域，但获得更准确的预测主要来自对这些候选区域进行细化的阶段，如 Faster R-CNN 和 Mask

发表于 04-08 12:00 •1.1w次阅读

Facebook AI使用单一神经网络架构来同时完成实例分割和语义分割

这一新架构“全景 FPN ”在 Facebook 2017 年发布的 Mask R-CNN 的基础上添加了一个用于语义分割的分支。这一新架构可以同时对图像

发表于 04-22 11:46 •2640次阅读

Facebook AI使用单一神经网络架构来同时完成实例<b class='flag-5'>分割</b>和<b class='flag-5'>语义</b><b class='flag-5'>分割</b>

语义分割算法系统介绍

知乎文章。作者Xavier CHEN针对语义分割进行系统的介绍，从原理解析到算法发展总结，文章思路清晰，总结全面，推荐大家阅读。本文作者为Xavier CHEN，毕业于浙江大学，在知乎持续分享前沿文章。 01 前言之前做了一个语义

发表于 11-05 10:34 •4727次阅读

基于改进Faster R-CNN的目标检测方法

为提高小尺度行人检测的准确性，提出一种基于改进 Faster r-CNN的目标检测方法。通过引入基于双线性插值的对齐池化层，避免感兴趣区域池

发表于 03-23 14:52 •3次下载

一种基于Mask R-CNN的人脸检测及分割方法

针对现有主流的人脸检测算法不具备像素级分割，从而存在人脸特征具有噪声及检测精度不理想的问题提出了一种基于 Mask r-CNN的人脸

发表于 04-01 10:42 •5次下载

基于Mask R-CNN的遥感图像处理技术综述

较为密集，且容易与港口混合。当前对舰船检测的输岀结果主要是检测框，缺少对舰船掩码的输岀，使得无法全面分析岀模型存在的不足;冋时，由于遙感图像中的舰船停靠密集，容易产生漏检问題。为解决上述问题，利用 Mask

发表于 05-08 16:39 •3次下载

用于实例分割的Mask R-CNN框架

我们的方法称为 Mask R-CNN，扩展了 Faster RCNN ，方法是在每个感兴趣区域 (RoI) 上添加一个用于预测分割掩码的分支，与用于分类和边界框回归的现有分支并行(图 1)。掩码分支

发表于 04-13 10:40 •2198次阅读

PyTorch教程14.8之基于区域的CNN(R-CNN)

电子发烧友网站提供《PyTorch教程14.8之基于区域的CNN(R-CNN).pdf》资料免费下载

发表于 06-05 11:09 •0次下载

PyTorch教程-14.8。基于区域的 CNN (R-CNN)

Studio 实验室在 SageMaker Studio Lab 中打开笔记本除了第 14.7 节中描述的单次多框检测之外，基于区域的 CNN 或具有 CNN 特征的区域 (R-CNN

发表于 06-05 15:44 •382次阅读

搜索历史

引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别

评论

手把手教你使用LabVIEW实现Mask R-CNN图像实例分割（含源码）

van-自然和医学图像的深度语义分割：网络结构

van-自然和医学图像的深度语义分割：网络结构

Mask R-CNN：自动从视频中制作目标物体的GIF动图

什么是Mask R-CNN？Mask R-CNN的工作原理

手把手教你操作Faster R-CNN和Mask R-CNN

FAIR何恺明、Ross等人最新提出实例分割的通用框架TensorMask

Facebook AI使用单一神经网络架构来同时完成实例分割和语义分割

语义分割算法系统介绍

基于改进Faster R-CNN的目标检测方法

一种基于Mask R-CNN的人脸检测及分割方法

基于Mask R-CNN的遥感图像处理技术综述

用于实例分割的Mask R-CNN框架

PyTorch教程14.8之基于区域的CNN(R-CNN)

PyTorch教程-14.8。基于区域的 CNN (R-CNN)