0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读文字识别论文CRNN

新机器视觉 来源:机器学习算法工程师 作者:晟沚 2022-06-09 11:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前 言

本文主要解读文字识别论文CRNN.

论文地址:chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1507.05717v1.pdf

01

网络结构

CRNN是一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,特别是场景文字识别问题。CRNN网络结构如下图:

1e594a82-e731-11ec-ba43-dac502259ad0.png

网络结构包含三部分,从下到上依次为:

卷积层,作用是从输入图像中提取特征序列;

循环层,作用是预测从卷积层获取的特征序列的标签(真实值)分布;

转录层,作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;

02

卷积层

CRNN卷积层由标准的CNN模型中的卷积层和最大池化层组成,自动提取出输入图像的特征序列。

与普通CNN网络不同的是,CRNN在训练之前,先把输入图像缩放到相同高度(图像宽度维持原样),论文中使用的高度值是32。

提取的特征序列中的向量是从特征图上从左到右按照顺序生成的,每个特征向量表示了图像上一定宽度上的特征,论文中使用的这个宽度是1,就是单个像素。

1e864c8a-e731-11ec-ba43-dac502259ad0.png

特别强调序列的顺序是因为在之后的循环层中,先后顺序是LSTM训练中的一个重要参考量。

03

循环层

循环层由一个双向LSTM循环神经网络构成,预测特征序列中的每一个特征向量的标签分布(真实结果的概率列表),循环层的误差被反向传播,最后会转换成特征序列,再把特征序列反馈到卷积层,这个转换操作由论文中定义的“Map-to-Sequence”自定义网络层完成,作为卷积层和循环层之间连接的桥梁。

在卷积层的上部建立一个深度双向递归神经网络,称为递归层。递归层对特征序列x = x1......xT中每帧的标签分布进行预测。递归层的优点有三方面。首先,RNN具有很强的序列上下文信息捕获能力。使用上下文线索进行基于图像的序列识别比单独处理每个符号更加稳定和有用。以场景文本识别为例,宽字符可能需要几个连续帧来充分描述。此外,有些歧义字在观察其上下文时更容易区分,例如“il”通过字高对比比单独识别更容易识别。

其次,RNN可以将误差微分反向传播到它的输入,即卷积层,让我们在一个统一的网络中共同训练递归层和卷积层。第三,RNN能够对任意长度的序列进行操作,从开始到结束进行遍历。

传统的RNN单元在输入层和输出层之间有一个自连接的隐含层。每当它在序列中接收到一个帧 xt 时,它就用一个非线性函数更新它的内部状态(或称隐藏状态)ht,这个函数接受当前输入xt和上一个内部状态ht-1: ht=g(xt,ht-1)。然后,基于ht进行预测yt。这样就捕获了过去的上下文{xt'}t'

1ead94a2-e731-11ec-ba43-dac502259ad0.png

LSTM是方向性的,它只使用过去的上下文。然而,在基于图像的序列中,来自两个方向的上下文是有用的,并且相互补充。因此,将两个向前和向后的LSTM合并为一个双向LSTM。此外,可以对多个双向LSTM进行叠加,得到如上图b所示的深双向LSTM。与浅层结构相比,深层结构允许更高层次的抽象,并在语音识别任务中取得了显著的性能改进。

在递归层中,误差差沿上图b所示箭头的相反方向传播,例如,通过时间反向传播(BPTT)。在递归层的底部,传播的微分序列被连接到映射中,反转了将特征映射转换为特征序列的操作,然后反馈到卷积层。在实践中,我们创建了一个称为“映射-序列”的自定义网络层,作为卷积层和循环层之间的桥梁。

04

转录层

网络结构简图:

1f258ebc-e731-11ec-ba43-dac502259ad0.png

Transcription层是将lstm层的输出与label对应,采用的技术是CTC,可以执行端到端的训练,用来解决输入序列和输出序列难以一一对应的问题,不要求训练数据对齐和一一标注,直接输出不定长的序列结果。对于一段长度为T的序列来说,每个样本点t(t远大于T)在RNN网络的最后一层都会输出一个softmax向量,表示该样本点的预测概率,所有样本点的这些概率传输给CTC模型后,输出最可能的标签,再经过去除空格(blank)和去重操作,就可以得到最终的序列标签,CTC对齐输入输出是多对一的,例如he-l-lo-与hee-l-lo对应的都是“hello”。

基于词典的转录

基于字典的模式,其实是就是上面CTC的基础上,在获得结果时,又从字典查了一遍,来更加提高准确率,而没有字典的就只能取高概率的结果,少了从字典查这一步。

采用了由Graves等人提出的连接时序分类(Connectionist TemporalClassifification CTC) 层中定义的条件概率。该概率定义为:基于每帧的预测y=y1,y2......yT的标签序列 l,它忽略了 l 中每个标签的位置。因此,当我们以该概率的负对数作为训练网络的目标时,我们只需要图像及其对应的标签序列,避免了为个别字符标注位置的劳动。

条件概率的公式简述如下:输入是一个序列y=y1,y2......yT,其中T为序列长度。其中,每一个

1f564728-e731-11ec-ba43-dac502259ad0.png

是集合 L’ =LU 上的概率分布,而 L 包含任务中的所有标签(例如所有英文字符),以及表示为的“空白”标签。一个序列到序列的映射函数1f7bdd30-e731-11ec-ba43-dac502259ad0.png定义在如下序列上:

1f9d7d50-e731-11ec-ba43-dac502259ad0.png

其中,T是长度,1fc0fe24-e731-11ec-ba43-dac502259ad0.png是预测概率。   1f7bdd30-e731-11ec-ba43-dac502259ad0.png映射1fc0fe24-e731-11ec-ba43-dac502259ad0.png  到标签序列 I 上,通过先去除重复的标签,再去除空白的标签。例如: 1f7bdd30-e731-11ec-ba43-dac502259ad0.png  映射 “--hh-e-l-ll-oo--”到“hello”( “-”代表空格) 。之后,定义条件概率为所有预测概率 到标签序列 l 上的映射1f7bdd30-e731-11ec-ba43-dac502259ad0.png 的概率和:

2050e91c-e731-11ec-ba43-dac502259ad0.png

其中,1fc0fe24-e731-11ec-ba43-dac502259ad0.png 的概率定义为p(1fc0fe24-e731-11ec-ba43-dac502259ad0.png  |y)=

20b17656-e731-11ec-ba43-dac502259ad0.png

其中,20fd06b6-e731-11ec-ba43-dac502259ad0.png是标签 211e445c-e731-11ec-ba43-dac502259ad0.png在时间戳t的概率。

在基于词典的模式中,每个测试示例都与一个词典 D 相关联。主要的,序列标签通过选择词典中定义的拥有最高的条件概率来被选择,例如,l∗=

213a4bde-e731-11ec-ba43-dac502259ad0.png

然而,对于较大的词典,对词典进行穷举搜索,即对词典中的所有序列计算条件概率,并选择概率最大的一个,将非常耗时。为了解决这个问题,通过无词典转录预测的标签序列,在编辑距离度量下往往接近于ground-truth。这表明可以将搜索限制为最近邻的候选对象2172dc06-e731-11ec-ba43-dac502259ad0.png  ,其中 2187f992-e731-11ec-ba43-dac502259ad0.png 是最大编辑距离,I'是为y在无词序模式下转录的序列:

21a7a5da-e731-11ec-ba43-dac502259ad0.png

候选对象21d237c8-e731-11ec-ba43-dac502259ad0.png可以以bk树数据结构被有效找寻,bk树数据结是一种专门适用于离散度量空间的度量树。bk树的搜索时间复杂度为

21f2c786-e731-11ec-ba43-dac502259ad0.png

因此,这个方案很容易扩展到非常大的词典。在本方法中,离线地为词典构造一个bk树。然后,通过查找小于或等于编辑距离2187f992-e731-11ec-ba43-dac502259ad0.png的查询序列,用bk树执行快速在线搜索。

无词典的转录

以定义的条件概率最高的序列l∗作为预测,

2264e9ba-e731-11ec-ba43-dac502259ad0.png

即在每个时间戳 t上获取最可能的标签,并将结果序列映射到l∗。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106803
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42163
  • OCR
    OCR
    +关注

    关注

    0

    文章

    170

    浏览量

    17052

原文标题:OCR之CRNN论文解读

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    跃昉科技参与承办澳门RISC-V全球合作特别论

    2025年11月25日,澳门——继昨日在珠海隆重开幕后,“2025 RISC-V产业发展大会暨RDSA国际论坛”今日移师澳门,于巴黎人酒店举办“全球合作特别论坛”。作为大会联合承办单位及RISC-V
    的头像 发表于 11-30 09:40 271次阅读

    HarmonyOSAI编程智能代码解读

    CodeGenie > Explain Code,开始解读当前代码内容。 说明 最多支持解读20000字符以内的代码片段。 使用该功能需先完成CodeGenie登录授权。 本文主要从参考引用自HarmonyOS官方文档
    发表于 09-02 16:29

    【EASY EAI Orin Nano开发板试用体验】PP-OCRV5文字识别实例搭建与移植

    【EASY EAI Orin Nano开发板试用体验】PP-OCRV5文字识别实例搭建与移植 PP-OCRV5是PP-OCR新一代文字识别解决方案, 该方案聚焦于多场景、多
    发表于 08-18 16:57

    HarmonyOS AI辅助编程工具(CodeGenie)代码智能解读

    。 选中.ets文件或者.cpp文件中需要被解释的代码行或代码片段,右键选择CodeGenie > Explain Code,开始解读当前代码内容。 说明 最多支持解读20000字符以内
    发表于 07-17 17:02

    理想汽车八篇论文入选ICCV 2025

    近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有8篇论文入选,其中5篇来自自动驾驶团队,3篇来自基座模型团队。ICCV作为计算机视觉领域的顶级学术会议,每两年举办一次
    的头像 发表于 07-03 13:58 843次阅读

    端侧OCR文字识别实现 -- Core Vision Kit ##HarmonyOS SDK AI##

    ,使用场景中就包括了“通用文字识别”,即我们前文中所说的ocr功能。 其整体流程概括为: 首先通过各种方法得到一张图片,例如拍照、从相册中选择、甚至你也可以通过canvas画布生成的图片或者通过组件
    发表于 06-30 18:07

    基于STM32蓝牙控制小车系统设计(硬件+源代码+论文) 项目实例下载

    基于STM32蓝牙控制小车系统设计(硬件+源代码+论文) 项目实例下载! 纯分享帖,需要者可点击附件免费获取完整资料~~~【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 05-23 20:55

    基于STM32的武警哨位联动报警系统设计,支持以太网和WIFI通信(硬件、源码、论文等)

    基于STM32的武警哨位联动报警系统设计,支持以太网和WIFI通信(硬件、源码、论文等) 项目实例下载! 纯分享帖,需要者可点击附件免费获取完整资料~~~【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容
    发表于 05-23 20:51

    SPI协议,寄存器解读

    最近在学习SPI协议,对寄存器操作不是特别熟练。发帖希望有大佬能从寄存器角度提供帮助,帮忙指导根据手册去解读协议。有偿。
    发表于 05-22 20:08

    2025上海车展,电驱逆变砖的“百家争鸣” | 10大逆变砖技术方案汇总与解读

    -关于2025上海车展·10大逆变砖(InverterBrick)技术方案解读-文字原创,素材来源:2025上海车展,厂商官网-本篇为知识星球节选,完整版报告与解读在知识星球发布-1200+
    的头像 发表于 05-21 15:45 2667次阅读
    2025上海车展,电驱逆变砖的“百家争鸣” | 10大逆变砖技术方案汇总与<b class='flag-5'>解读</b>

    老板必修课:如何用NotebookLM 在上下班路上吃透一篇科技论文

    常必要的,这有助于我们理解技术边界,更好地定义产品并做出更精准的投资决策。 一,使用NotebookLM,随身解读科技论文 我经常使用的解读科技论文的工具是Notebook,只需要把科
    的头像 发表于 05-07 16:13 562次阅读
    老板必修课:如何用NotebookLM 在上下班路上吃透一篇科技<b class='flag-5'>论文</b>?

    labview语音转文字

    labview语音转文字怎么实现,目前在论坛上找到了文字转语音
    发表于 04-07 19:44

    美报告:中国芯片研究论文全球领先

    据新华社报道,美国乔治敦大学“新兴技术观察项目(ETO)”3日在其网站发布一份报告说,2018年至2023年间,在全球发表的芯片设计和制造相关论文中,中国研究人员的论文数量远超其他国家,中国在高被
    的头像 发表于 03-05 14:32 1720次阅读

    OpenVINO™工具套件使用CRNN_CS模型运行OpenCV* text_detection.cpp报错怎么解决?

    crnn_cs.onnx 文本识别模型转换为中间表示 (IR): python mo.py --input_model crnn_cs.onnx 使用生成的 IR 文件运行 OpenCV
    发表于 03-05 09:19

    MOSFET参数解读

    SGT-MOSFET各项参数解读
    发表于 12-30 14:15 1次下载