0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

首个基于深度学习的端到端在线手写数学公式识别模型

倩倩 来源:lq 作者:SandaG 2019-09-20 15:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文简要介绍 2018 年 5 月被 TMM 录用论文“ Track,Attend and Parse (TAP): An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作 。该论文是 2017 年发表在 ICDAR 上的文章 [1] 的升级版,主要解决了在线手写数学公式的识别问题。

该论文中介绍的方法获得了国际最大在线手写数学公式比赛 CROHME2019 的冠军,且是在未使用额外数据的情况下超过了有大量额外数据的国际企业参赛队伍,如 MyScript , Wiris , MathType 等,突出了该算法较传统数学公式识别算法的优势。

一、研究背景

手写数学公式识别较传统 OCR 问题而言,是一个更复杂的二维手写识别问题,其内部复杂的二维空间结构使得其很难被解析,传统方法的识别效果不佳。随着深度学习在各领域的成功应用,文章 [2] [3] 首次提出了基于深度学习的端到端离线数学公式算法,并在公开数据集上较传统方法获得了显著提升,开辟了全新的数学公式识别框架。然而在线手写数学公式识别框架还未被提出,论文 TAP 则是首个基于深度学习的端到端在线手写数学公式识别模型,且针对数学公式识别的任务特性提出了多种优化。

二、TAP原理简述

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整体结构。 TAP 遵循文章 [2] [3] 中的做法,将数学公式的树结构识别问题转换成了数学公式 LaTeX 字符串识别问题。这一思路的转换简化了数学公式识别问题,使端到端的识别成为了可能。 TAP 的基本框架为基于注意力机制的编解码模型,也称 Encoder-Decoder 模型 [4] ,其将输入的轨迹点序列通过 Encoder 编码得到高维特征表达,依靠 Attention 机制找出高维特征中的关键部分以用于解码出当前时刻的 LaTeX 字符,直至解码结束。

TAP 延续了会议文章 [1] 中的 Encoder 框架,在 Attention 机制上针对在线手写公式识别提出了 Spatial Attention, Temporal Attention, Attention Guider 用于改善 Attention 的对齐以及 Decoder 的解码能力。文章中还利用了在线与离线两个模态之间的互补性进一步提升了手写识别性能。

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 机制,除了常用的S patial Attention 外,还采用了T emporal Attention 机制。其中,S patial Attention 利用了A ttention 的历史信息以解决数学公式中多个同样数学字符出现时的对齐混淆问题。

而T emporal Attention 用于处理 LaTeX 中的结构字符的特殊对齐。因为在 LaTeX 的语法规则中,为了重现数学公式语言里的二维空间结构,需要额外有一些特殊的结构字符来形成语法,而这些特殊的结构字符在输入的数学公式中不存在,因而S patial Attention 无法完成对齐,此时则需要T emporal Attention 来补足这个不存在的对齐空缺,既能不干扰S patial Attention 的学习,又能提高D ecoder 的解码能力,进一步提升性能。

Fig.3. Illustration of the attention guider

此外, TAP 还采用了A ttention Guider 来强化S patial Attention 的学习,从 Fig 3 中可以看出,在使用了A ttention Guider 来引导S patial Attention 的学习后,S patial Attention 的对齐效果显著提升,十分精确,并且效果也反映到了最终的识别性能上。

三、主要实验结果及可视化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由 TABLE 1 、 TABLE 2 来看,文章所提方案在 CROHME2014 和 CROHME2016 公开数据集上取得了 state-of-the-art 的结果,且较传统方法有巨大的提升,验证了该方法的有效性,且 TAP 展示的结果相对于会议版本也有了进一步的提升,体现了H ybrid Attention 在纠正对齐和提升性能处起到了关键作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是对于T emporal Attention 的可视化,可见T emporal Attention 能够很正确的帮助 Spatial Attention 区分结构字符和实体字符。 Fig 5 是对 Hybrid Attention 整体在一个手写数学公式实例上的可视化。 Fig 6 列出了一个手写数学公式在线和离线模态互补性的实例,由于存在倒笔现象,单纯的在线模型无法正确识别该例子,而通过离线模型的融合辅助最终使得这个公式例子被正确识别(由于符号定义过多,更详细的内容请参考原文,链接附后)。

四、总结及讨论

1. TAP-ICDAR 版首次提出了基于深度学习的端到端在线手写数学公式识别模型,将树形结构识别问题巧妙转换成了 LaTe X 字符串识别问题,成功突破了传统方法在该问题上的性能瓶颈, 开辟了全新的在线数学公式识别框架。

2. TAP-TMM 相比 TAP-ICDAR 而言, 进一步提出了 Hybrid Attention ,不仅提高了 Attention 的对齐准确度,也针对性地处理了 LaTeX 中结构字符的对齐和生成,且效果最终都很好地反映在了最终的识别性能上。此外,通过融合离线模态的全局特性,进一步提升了在线手写数学公式的识别率。

3. TAP 中汇报出来的在 CROHME2014 及 CROHME2016 上的识别率,至今仍是最好的公开结果,相关算法也在 CROHME2019 竞赛上获得了第一名,并且在没有使用额外数据的情况便超越了其他使用大量额外数据的企业队伍 。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4760

    浏览量

    97144
  • 识别模型
    +关注

    关注

    0

    文章

    5

    浏览量

    6857
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123903
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    福州移动与华为联合推出国内首个智能化体验经营系统

    近日,福州移动与华为联合推出国内首个智能化体验经营系统,通过多智能管理系统协同,实现场景化体验套餐的可预估、可保障、可保护、可评估,分层分级保障用户在热门景区、大型演唱会和体育赛
    的头像 发表于 10-24 09:46 295次阅读

    自动驾驶中“一段式”和“二段式”有什么区别?

    [首发于智驾最前沿微信公众号]最近有小伙伴提问,一段式和二段式有什么区别。其实说到自
    的头像 发表于 10-24 09:03 627次阅读
    自动驾驶中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么区别?

    自动驾驶中常提的一段式(单段)是个啥?

    自动驾驶技术的发展,催生出技术的应用,一段式(end-to-end single-s
    的头像 发表于 10-18 10:16 1377次阅读

    自动驾驶模型为什么会有不确定性?

    。为了能让自动驾驶汽车做出正确、安全且符合逻辑的行驶动作,模型被提了出来。
    的头像 发表于 09-28 09:20 544次阅读
    自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>为什么会有不确定性?

    语音交互数据 精准赋能语音大模型进阶

    模型在多轮对话、噪声环境及语义理解方面表现不佳。 相较于传统数据集仅关注语音-文本的单点转写,语音交互数据集强调在真实多轮对话场景下的全维度信息保留。 其核心特征体现在三方面:其
    的头像 发表于 09-11 17:17 573次阅读

    发展趋势下,云算力如何赋能智能驾驶技术跃迁?

    [首发于智驾最前沿微信公众号]随着智能驾驶辅助系统的发展,汽车行业正在从传统模块化架构向(End-to-End,E2E)模型迈进。
    的头像 发表于 09-08 09:16 644次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>发展趋势下,云算力如何赋能智能驾驶技术跃迁?

    自主工具链助力组合辅助驾驶算法验证

    彻底解决越来越多的长尾问题。图1辅助驾驶算法(图片来源网络)辅助驾驶算法是一种深度学习算法,该算法将传感器数据输入后,基于大
    的头像 发表于 08-26 17:41 3349次阅读
    自主工具链助力<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>组合辅助驾驶算法验证

    蔚来模型化架构如何大幅提升安全上限

    2024年7月,蔚来将行业首个基于模型化架构的「自动紧急制动 AEB」推送上车,蔚来也成为了行业首家使用
    的头像 发表于 08-15 15:35 688次阅读

    广和通发布自研侧语音识别模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别模型FiboASR。该模型专为侧设备上面临的面对面实时对话及多人会议场景
    的头像 发表于 08-04 11:43 1372次阅读

    为什么自动驾驶模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶系统中的模块化结构,
    的头像 发表于 07-04 16:50 591次阅读
    为什么自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有黑盒特性?

    基于LockAI视觉识别模块:手写数字识别

    1.1 手写数字识别简介 手写数字识别是一种利用计算机视觉和机器学习技术自动识别
    发表于 06-30 16:45

    一文带你厘清自动驾驶架构差异

    [首发于智驾最前沿微信公众号]随着自动驾驶技术飞速发展,智能驾驶系统的设计思路也经历了从传统模块化架构模型转变。传统模块化架构将感
    的头像 发表于 05-08 09:07 786次阅读
    一文带你厘清自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架构差异

    自动驾驶中基于规则的决策和模型有何区别?

    在自动驾驶架构的选择上,也经历了从感知、决策控制、执行的三段式架构到现在火热的模型,尤其是在2024年特斯拉推出FSD V12后,各车企更是陆续推出自家的
    的头像 发表于 04-13 09:38 3427次阅读
    自动驾驶中基于规则的决策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何区别?

    灵初智能发布具身模型Psi R0,实现复杂操作与泛化能力

    近日,灵初智能在人工智能领域取得了重大突破,成功发布了首个基于强化学习(RL)的具身模型
    的头像 发表于 12-31 15:31 922次阅读

    阶跃星辰发布国内首个千亿参数语音大模型

    近日,阶跃星辰在官方公众号上宣布了一项重大突破——推出Step-1o千亿参数语音大模型。该模型被誉为“国内
    的头像 发表于 12-17 13:43 1059次阅读