首个基于深度学习的端到端在线手写数学公式识别模型-电子发烧友网

本文简要介绍 2018 年 5 月被 TMM 录用论文“ Track，Attend and Parse （TAP）： An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作。该论文是 2017 年发表在 ICDAR 上的文章［1］的升级版，主要解决了在线手写数学公式的识别问题。

该论文中介绍的方法获得了国际最大在线手写数学公式比赛 CROHME2019 的冠军，且是在未使用额外数据的情况下超过了有大量额外数据的国际企业参赛队伍，如 MyScript ， Wiris ， MathType 等，突出了该算法较传统数学公式识别算法的优势。

一、研究背景

手写数学公式识别较传统 OCR 问题而言，是一个更复杂的二维手写识别问题，其内部复杂的二维空间结构使得其很难被解析，传统方法的识别效果不佳。随着深度学习在各领域的成功应用，文章［2］［3］首次提出了基于深度学习的端到端离线数学公式算法，并在公开数据集上较传统方法获得了显著提升，开辟了全新的数学公式识别框架。然而在线手写数学公式识别框架还未被提出，论文 TAP 则是首个基于深度学习的端到端在线手写数学公式识别模型，且针对数学公式识别的任务特性提出了多种优化。

二、TAP原理简述

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整体结构。 TAP 遵循文章［2］［3］中的做法，将数学公式的树结构识别问题转换成了数学公式 LaTeX 字符串识别问题。这一思路的转换简化了数学公式识别问题，使端到端的识别成为了可能。 TAP 的基本框架为基于注意力机制的编解码模型，也称 Encoder-Decoder 模型［4］，其将输入的轨迹点序列通过 Encoder 编码得到高维特征表达，依靠 Attention 机制找出高维特征中的关键部分以用于解码出当前时刻的 LaTeX 字符，直至解码结束。

TAP 延续了会议文章［1］中的 Encoder 框架，在 Attention 机制上针对在线手写公式识别提出了 Spatial Attention， Temporal Attention， Attention Guider 用于改善 Attention 的对齐以及 Decoder 的解码能力。文章中还利用了在线与离线两个模态之间的互补性进一步提升了手写识别性能。

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 机制，除了常用的S patial Attention 外，还采用了T emporal Attention 机制。其中，S patial Attention 利用了A ttention 的历史信息以解决数学公式中多个同样数学字符出现时的对齐混淆问题。

而T emporal Attention 用于处理 LaTeX 中的结构字符的特殊对齐。因为在 LaTeX 的语法规则中，为了重现数学公式语言里的二维空间结构，需要额外有一些特殊的结构字符来形成语法，而这些特殊的结构字符在输入的数学公式中不存在，因而S patial Attention 无法完成对齐，此时则需要T emporal Attention 来补足这个不存在的对齐空缺，既能不干扰S patial Attention 的学习，又能提高D ecoder 的解码能力，进一步提升性能。

Fig.3. Illustration of the attention guider

此外， TAP 还采用了A ttention Guider 来强化S patial Attention 的学习，从 Fig 3 中可以看出，在使用了A ttention Guider 来引导S patial Attention 的学习后，S patial Attention 的对齐效果显著提升，十分精确，并且效果也反映到了最终的识别性能上。

三、主要实验结果及可视化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由 TABLE 1 、 TABLE 2 来看，文章所提方案在 CROHME2014 和 CROHME2016 公开数据集上取得了 state-of-the-art 的结果，且较传统方法有巨大的提升，验证了该方法的有效性，且 TAP 展示的结果相对于会议版本也有了进一步的提升，体现了H ybrid Attention 在纠正对齐和提升性能处起到了关键作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是对于T emporal Attention 的可视化，可见T emporal Attention 能够很正确的帮助 Spatial Attention 区分结构字符和实体字符。 Fig 5 是对 Hybrid Attention 整体在一个手写数学公式实例上的可视化。 Fig 6 列出了一个手写数学公式在线和离线模态互补性的实例，由于存在倒笔现象，单纯的在线模型无法正确识别该例子，而通过离线模型的融合辅助最终使得这个公式例子被正确识别（由于符号定义过多，更详细的内容请参考原文，链接附后）。

四、总结及讨论

1. TAP-ICDAR 版首次提出了基于深度学习的端到端在线手写数学公式识别模型，将树形结构识别问题巧妙转换成了 LaTe X 字符串识别问题，成功突破了传统方法在该问题上的性能瓶颈，开辟了全新的在线数学公式识别框架。

2. TAP-TMM 相比 TAP-ICDAR 而言，进一步提出了 Hybrid Attention ，不仅提高了 Attention 的对齐准确度，也针对性地处理了 LaTeX 中结构字符的对齐和生成，且效果最终都很好地反映在了最终的识别性能上。此外，通过融合离线模态的全局特性，进一步提升了在线手写数学公式的识别率。

3. TAP 中汇报出来的在 CROHME2014 及 CROHME2016 上的识别率，至今仍是最好的公开结果，相关算法也在 CROHME2019 竞赛上获得了第一名，并且在没有使用额外数据的情况便超越了其他使用大量额外数据的企业队伍。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4460

浏览量
90842
识别模型

识别模型

+关注

关注
0

文章
5

浏览量
6688
深度学习

深度学习

+关注

关注
73

文章
5241

浏览量
119963

在全志V853平台上成功部署深度学习步态识别算法

伪装等优点。本文所设计的步态识别系统，搭建在全志V853开发板上，充分利用板载外设、CPU与NPU，实现了嵌入式系统上的实时步态识别系统。具体来说，系统所采用的深度学习算法在PC

发表于 03-04 10:15

深度学习如何训练出好的模型

算法工程、数据派THU深度学习在近年来得到了广泛的应用，从图像识别、语音识别到自然语言处理等领域都有了卓越的表现。但是，要训练出一个高效准确的深度

发表于 12-07 12:38 •670次阅读

基于深度学习的情感语音识别模型优化策略

基于深度学习的情感语音识别模型的优化策略，包括数据预处理、模型结构优化、损失函数改进、训练策略调整以及集成

发表于 11-09 16:34 •273次阅读

科大讯飞ICDAR 2023收获四项冠军，图文识别理解能力持续进阶

！ MLHME之冠：首个“多行书写”挑战赛，复杂度再突破 MLHME（多行公式识别比赛）考查输入包含手写数学公式的图像后

发表于 11-03 14:09 •382次阅读

深度学习在语音识别中的应用及挑战

一、引言随着深度学习技术的快速发展，其在语音识别领域的应用也日益广泛。深度学习技术可以有效地提高语音识

发表于 10-10 18:14 •510次阅读

深度学习在医学图像分割与病变识别中的应用实战

帮助解释模型的决策过程。总结起来，基于深度学习的医学图像分割与病变识别是医疗领域中的重要应用之一。通过适当的数据准备、模型设计和性能评估，

发表于 09-04 11:11

深度学习的定义和特点深度学习典型模型介绍

深度学习（Deep Learning）是一种基于人工神经网络的机器学习算法，其主要特点是模型由多个隐层组成，可以自动地学习特征，并进行预测或

发表于 08-21 18:22 •1303次阅读

深度学习框架和深度学习算法教程

了基于神经网络的机器学习方法。深度学习算法可以分为两大类：监督学习和无监督学习。监督学习的基本

发表于 08-17 16:11 •733次阅读

深度学习框架tensorflow介绍

。TensorFlow可以用于各种不同的任务，包括图像和语音识别、自然语言处理和推荐系统等。 TensorFlow提供了一个灵活和强大的平台，可以用于构建和训练各种深度学习模型。Ten

发表于 08-17 16:11 •1574次阅读

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑

发表于 08-17 16:03 •1507次阅读

深度学习视角下的猫狗图像识别实现

包括数据集的准备、模型构建和训练过程，并探讨了该技术在实际应用中的潜在价值。随着深度学习技术的不断发展，图像识别已经成为其中的一个重要应用领域。猫狗图像

发表于 08-15 10:38 •1996次阅读

高斯如何得到他理论的结果?聊聊高斯概率分布的数学公式

这个模拟世界中的各种物理过程都表现出一定程度的随机性，例如，请想想噪声。高斯概率分布(Gaussian probability distributions)描述了许多噪声过程，我们应该看看它的数学公式。

发表于 07-17 10:21 •630次阅读

深入浅出的学习傅里叶变换

学习傅里叶变换需要面对大量的数学公式，数学功底较差的同学听到傅里叶变换就头疼

发表于 07-07 14:15 •446次阅读

傅里叶变换如何用于深度学习领域

机器学习和深度学习中的模型都是遵循数学函数的方式创建的。从数据分析到预测建模，一般情况下都会有数学

发表于 06-14 10:01 •795次阅读

如何在Arduino UNO上实现数学公式

电子发烧友网站提供《如何在Arduino UNO上实现数学公式.zip》资料免费下载

发表于 06-13 09:42 •0次下载