基于人工智能技术的OCR应用-电子发烧友网

光学字符识别（Optical Charac ter Recognition，OCR）是将图像中的文字信息转化为可供计算机处理的字符信息的技术，发挥着计算机“眼睛”的功能，是机器与现实世界进行视觉交互的重要技术基础。

早期的OCR技术可追溯到1870年，电报技术和为盲人设计的阅读设备的出现标志着OCR的诞生。近年来，随着人工智能技术在OCR中的实际应用，OCR的性能和效率都得到了很大的提升。

如今，基于人工智能的OCR已经广泛应用于金融、交通、政务、司法、医疗等多个领域，进入到人们生产生活的方方面面。

档案OCR是利用OCR技术对纸质档案数字化副本等图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程。

利用人工智能技术开展档案OCR工作，对于提高工作效率和准确性，加快自动著录、全文检索、数据分析等系统功能更好实现，推动档案信息资源建设从数字化向数据化转型具有重要意义。

档案OCR工作现状

2013年以来，在国家档案局大力实施“存量数字化、增量电子化”的战略背景下，纸质档案数字化副本大量产生。全国各级档案馆（室）存量档案数字化工作成效显著，数字化比例大幅提高，很多档案部门已完成全部馆藏档案的数字化工作。

截至2019年年底，全国各级综合档案馆馆藏档案数字化副本容量已达1407.8万GB（吉字节）。当前，档案OCR工作已全面启动，相关标准规范已适时出台。部分地区档案部门在完成纸质档案数字化工作的基础上，纷纷开展了档案OCR工作。

也有一些档案部门在开展档案数字化工作的同时，同步开展了档案OCR工作。为规范相关工作的开展，国家档案局因势利导，于2019年12月发布《纸质档案数字复制件光学字符识别（OCR）工作规范》，规定了纸质档案数字复制件OCR工作的组织、实施和管理要求，确定了开展档案OCR工作的总体原则、工作流程、质量规定等。基于此，档案部门相关工作取得了大量成果，未来档案OCR将融入更广泛、更深层次的档案工作中。

传统OCR的不足

在人工智能技术广泛应用之前，文字的自动化识别是一项十分艰巨、亟需解决的问题。传统OCR识别是以文字基本外形为基础，对文字字符之间的差别进行统计分析，再找到一组最优的、可以代表文字之间差异的统计学参数，从而实现对文字的筛选和识别。

传统OCR工作流程包括图像导入、图像预处理、版面分析、文字切割、文字识别等过程。多年来，人们对传统OCR工作流程进行过大量优化研究，但是受限于流程的复杂性和人工设计特征的表达能力等，传统的文字检测与识别方法对于较为复杂的图像，例如带有畸变以及模糊的图像，最终的文字识别结果往往不尽如人意。

传统OCR对中文字符识别的不足，主要表现在以下4个方面。

一是传统OCR处理流程的工序太多，且多串行，导致错误不断被传递放大。如，在OCR处理流程中，假如每一步都是90%的正确率，看似很高，但是经过5步的错误叠加之后，结果就已经不合格了。

二是传统OCR处理流程涉及较多人工设计，并不一定能够抓住问题的本质。例如，在文字的二值化这一预处理过程中，二值化的阈值在一些情况下很难调整好。由于这个模型的复杂度较低且无法充分拟合全部数据，在实际处理过程中不得不过滤掉很多有用的信息。

三是在一些背景稍微复杂或者存在变体文字的情况下，传统OCR基本会失效，处理模型的适应性较弱。版面分析以及行切分的方式只能处理相对简单的场景，一旦面临复杂排版等情况，就很难实现准确处理。

四是对单字的识别，传统OCR无法考虑到上下文的语义关联。为了解决这个问题，传统OCR进行了很多组合，如，对识别的结果进行动态路径搜索。在路径寻优过程中，经常需要结合文字的外观特征以及语言模型进行处理，存在较多的耦合，导致在识别系统中堆砌了较多的算法。

即便如此，传统OCR也存在很多无法处理的问题，如，手写字体等存在较多的笔画粘连，传统OCR很难进行切分。以上这些不足，造成传统OCR的识别率相对较低，识别时间相对较长。

基于人工智能技术的OCR

近年来，随着计算机视觉、自然语言理解、知识图谱等人工智能技术在OCR中的实际使用，OCR的性能和效率都得到了很大提升。通过深度学习的自适应学习驱动方式，能够更好地应对传统OCR产生的一些问题，简化参数预处理的流程，实现端到端的处理，提高OCR识别率。

目前，基于人工智能技术的OCR在简体印刷文字方面的识别率已达98%以上。人工智能OCR技术还能应用于具有多样性和复杂性的识别场景。如，不同大小、字体、颜色、亮度、对比度的文字，排列和对齐方式不相同的文字，图像的非文字区域与文字区域存在相似的纹理，低对比度、模糊断裂、残缺文字等。因此，人工智能OCR不仅能应用于文档的识别，还可应用于自然场景文字图像的识别。

此外，人工智能OCR还能提高工作效率、节省大量成本。基于此，将人工智能OCR应用在档案工作中，具有重要的作用和意义，必将成为支撑档案行业数字转型、智能升级、融合创新的重要基础。人工智能OCR工作流程主要包括图像输入、文本检测、文本识别、人工确认、人工干预等。首先，将需要识别的纸质档案数字化副本图像单个或批量导入OCR系统中。

其次，进行文本检测。文本检测主要是定位文字在数字图像中的位置，并进行位置标注。文本检测的方法主要有基于候选框的文本检测、基于语义分割的文本检测，以及基于两种方法的混合方法等。基于候选框的文本检测是先预生成若干候选框，之后再回归坐标和分类，最后经过NMS（非极大抑制）算法得到最终的检测结果；基于语义分割的文本检测是通过FPN（特征金字塔网络）直接进行像素级别的语义分割，并处理得到相关的坐标。再次，进行文本识别。

文本识别主要是针对定位好的文字区域，识别文本的具体内容，并将图像中的一串文字转换为对应的字符。文本识别的算法可分为基于CTC（连接时序分类）技术的方法和基于注意力机制的网络模型两大类。其中，基于CTC技术的方法可以有效地捕获输入序列的下文依赖关系，同时能够很好地解决图像和文本字符对不齐的问题，但在自由度较大的手写场景下会出现识别错误。

基于注意力机制的网络模型主要应用于卷积神经网络特征权重的分配上，并提高强特征的权重、降低弱特征的权重，在由图像到文字的解码过程中有天然的语义捕获能力。然后，进行人工确认。对OCR识别后的结果进行确认，判断是否出错。

在人工确认过程中，可以采用后期批量处理等灵活性较强的方式。最后，进行人工干预，修正OCR识别结果中可能存在的错误。人工智能OCR可采用独立式或嵌入式等方式应用在档案数字化系统中。独立式是作为独立软件使用，或者通过应用程序接口（API）进行数据交互，不依赖于档案数字化系统。

嵌入式是将OCR模块嵌入档案数字化系统，作为其功能的一部分，需要在设计开发档案管理系统时进行统一规划，或对已有的系统进行改造。目前，人工智能OCR已被引入多个行业领域，但在档案行业应用中仍存在难点和不足，主要体现在两个方面。

一是档案文字存在多样性。档案类型多种多样，文字内容包罗万象，存在不同语言、字体、大小、颜色、亮度、排列和对齐方式，以及图像内容对比度低、模糊断裂、残缺等问题，甚至存在出现识别难度更大的不同时期手写体、繁简体等各种情况。这些问题或情况给档案OCR工作带来了各种挑战，人工智能OCR也无法解决所有的问题，这就需要工作人员结合实际情况，寻找基于特定技术条件的最优工作解决方案。

二是技术瓶颈。近年来，虽然人工智能OCR使机器识别文字的性能和效率得到了显著提升，但是，机器识别文字的能力和水平与工作人员理解图像中文字的能力和水平相比，依然存在较大差距。总体来看，仍需继续不断提升OCR的鲁棒性、效率性和智能化水平，才能更好地将其应用在难度更大、情况更复杂的档案工作中。
编辑：lyn

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43764

浏览量
230551
计算机视觉

计算机视觉

+关注

关注
8

文章
1591

浏览量
45601
OCR

OCR

+关注

关注
0

文章
137

浏览量
16122

原文标题：图像识别技术在档案OCR工作中的应用

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

5G智能物联网课程之Aidlux下人工智能开发

://t.elecfans.com/v/25653.html 人工智能 5G AIoT技术实践入门与探索（1） 15分34秒 https://t.elecfans.com/v/27207.html

发表于 04-01 10:40

智能运维技术的发展和设计资料

智能运维技术，就是利用当下的虚拟现实技术（VirtualReality、VR）增强现实技术（AugmentedReality，AR）、人工智能技术

发表于 09-21 07:18

《通用人工智能：初心与未来》-试读报告

作者给出的结论。整体读下来，可以给我们关于通用人工智能全面的了解。作者也反复强调了通用人工智能与专用智能的区别。尤其是人们错误的认为一堆专用智能堆砌起来就是通用

发表于 09-18 10:02

如何将人工智能应用到效能评估系统软件中去解决

，我们可以将其应用到效能评估系统中，进一步提高效能评估的准确性和实用性。　　华盛恒辉可以利用人工智能技术，通过对大量数据的分析，来识别和评估各个业务环节的表现，从而对效能进行评估和监测。此外，我们还可

发表于 08-30 12:58

人工智能技术应用好不好

人工智能技术应用好不好近年来，在人类社会的各个领域，人工智能技术正越来越广泛地应用。这种技术旨在让机器具备类似人类的思维能力，使它们能够像人一样完成复杂的任务，甚至在某些方面比人要更强大。但是

发表于 08-17 12:37 •315次阅读

人工智能技术应用是干什么的

人工智能技术应用是干什么的 人工智能技术应用是指将人工智能算法与计算机技术相结合，构建出具有智能的应用程序或者系统，以实现各种

发表于 08-17 11:46 •2594次阅读

人工智能技术应用学什么

人工智能技术应用学什么随着科技的不断发展，人工智能技术（Artificial Intelligence，AI）已经成为了人们关注的焦点。AI是一种模拟人类智能的技术，可以自主地学习、

发表于 08-17 11:46 •849次阅读

人工智能技术应用是干什么的

人工智能技术应用是干什么的随着科技的发展，人工智能技术应用已经逐渐渗透到我们的生活中，大大方便了人们的生活和工作。从互联网搜索引擎到自动化机器人，从智能家居到自动驾驶汽车，人工智能技术

发表于 08-17 11:46 •868次阅读

人工智能技术及应用学什么

人工智能技术及应用学什么随着科技的发展和人类对智能的需求不断增长，人工智能（AI）成为热门话题。人工智能是一种通过计算机程序模拟人类智能的

发表于 08-15 16:07 •1017次阅读

人工智能技术应用是干嘛的

人工智能技术应用是干嘛的 人工智能（Artificial Intelligence，简称 AI）是指计算机技术和算法在模拟、延伸和扩展智能方面的应用。随着科技的不断发展和进步，

发表于 08-15 16:04 •1332次阅读

什么叫人工智能技术

人工智能技术的核心就在于“智能”，因此它的定义也因时代和不同的应用场景而不同。在一些传统的计算机任务中，人工智能被称为人工神经网络或机器学习。随着时间的推移，这种

发表于 08-13 16:52 •2310次阅读

什么是人工智能技术

什么是人工智能技术 人工智能技术指的是一系列基于人工智能原理与方法的技术。人工智能技术通过巨大的数据挖掘和分析，让计算机实现像人类一样的

发表于 08-12 16:58 •1682次阅读

人工智能技术是什么

人工智能技术是什么 人工智能技术是一种模拟人类智能的技术，其中包含了许多不同的领域和应用，如机器学习、自然语言处理、计算机视觉、智能代理、知

发表于 08-12 16:48 •2280次阅读

人工智能技术有哪些

人工智能技术有哪些 人工智能技术的发展已经成为当今世界最重要的新兴技术之一，其在医疗保健、教育、交通、能源、金融和军事等各个领域的广泛应用，极大地改善了人们的生活质量。在这篇文章中，我将介绍人

发表于 08-12 16:37 •1222次阅读

【书籍评测活动NO.16】通用人工智能：初心与未来

已经变得越来越复杂而强大，但计算机科学还远未创造出通用人工智能（General AI）。作者结合人类自然智能的认知机理以及人工智能发展的初心与使命，带我们从不同方面细致分析了当前人工智能技术

发表于 06-21 14:41

搜索历史

基于人工智能技术的OCR应用

评论

5G智能物联网课程之Aidlux下人工智能开发

智能运维技术的发展和设计资料

《通用人工智能：初心与未来》-试读报告

如何将人工智能应用到效能评估系统软件中去解决

人工智能技术应用好不好

人工智能技术应用是干什么的

人工智能技术应用学什么

人工智能技术应用是干什么的

人工智能技术及应用学什么

人工智能技术应用是干嘛的

什么叫人工智能技术

什么是人工智能技术

人工智能技术是什么

人工智能技术有哪些

【书籍评测活动NO.16】通用人工智能：初心与未来