0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开源OCR 过程介绍

人工智能与大数据技术 来源:人工智能与大数据技术 作者:人工智能与大数据 2020-10-30 10:54 次阅读

不久前,百度技术团队在不久前,百度技术团队在 GitHub 上正式开源了一款 OCR 神器,在发布后不久便多次冲上 GitHub Trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。

众所周知,OCR(Optical Character Recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都上正式开源了一款 OCR 神器,在发布后不久便多次冲上 GitHub Trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。

众所周知,OCR(Optical Character Recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子化信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都少不了 OCR 的身影。

在平时工作的时候,我也经常会使用一些 OCR 软件来扫描图片并提取文字,而要替代人工完成一系列的文本分析,图像识别操作,则必将使用到 AI 技术。

百度在 GitHub 上开源的 PaddleOCR 模型,大小仅有 8.6M,是目前圈内为数不多,能支持中英文图像、横竖排排版识别的 AI 深度学习模型之一。

先看下 PaddleOCR 自今年年中开源以来,短短几个月在 GitHub 上的表现:

7 月,8.6M 超轻量模型发布,GitHub Trending 全球日榜榜单第一!

8 月,开源 CVPR2020 顶会 SOTA 算法,再上 GitHub 趋势榜单!

9 月,GitHub Star 数量已超过 4.6K, 近期又带来哪些重磅更新?

果然,看 9 月最新更新,PaddleOCR 再次诚意满满为大家带来真干货,直接看官方介绍:

01. 官方介绍

数量上,这次 PaddleOCR 一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中 3.5M 超轻量文字识别模型,堪称目前业界开源的最轻量 OCR 模型了。质量上,如此轻量的模型,效果有保障吗?不看广告,直接看疗效。 先看几个常见的通用场景识别效果:

3.5M 的模型能达到这个识别精度,绝对是良心之作了!传送门 Github:https://github.com/PaddlePaddle/PaddleOCR论文下载链接:https://arxiv.org/abs/2009.09941

02. 快速体验

PaddleOCR 的 3.5M 超轻量 OCR 模型1).PC 端快速尝试:(打开网页,选一张图片,即可实时看到结果) https://www.paddlepaddle.org.cn/hub/scene/ocr

2). 手机端 App 安装体验PaddleOCR 在百度大脑 EasyEdge 上开放了文字识别 APP demo。 示例效果如下(可以在 github 首页找到下载二维码)

多个开源 repo 测试对比

简单对比一下目前主流 OCR 方向开源 repo 的核心能力:

3). 从性能指标来看:

针对 OCR 实际应用场景,包括合同,车牌,铭牌,火车票,化验单,表格,证书,街景文字,名片,数码显示屏等,收集的 300 张图像,每张图平均有 17 个文本框,PaddleOCR 的 F1-Score 超过 0.5,这个性能已经很不错了。

4). 从功能完备来看:

预训练模型大小:easyOCR 目前暂无超轻量模型,chineseocr_lite 最新的模型是 4.7M 左右,而 PaddleOCR 提供的 3.5M 无疑是目前业界已知最轻量的。

PIP 安装:目前仅 PaddleOCR 和 easyOCR 支持。

自定义训练:实际业务场景中,预训练模型往往不能满足需求,对于自定义训练和模型 Finetuning,目前只有 PaddleOCR 支持。

部署方面:easyOCR 模型较大不适合端侧部署,Chineseocr_lite 和 PaddleOCR 都具备端侧部署能力。

开发者可以根据自己的实际需求,选择适合自己的开源方案。 对于 PaddleOCR3.5MB 的超轻量模型,是如何做到的,repo 中也给出了解释。

3.5M 超轻量模型应用了一套超轻量 OCR 系统 PP-OCR,主要由 DB 文本检测、检测框矫正和 CRNN 文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化 8 个方面,采用 19 个有效策略,对各个模块的模型进行效果调优和瘦身。 其中,飞桨模型压缩库 PaddleSlim 为 PaddleOCR 超轻量化模型的实现提供了核心的技术支撑。从超轻量模型 8.1M 的压缩到 3.5M,模型大小降低了 56.79%,其中检测模型速度提升 21%,而且整体模型精度还有提升。

除了 3.5M 超轻量 OCR 模型,PaddleOCR 提供了多语言预训练模型(英、德、法、韩、日),支持自定义训练和丰富的部署方式。

责任编辑:PSY

原文标题:Github标星4.6K+!这个OCR开源项目,火了!

文章出处:【微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    2991

    浏览量

    41723
  • OCR
    OCR
    +关注

    关注

    0

    文章

    137

    浏览量

    16130
  • GitHub
    +关注

    关注

    3

    文章

    457

    浏览量

    15929

原文标题:Github标星4.6K+!这个OCR开源项目,火了!

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源

    : 无论是中英文的大段文字: 还是包含了公式的文档图片: 又或是手机页面截图: 甚至可以将图片中的表格转换成 Latex 格式: 当然,作为多模大模型,通用能力的保持也是必须的: Vary 表现出了很大的潜力和极高的上限,OCR 可以不再需要冗长的 pipline,直接
    的头像 发表于 12-24 21:40 1391次阅读
    <b class='flag-5'>OCR</b>终结了?旷视提出可以文档级<b class='flag-5'>OCR</b>的多模态大模型框架Vary,支持中英文,已<b class='flag-5'>开源</b>!

    ​【AWTK开源智能串口屏方案】方案介绍和工作原理

    本篇文章介绍一下AWTK开源智能串口屏方案的基本原理和实际使用效果,包括主要特点、应用场景、工作原理以及简单的Demo演示。引言:AWTK-HMI是基于AWTK与AWTK-MVVM开发的低代码智能
    的头像 发表于 12-21 08:24 405次阅读
    ​【AWTK<b class='flag-5'>开源</b>智能串口屏方案】方案<b class='flag-5'>介绍</b>和工作原理

    基于OpenVINO+OpenCV的OCR处理流程化实现

    预处理主要是基于OpenCV、场景文字检测与识别基于OpenVINO框架 + PaddleOCR模型完成。直接按图索骥即可得到最终结果。 OpenCV预处理主要是完成偏斜矫正、背景矫正等操作,然后使用场景文字检测模型+OCR识别模型完成中英文识别。
    的头像 发表于 11-07 11:21 384次阅读
    基于OpenVINO+OpenCV的<b class='flag-5'>OCR</b>处理流程化实现

    OCR如何自动识别图片文字

    OCR 是光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。 很早之前就有同学在公众号后台
    的头像 发表于 10-31 16:45 436次阅读
    <b class='flag-5'>OCR</b>如何自动识别图片文字

    easyocr:超级简单且强大的OCR文本识别工具

    今天给大家介绍一个超级简单且强大的OCR文本识别工具: easyocr . 这个模块支持70多种语言的即用型OCR,包括中文,日文,韩文和泰文等。 下面是这个模块的实战教程。 1.准备 开始之前
    的头像 发表于 10-30 09:30 1479次阅读
    easyocr:超级简单且强大的<b class='flag-5'>OCR</b>文本识别工具

    关于两个Python开源识别工具的效果

    OCR 是光学字符识别(英语:Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。 很早之前就有同学在公众号后台
    的头像 发表于 10-17 11:36 272次阅读
    关于两个Python<b class='flag-5'>开源</b>识别工具的效果

    【KV260视觉入门套件试用体验】Vitis AI Library体验之OCR识别

    OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状
    发表于 10-16 23:25

    【KV260视觉入门套件试用体验】七、VITis AI字符和文本检测(OCR&amp;Textmountain)

    ?filename=xilinx-kv260-dpu-v2022.2-v3.0.0.img.gz 镜像下载地址 1.2、SD卡系统烧录 balenaEtcher软件 二、字符和文本检测介绍 字符和文本检测是计算机
    发表于 09-26 16:31

    使用FPGA做的开源示波器

    其实用FPGA做的示波器有很多,开源的相对较少,我们今天就简单介绍一个使用FPGA做的开源示波器。
    的头像 发表于 08-29 09:30 1002次阅读

    介绍一个使用FPGA做的开源示波器

    其实用FPGA做的示波器有很多,开源的相对较少,我们今天就简单介绍一个使用FPGA做的开源示波器:
    发表于 08-14 09:03 948次阅读

    AI大模型的开源算法介绍

    AI大模型的开源算法介绍 什么是开源?简单来说就是不收取任何费用,免费提供给用户的软件或应用程序。开源是主要用于软件的术语,除了免费用户还可以对开源
    的头像 发表于 08-08 17:25 1387次阅读

    常见的开源协议盘点介绍

    世界上的开源许可证(Open Source License)大概有上百种,今天我们来介绍下几种我们常见的开源协议。大致有GNU、BSD、MIT、Mozilla、Apache和LGPL等。
    发表于 07-13 12:53 587次阅读
    常见的<b class='flag-5'>开源</b>协议盘点<b class='flag-5'>介绍</b>

    大模型时代的OCR,“CPU” 的味道更重了

    文件、身份证、路标等识别,可以说统统都离不开它。 而随着近几年大模型的不断发展,OCR也迎来了它的 “新生机” —— 凭借自身可以将文本从图片、扫描文档或其他图像形式提取出来的看家本领,成为大语言模型的一个 重要入口 。 在这个过程中,一个关键问题便是 “
    的头像 发表于 07-08 14:25 307次阅读
    大模型时代的<b class='flag-5'>OCR</b>,“CPU” 的味道更重了

    PDF执行OCR使用指南(仅适用于万兴PDF专业版)

    然后单击“更改选择”按钮,从OCR语言列表中选择匹配PDF内容的正确语言(万兴PDF支持超过20种OCR语言)。您也可以点击“自定义页面”来选择单个页面或几个页面执行OCR
    的头像 发表于 06-06 15:54 1401次阅读
    PDF执行<b class='flag-5'>OCR</b>使用指南(仅适用于万兴PDF专业版)

    GaussDB存储过程介绍

    华为云数据库 GaussDB 是一款高性能、高安全性的云原生数据库,在数据库领域处于领先地位。而在 GaussDB 中,存储过程是一个不容忽视的重要功能。本文将深入介绍 GaussDB 存储过程的使用场景、使用优缺点、示例及示例
    的头像 发表于 06-05 16:30 446次阅读
    GaussDB存储<b class='flag-5'>过程</b><b class='flag-5'>介绍</b>