0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开源OCR 过程介绍

人工智能与大数据技术 来源:人工智能与大数据技术 作者:人工智能与大数据 2020-10-30 10:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

不久前,百度技术团队在不久前,百度技术团队在 GitHub 上正式开源了一款 OCR 神器,在发布后不久便多次冲上 GitHub Trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。

众所周知,OCR(Optical Character Recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子化信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都上正式开源了一款 OCR 神器,在发布后不久便多次冲上 GitHub Trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。

众所周知,OCR(Optical Character Recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子化信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都少不了 OCR 的身影。

在平时工作的时候,我也经常会使用一些 OCR 软件来扫描图片并提取文字,而要替代人工完成一系列的文本分析,图像识别操作,则必将使用到 AI 技术。

百度在 GitHub 上开源的 PaddleOCR 模型,大小仅有 8.6M,是目前圈内为数不多,能支持中英文图像、横竖排排版识别的 AI 深度学习模型之一。

先看下 PaddleOCR 自今年年中开源以来,短短几个月在 GitHub 上的表现:

7 月,8.6M 超轻量模型发布,GitHub Trending 全球日榜榜单第一!

8 月,开源 CVPR2020 顶会 SOTA 算法,再上 GitHub 趋势榜单!

9 月,GitHub Star 数量已超过 4.6K, 近期又带来哪些重磅更新?

果然,看 9 月最新更新,PaddleOCR 再次诚意满满为大家带来真干货,直接看官方介绍:

01. 官方介绍

数量上,这次 PaddleOCR 一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中 3.5M 超轻量文字识别模型,堪称目前业界开源的最轻量 OCR 模型了。质量上,如此轻量的模型,效果有保障吗?不看广告,直接看疗效。 先看几个常见的通用场景识别效果:

3.5M 的模型能达到这个识别精度,绝对是良心之作了!传送门 Github:https://github.com/PaddlePaddle/PaddleOCR论文下载链接:https://arxiv.org/abs/2009.09941

02. 快速体验

PaddleOCR 的 3.5M 超轻量 OCR 模型1).PC 端快速尝试:(打开网页,选一张图片,即可实时看到结果) https://www.paddlepaddle.org.cn/hub/scene/ocr

2). 手机端 App 安装体验PaddleOCR 在百度大脑 EasyEdge 上开放了文字识别 APP demo。 示例效果如下(可以在 github 首页找到下载二维码)

多个开源 repo 测试对比

简单对比一下目前主流 OCR 方向开源 repo 的核心能力:

3). 从性能指标来看:

针对 OCR 实际应用场景,包括合同,车牌,铭牌,火车票,化验单,表格,证书,街景文字,名片,数码显示屏等,收集的 300 张图像,每张图平均有 17 个文本框,PaddleOCR 的 F1-Score 超过 0.5,这个性能已经很不错了。

4). 从功能完备来看:

预训练模型大小:easyOCR 目前暂无超轻量模型,chineseocr_lite 最新的模型是 4.7M 左右,而 PaddleOCR 提供的 3.5M 无疑是目前业界已知最轻量的。

PIP 安装:目前仅 PaddleOCR 和 easyOCR 支持。

自定义训练:实际业务场景中,预训练模型往往不能满足需求,对于自定义训练和模型 Finetuning,目前只有 PaddleOCR 支持。

部署方面:easyOCR 模型较大不适合端侧部署,Chineseocr_lite 和 PaddleOCR 都具备端侧部署能力。

开发者可以根据自己的实际需求,选择适合自己的开源方案。 对于 PaddleOCR3.5MB 的超轻量模型,是如何做到的,repo 中也给出了解释。

3.5M 超轻量模型应用了一套超轻量 OCR 系统 PP-OCR,主要由 DB 文本检测、检测框矫正和 CRNN 文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化 8 个方面,采用 19 个有效策略,对各个模块的模型进行效果调优和瘦身。 其中,飞桨模型压缩库 PaddleSlim 为 PaddleOCR 超轻量化模型的实现提供了核心的技术支撑。从超轻量模型 8.1M 的压缩到 3.5M,模型大小降低了 56.79%,其中检测模型速度提升 21%,而且整体模型精度还有提升。

除了 3.5M 超轻量 OCR 模型,PaddleOCR 提供了多语言预训练模型(英、德、法、韩、日),支持自定义训练和丰富的部署方式。

责任编辑:PSY

原文标题:Github标星4.6K+!这个OCR开源项目,火了!

文章出处:【微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4340

    浏览量

    46435
  • OCR
    OCR
    +关注

    关注

    0

    文章

    176

    浏览量

    17277
  • GitHub
    +关注

    关注

    3

    文章

    489

    浏览量

    18759

原文标题:Github标星4.6K+!这个OCR开源项目,火了!

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度文心衍生模型PaddleOCR登顶GitHub Star OCR全球第一

    3月30日,百度文心衍生模型PaddleOCR在GitHub上的Star数突破73.3K,超越谷歌Tesseract OCR,成为全球Star数最高的OCR项目。
    的头像 发表于 03-31 11:40 428次阅读

    模力方舟现已正式开源官方Skills仓库Moark Skills

    模力方舟现已正式开源官方 Skills 仓库 Moark Skills,首批上线图像生成、OCR、文档内容提取和文本合规审查四个技能模块。开发者和用户只需将技能文件导入 OpenClaw,Agent 即可通过自然语言直接调用这些能力,省去从零对接各类 API 的重复工作。
    的头像 发表于 03-03 16:47 1439次阅读
    模力方舟现已正式<b class='flag-5'>开源</b>官方Skills仓库Moark Skills

    工业级OCR手持终端怎么选?国产OCR智能识别pda实测

    工业环境专用OCR智能PDA怎么选?鸟鸟科技N70Socr具备IP67防尘防水+1.5米抗跌落,5000mAh可拆卸电池支持24小时轮班作业。专业OCR扫描头+斑马/霍尼二维码引擎双模组,285g人体工学设计,让高强度数据采集更轻松。点击查看详细防护测试与续航实测数据!
    的头像 发表于 02-07 17:45 480次阅读
    工业级<b class='flag-5'>OCR</b>手持终端怎么选?国产<b class='flag-5'>OCR</b>智能识别pda实测

    沐曦曦云C500/C550 GPU产品适配智谱GLM-OCR模型

    今天,智谱AI正式发布并开源GLM-OCR,以 “小尺寸、高精度” 实现文档解析能力新标杆。沐曦股份曦云C500/C550 GPU充分发挥高生态兼容性、软硬协同能力优势,高效完成与智谱GLM-OCR
    的头像 发表于 02-03 11:36 913次阅读
    沐曦曦云C500/C550 GPU产品适配智谱GLM-<b class='flag-5'>OCR</b>模型

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 OCR 能力

    落地过程中,企业逐渐意识到:** 制约 OCR 应用进一步扩展的核心因素,已不再是模型准确率本身,而是整体推理性能与部署成本。 具体来说,规模化 OCR 应用主要面临以下几方面挑战: 吞吐量(FPS)不足 ,难以支撑高并发或多路
    的头像 发表于 01-22 21:02 314次阅读
    DeepX <b class='flag-5'>OCR</b>:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 <b class='flag-5'>OCR</b> 能力

    瑞芯微(EASY EAI)RV1126B OCR文字识别

    1.OCR文字识别简介文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行文字的识别。所以一般包含两个步骤:文字检测:解决的问题是哪里有文字,文字的范围
    的头像 发表于 01-12 10:19 6983次阅读
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>OCR</b>文字识别

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    摘要 :小语种OCR研发的核心瓶颈在于高质量标注数据的稀缺与高昂成本。本文介绍一种创新的自动化标注方案,利用 PaddleOCR 进行文本检测与裁剪,并调用 ERNIE 4.5 大模型进行双重预测
    的头像 发表于 08-29 11:26 3874次阅读
    小语种<b class='flag-5'>OCR</b>标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    【嘉楠堪智K230开发板试用体验】+OCR实现

    OCR OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字内容转换为可编辑、可搜索文本的技术。其核心在于通过图像预处理、字符分割、特征提取与模式
    发表于 08-23 18:53

    如何利用OCR技术实现高效集装箱箱号识别?

    在现代物流和海关监管领域,快速准确地识别集装箱箱号是提升通关效率、降低运营成本的关键。OCR(光学字符识别)技术的应用,为这一需求提供了智能化解决方案。通过结合高清成像设备和先进的算法,OCR技术
    的头像 发表于 08-12 10:48 979次阅读
    如何利用<b class='flag-5'>OCR</b>技术实现高效集装箱箱号识别?

    ocr识别时数据集上传压缩包,上传成功,但不显示图片,图片数量仍显示0,为什么?

    ocr识别时数据集上传压缩包,上传成功,但不显示图片,图片数量仍显示0
    发表于 07-23 08:11

    端侧OCR文字识别实现 -- Core Vision Kit ##HarmonyOS SDK AI##

    ​ 之前做小程序或者web的时候,对于OCR相关的功能,都是调用三方接口实现的,例如百度的ocr接口,整体的流程较为复杂,需要先通过后端代码获取百度的token,然后本地选择图片,图片发送到服务器
    发表于 06-30 18:07

    明治案例 | 150个/分钟!电阻【OCR识别】+【尺寸测量】一步到位

    真实案例——看明治传感如何用一个视觉传感器,同时搞定电阻的尺寸测量和OCR识别,让质检效率翻倍,成本直降!场景需求希望在同一工位完成尺寸测量与OCR识别,减少设备占
    的头像 发表于 06-10 07:33 901次阅读
    明治案例 | 150个/分钟!电阻【<b class='flag-5'>OCR</b>识别】+【尺寸测量】一步到位

    OCR识别训练完成后给的是空压缩包,为什么?

    OCR识别 一共弄了26张图片,都标注好了,点击开始训练,显示训练成功了,也将压缩包发到邮箱了,下载下来后,压缩包里面是空的 OCR图片20几张图太少了。麻烦您多添加点,参考我们的ocr识别训练数据集 请问训练id是?
    发表于 05-28 06:46