0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何让文本识别更加智能,数据堂获取这些OCR转写数据

火花 来源:大众新闻 作者:火花 2020-09-17 11:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近年来,学生党们拥有了一款新的学习神器——拍照搜题。当遇到不会做的题目时,只需要对着题目拍照,手机中就会出现这道题目的详细解答思路和答案。“拍照搜题”背后的黑科技就是光学字符识别技术,即OCR。OCR是指电子设备,例如扫描仪或相机检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别的方法将形状翻译成计算机文字的过程。

OCR的应用领域十分广泛。最早为我们熟知的“哪里不会点哪里”的点读机就应用了OCR。点读机的点读笔中装有一个扫描文字的摄像头,当点读笔接触到书本后,便可将文字内容识别和提取。作为常用的一款办公软件,扫描全能王可以实现“图片转文字”的功能。软件可以识别各种文件类型中的文字信息,这是非常典型的OCR技术的应用。

目前,文本识别分为以下几类:

· 通用文字识别:一般是指如PDF等不规则文档类的识别。

·卡证识别:包括身份证、银行卡、营业执照、名片、护照、港澳通行证、户口本、驾驶证、行驶证等等。

· 票据识别:包括增值税发票、定额发票、火车票、出租车票、行程单、保单、银行单据等等。

· 其他:如车牌、车辆合格证、印章检测等等。

随着分类的不断拓展,OCR技术的应用场景也越来越广泛,以下是几个应用较为成熟的领域:

· 远程身份认证:结合OCR和人脸识别技术,实现用户证件信息的自动录入,并完成用户身份验证。应用于金融保险、社保、O2O等行业,有效控制业务风险。

· 内容审核与监管:自动识别图片、视频中的文字内容,及时发现涉黄、涉暴、政治敏感、恶意广告等不合规内容,规避业务风险,大幅节约人工审核成本。

· 纸质文档票据电子化:通过OCR实现纸质文档资料、票据、表格的自动识别和录入,减少人工录入成本,提高输入效率。

针对上述的场景,基于深度学习的技术而言,训练数据的数量很大程度上影响了技术效果。数据堂作为深耕于AI数据领域近10年的人工智能数据服务提供商,一直致力于为全球人工智能企业提供专业的数据服务。依托自身的数据优势以及丰富的数据处理经验,数据堂推出了系列OCR标注及转写数据,为相关技术应更广泛的落地提供助力。

数据涵盖8种语言、多种场景、不同拍摄角度、不同拍摄距离、不同光照条件。在标注方面,标注行级文本的四边形框,行级文本转写。四边形框顶点偏差不超过五个像素为正确检测,检测框精度不低于95%,文本转写精度不低于95%,该数据可用于多国语言OCR任务。

数据涵盖12种语言(6种亚洲语、6种欧洲语),包括商店牌匾、站牌、海报、车票、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等多种自然场景。在标注方面,标注行级文本的四边形框,行级文本转写,四边形框顶点偏差不超过五个像素为正确检测,检测框精度不低于97%,文本转写精度不低于97%。

数据包括自然场景图片2,056张,互联网图像1,103张,文本图像347张。在标注方面,行级内容用行级四边形框标注、行级内容转写;竖列内容用竖列四边形框标注、竖列内容转写。数据可用于多场景下的印地语识别、印地语拍照翻译等任务。

数据包括自然场景图片258张,互联网图像2,553张,文本图像2,184张。在标注方面,行级内容用行级四边形框标注、行级内容转写;竖列内容用竖列四边形框标注、竖列内容转写。数据可用于多种场景下的越南语识别、越南语拍照翻译等任务。

相比物体检测识别,OCR由于包含倾斜文本框、低分辨率文字和文本版面多样化的情况,因此OCR数据标注具有特殊性,标注成本更高。数据堂的数加加Pro标注平台支持私有化部署,能够帮助企业快速、安全的对人工智能数据进行标注,为企业提供更专业、更安全的数据基础设施。

fqj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能识别
    +关注

    关注

    0

    文章

    212

    浏览量

    19004
  • OCR
    OCR
    +关注

    关注

    0

    文章

    170

    浏览量

    17050
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    labview怎么读取UTF-16 LE 文本数据

    各位大佬 请问labview怎么读取UTF-16 LE 文本数据 直接读数据出来会有空格 但是空格无法删除,请问怎么获取UTF-16 LE格式数据
    发表于 10-10 11:23

    讯飞实时语音转写大模型上线

    从全球协作,到国际交流,再到知识普惠,实时语音转写已经成为信息传递的重要工具。它跨越时空的交流更顺畅,内容的获取更高效。
    的头像 发表于 09-26 16:08 606次阅读

    端到端语音交互数据 精准赋能语音大模型进阶

    在语音大模型从“能识别”向“懂语境”跨越的关键阶段,高质量场景化语音数据已成为制约技术突破的核心瓶颈。传统语音识别数据集采用孤立标注,在语音-文本
    的头像 发表于 09-11 17:17 573次阅读

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    摘要 :小语种OCR研发的核心瓶颈在于高质量标注数据的稀缺与高昂成本。本文介绍一种创新的自动化标注方案,利用 PaddleOCR 进行文本检测与裁剪,并调用 ERNIE 4.5 大模型进行双重预测
    的头像 发表于 08-29 11:26 3271次阅读
    小语种<b class='flag-5'>OCR</b>标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    如何利用OCR技术实现高效集装箱箱号识别

    在现代物流和海关监管领域,快速准确地识别集装箱箱号是提升通关效率、降低运营成本的关键。OCR(光学字符识别)技术的应用,为这一需求提供了智能化解决方案。通过结合高清成像设备和先进的算法
    的头像 发表于 08-12 10:48 550次阅读
    如何利用<b class='flag-5'>OCR</b>技术实现高效集装箱箱号<b class='flag-5'>识别</b>?

    ocr识别数据集上传压缩包,上传成功,但不显示图片,图片数量仍显示0,为什么?

    ocr识别数据集上传压缩包,上传成功,但不显示图片,图片数量仍显示0
    发表于 07-23 08:11

    端侧OCR文字识别实现 -- Core Vision Kit ##HarmonyOS SDK AI##

    获取图片url,把这个url和token再发给百度的ocr接口获取识别数据……或者图片转base64以后把这个base64发给接口,然而鸿蒙这里,目前我也不知道啥原因(可能是发送请求的
    发表于 06-30 18:07

    明治案例 | 150个/分钟!电阻【OCR识别】+【尺寸测量】一步到位

    真实案例——看明治传感如何用一个视觉传感器,同时搞定电阻的尺寸测量和OCR识别质检效率翻倍,成本直降!场景需求希望在同一工位完成尺寸测量与OCR
    的头像 发表于 06-10 07:33 564次阅读
    明治案例 | 150个/分钟!电阻【<b class='flag-5'>OCR</b><b class='flag-5'>识别</b>】+【尺寸测量】一步到位

    OCR识别训练完成后给的是空压缩包,为什么?

    OCR识别 一共弄了26张图片,都标注好了,点击开始训练,显示训练成功了,也将压缩包发到邮箱了,下载下来后,压缩包里面是空的 OCR图片20几张图太少了。麻烦您多添加点,参考我们的ocr
    发表于 05-28 06:46

    大模型预标注和自动化标注在OCR标注场景的应用

    OCR,即光学字符识别,简单来说就是利用光学设备去捕获图像并识别文字,最终将图片中的文字转换为可编辑和可搜索的文本。在数字化时代,OCR(光
    的头像 发表于 04-15 15:18 710次阅读

    把树莓派打造成识别文本的“神器”!

    在许多项目中,RaspberryPi被用作监控摄像头或执行机器学习任务。在这些场景中,图像中经常包含应用程序感兴趣的文本信息。我们希望提取这些信息并将其转换,以便通过程序分析文本
    的头像 发表于 03-25 09:30 754次阅读
    把树莓派打造成<b class='flag-5'>识别</b><b class='flag-5'>文本</b>的“神器”!

    爬虫数据获取实战指南:从入门到高效采集

    高效又合规地获取数据?本文将为你拆解完整流程,并推荐一款助力数据采集的“黄金搭档”——IPIDEA全球代理,你的数据
    的头像 发表于 03-24 14:08 1255次阅读

    阿普奇视觉控制器AK7在OCR识别场景中的应用

    在实际工业生产中,OCR(光学字符识别)技术的应用逐渐普及,在食品包装、新能源、汽车制造、3C电子等领域帮助企业完成产品编码、生产日期、批号等字符信息自动识别,对于避免因出现瑕疵、错漏等情况而
    的头像 发表于 03-20 11:44 500次阅读
    阿普奇视觉控制器AK7在<b class='flag-5'>OCR</b><b class='flag-5'>识别</b>场景中的应用

    讯维KVM坐席管理协作系统:OCR功能及优势介绍

    随着人工智能和文字识别技术的发展,企业对文字识别和处理的需求日益增长,尤其是在办公自动化、数据提取、以及多媒体内容管理领域。客户对高效、精准的文字
    的头像 发表于 01-22 10:02 918次阅读