0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

把树莓派打造成识别文本的“神器”!

上海晶珩电子科技有限公司 2025-03-25 09:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在许多项目中,Raspberry Pi被用作监控摄像头或执行机器学习任务。在这些场景中,图像中经常包含应用程序感兴趣的文本信息。我们希望提取这些信息并将其转换,以便通过程序分析文本。Raspberry Pi也能实现这种文本识别,而且并不困难。我们可以从静态图像或摄像头的实时流中读取文本。

在本教程中,我们将探讨如何使用Raspberry Pi实现文本识别,以及为此需要哪些组件。

开始前的必要组件

该应用的主要部分是纯软件基础的。因此,我们只需要少量的硬件来设置文本识别。我们将需要并使用以下组件:

强大的Raspberry Pi(例如 Model 4)

官方Raspberry Pi摄像头,或者:USB 网络摄像头

电源连接:micro USB 线缆和 USB 适配器

可以使用屏幕、键盘和鼠标,但由于我们远程操作Raspberry Pi,因此它们并非必需。因此,您应该已经相应地设置了Raspberry Pi,并启用了 SSH,还建立了远程桌面连接。之后,我们就可以直接开始了。使用 SSH 和 Putty 远程访问

什么是文本识别(OCR)以及它在Raspberry Pi上是如何工作的?

简而言之,图像上的文本识别(光学字符识别或简称 OCR)实际上是识别单个字母。如果它们足够接近,就会形成一个单词。

在之前的教程中,我们已经看到可以训练一个模型来识别图像上的物体。如果我们现在训练所有(拉丁)字母——而不是物体——我们也可以通过模型再次识别它们。

理论上,这是可行的,但需要付出很多努力。必须先训练不同的字体、颜色、格式等。但是,我们想节省为此所需的时间。

因此,我们使用来自 Google 的 Tesseract库。它已包含此类模型,并且经过了许多开发人员的优化。

安装 Tesseract OCR 库

我们可以自己编译 Tesseract,或者简单地通过包管理器安装它。后者可以通过以下命令轻松完成:

sudo apt install tesseract-ocr

我们可以使用tesseract -v 轻松检查安装是否成功。

现在,我们可以进行第一次小测试。为此,我们将使用这张图片:

cd9620ea-0918-11f0-9434-92fbcf53809c.png

您可以通过以下方式下载它:

wget https://tutorials-raspberrypi.de/wp-content/uploads/coffee-ocr.jpg

然后,我们执行以下命令:

tesseract coffee-ocr.jpg stdout

输出如下所示:

Warning: Invalid resolution 0 dpi. Using 70 instead.Estimating resolution as 554COFFEE

因此,在我们的输入图像中,文本“COFFEE”被识别出来了。

由于我们想在 Python 脚本中使用整个功能,因此我们需要一些库,如 OpenCV和 Tesseract 的 Python 包装器。OpenCV:https://opencv.org/我们通过 Python 包管理器安装它们:

pip3 install opencv-python pillow pytesseract imutils numpy

在Raspberry Pi上通过 Python 脚本测试文本识别

到目前为止,我们仅在未处理的彩色图像上尝试识别单词。预处理步骤通常可以改善结果。例如,通过将彩色图像转换为灰度图像。另一方面,我们也可以尝试检测图像中的边缘,以更好地突出字母/单词。

因此,让我们首先通过 Python 脚本在Raspberry Pi上启用文本识别。为此,我们创建一个文件夹和一个文件。

mkdir ocrcd ocrsudo nano example.py

我们插入以下内容:

import cv2import pytesseractimport numpy as npfrom pytesseract import Output img_source = cv2.imread('images/coffee.jpg') def get_grayscale(image): return cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) def thresholding(image): return cv2.threshold(image, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1] def opening(image): kernel = np.ones((5, 5), np.uint8) return cv2.morphologyEx(image, cv2.MORPH_OPEN, kernel) def canny(image): return cv2.Canny(image, 100, 200) gray = get_grayscale(img_source)thresh = thresholding(gray)opening = opening(gray)canny = canny(gray) for img in [img_source, gray, thresh, opening, canny]: d = pytesseract.image_to_data(img, output_type=Output.DICT) n_boxes = len(d['text']) # back to RGB if len(img.shape) == 2: img = cv2.cvtColor(img, cv2.COLOR_GRAY2RGB) for i in range(n_boxes): if int(d['conf'][i]) > 60: (text, x, y, w, h) = (d['text'][i], d['left'][i], d['top'][i], d['width'][i], d['height'][i]) # don't show empty text if text and text.strip() != "": img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2) img = cv2.putText(img, text, (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 1.2, (0, 255, 0), 3) cv2.imshow('img', img) cv2.waitKey(0)

让我们看看一些有趣的行:

导入库(第1-4行)

加载图像(第5行),根据需要调整路径!

预处理函数,用于转换为灰度值(第9-23行)

第32行:在这里,我们提取任何数据(文本、坐标、分数等)

为了能够在之后为框着色,如果必要,我们将灰度图像转换回具有颜色通道的图像(第36-37行)

从第39行开始,将为分数高于60的框着色。

为此,我们在第41行提取文本、起始坐标和框的尺寸。

只有当检测到(非空)文本时,我们才绘制框(第43-45行)。

然后,我们运行脚本并等待按下转义键(第47/48行)。

我们现在运行脚本:

python3 example.py

然后,5张不同的图像会依次出现(按 ESC 键显示下一张图像)。识别出的文本会在图像上被标记出来。这样,您可以确定哪个预处理步骤最适合您。

通过Raspberry Pi摄像头识别实时图像中的文本

到目前为止,我们仅使用静态图像作为文本识别的输入。现在,我们还希望在连接的摄像头的实时流中识别文本。这只需要对我们之前的脚本进行一些小的更改。我们创建一个新文件:

sudo nano ocr_camera.py

文件内容如下:

import cv2import pytesseractfrom pytesseract import Output cap = cv2.VideoCapture(0)cap.set(cv2.CAP_PROP_BUFFERSIZE, 1) while True: # Capture frame-by-frame ret, frame = cap.read() d = pytesseract.image_to_data(frame, output_type=Output.DICT) n_boxes = len(d['text']) for i in range(n_boxes): if int(d['conf'][i]) > 60: (text, x, y, w, h) = (d['text'][i], d['left'][i], d['top'][i], d['width'][i], d['height'][i]) # don't show empty text if text and text.strip() != "": frame = cv2.rectangle(frame, (x, y), (x + w, y + h), (0, 255, 0), 2) frame = cv2.putText(frame, text, (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 1.0, (0, 0, 255), 3) # Display the resulting frame cv2.imshow('frame', frame) if cv2.waitKey(1) & 0xFF == ord('q'): break # When everything done, release the capturecap.release()cv2.destroyAllWindows()

我们现在的改动如下:

在第5-6行,我们定义了相机,而不是固定的图像。相机必须被连接并被识别。

在第10行,我们读取了当前的帧。

这里我们省略了预处理步骤,但这些步骤也很容易被插入(在第11行)。

最后但同样重要的是,我们也运行了脚本:

python3 ocr_camera.py

现在将相机对准文本,观察文本上的单词是如何被识别的:

在我的示例中,你可以清楚地看到转换为灰度图像是有意义的,因为单词“Tutorials”太亮了。

其他语言的文本识别

Tesseract默认只安装了英语作为识别语言。我们可以用以下命令检查:

tesseract --list-langs

如果你想添加更多应该识别文本的语言,可以这样做:

sudo apt-get install tesseract-ocr-[lang]

将[lang]替换为语言的缩写(all表示安装所有现有的语言)。

https://askubuntu.com/questions/793634/how-do-i-install-a-new-language-pack-for-tesseract-on-16-04/798492#798492然后你可以在Python脚本中选择语言。添加参数:

d = pytesseract.image_to_data(img, lang='eng')

结论

Tesseract是一个强大的工具,它为图像或帧提供了开箱即用的文本识别功能。这意味着我们不需要训练和创建自己的机器学习模型。尽管计算量相对较大,但Raspberry Pi的文本识别效果非常好。通过各种处理步骤,可以进一步改进结果。
顺便提一下,你可以在Github仓库中找到这两个脚本。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 文本
    +关注

    关注

    0

    文章

    119

    浏览量

    17747
  • Raspberry Pi
    +关注

    关注

    2

    文章

    621

    浏览量

    23860
  • 树莓派
    +关注

    关注

    122

    文章

    2070

    浏览量

    109783
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    树莓做人脸识别

    基于云服务平台的人脸识别1、设备树莓2、USB摄像头。2、要求l使用USB摄像头抓拍(可以使用各种开源软件,也可以自己编程)脸部照片;l使用人脸识别的云服务平台(可选择FACECOR
    发表于 08-07 23:19

    在Windows、OSX和树莓下编辑树莓config

    :关闭树莓,拔掉电源和SD卡SD卡插入MAC机的SD卡卡槽,在Finder中打开SD卡查找名为config的文件 (有可能是config.txt)如果文件存在,用TextEdit打开。如果找不到,用
    发表于 01-11 17:56

    树莓语音识别机器人(下)

    `树莓语音识别机器人(上)第四步:声卡尽管有音频输出口可以连接音箱或耳机,但为了获得更好的音质,我们将外置声卡材料:1. 树莓2. US
    发表于 01-20 10:59

    树莓怎么打造开心农场

    /ACCESSORIES_RPI_4.html]其它更多有趣的专案:DIY相机树莓做的报警器跟拍的小车家庭媒体中心云监控DIY街头游戏机人脸识别云相册树莓
    发表于 02-22 15:14

    树莓是什么树莓的简单介绍

    要想玩转树莓,首先得知道树莓是什么。在本节中,作者将带领大家揭开树莓的神秘面纱,了解
    发表于 05-15 18:09 31次下载
    <b class='flag-5'>树莓</b><b class='flag-5'>派</b>是什么<b class='flag-5'>树莓</b><b class='flag-5'>派</b>的简单介绍

    海南电网将致力海南打造成国内首个智能电网示范省

    “海南电网将在省委、省政府和南方电网指导下,紧紧围绕生态立省、绿色崛起、国际旅游岛建设主线,按照‘超前谋划、需求驱动、远近结合’的原则,努力海南打造成国内首个省域智能电网示范省。”南方电网海南电网公司董事长邓恩宏对此表示。
    发表于 05-29 15:07 3043次阅读

    树莓的学习设计方案合集

    手臂,MAX17043 锂电池电量计树莓驱动程序及教程等,Raspberry Pi打造的高清监控摄像机的DIY全过程共享,基于Arduino和树莓
    发表于 03-11 08:00 12次下载
    <b class='flag-5'>树莓</b><b class='flag-5'>派</b>的学习设计方案合集

    TensorFlow手势识别树莓开源

    电子发烧友网站提供《TensorFlow手势识别树莓开源.zip》资料免费下载
    发表于 11-09 09:27 1次下载
    TensorFlow手势<b class='flag-5'>识别</b><b class='flag-5'>树莓</b><b class='flag-5'>派</b>开源

    惊了!这个“神器”让树莓秒变智能管家,图像识别+无线投屏,太秀了!

    和BalenaCloud,让树莓实现从图像识别到智能生活的华丽转身!图像分类项目:用树莓和BalenaOS实现智能
    的头像 发表于 03-25 09:23 1364次阅读
    惊了!这个“<b class='flag-5'>神器</b>”让<b class='flag-5'>树莓</b><b class='flag-5'>派</b>秒变智能管家,图像<b class='flag-5'>识别</b>+无线投屏,太秀了!

    树莓5终极开发方案:VSCode Server避坑实战指南

    导语:你是否想过将信用卡大小的树莓5打造成随身携带的云端开发神器?开发者RaduZaharia历经反复试验,终于突破性实现VSCodeServer在
    的头像 发表于 03-25 16:39 1242次阅读
    <b class='flag-5'>树莓</b><b class='flag-5'>派</b>5终极开发方案:VSCode Server避坑实战指南

    车牌识别新花样:树莓打造智能车牌监控系统!

    树莓是创客们打造家庭安防系统的热门之选,这得益于其具备运用人工智能(AI)的能力。AI系统能识别潜在威胁,在此情境下,还能识别过往车辆的牌
    的头像 发表于 04-26 09:03 502次阅读
    车牌<b class='flag-5'>识别</b>新花样:<b class='flag-5'>树莓</b><b class='flag-5'>派</b><b class='flag-5'>打造</b>智能车牌监控系统!

    树莓 Zero 打造的智能漫游车!

    使用PXFMini和树莓Zero打造您自己的自主漫游车。本项目所用组件硬件组件ErleRoboticsPXFmini×1树莓Zero×1
    的头像 发表于 05-13 16:39 876次阅读
    用 <b class='flag-5'>树莓</b><b class='flag-5'>派</b> Zero <b class='flag-5'>打造</b>的智能漫游车!

    树莓分类器:用树莓识别不同型号的树莓

    在本教程系列的第一部分中,您将学习如何使用树莓AI摄像头来检测不同的树莓型号。本系列由DavidPlowman创建,他是树莓
    的头像 发表于 06-13 16:39 1003次阅读
    <b class='flag-5'>树莓</b><b class='flag-5'>派</b>分类器:用<b class='flag-5'>树莓</b><b class='flag-5'>派</b><b class='flag-5'>识别</b>不同型号的<b class='flag-5'>树莓</b><b class='flag-5'>派</b>!

    如何使用树莓与OpenCV实现面部和运动追踪的云台系统?

    使用树莓和OpenCV实时扫描并存储二维码使用树莓和OpenCV实现物体与动物识别使用树莓
    的头像 发表于 08-14 17:45 984次阅读
    如何使用<b class='flag-5'>树莓</b><b class='flag-5'>派</b>与OpenCV实现面部和运动追踪的云台系统?

    零成本钢铁侠手套!树莓+OpenCV 秒变手势遥控器!

    使用树莓和OpenCV实时扫描并存储二维码使用树莓和OpenCV实现物体与动物识别使用树莓
    的头像 发表于 08-16 16:16 893次阅读
    零成本钢铁侠手套!<b class='flag-5'>树莓</b><b class='flag-5'>派</b>+OpenCV 秒变手势遥控器!