0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

RV1126 开发OCR文字识别算法组件

ljx2016 来源:ljx2016 作者:ljx2016 2025-04-16 09:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. OCR文字识别简介

文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行文字的识别。所以一般包含两个步骤:

文字检测:解决的问题是哪里有文字,文字的范围有多少。

文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。

我们的OCR算法是基于CTPN+CRNN设计的。CTPN是一种文字检测算法,能有效的检测出复杂场景的横向分布的文字,是目前比较好的文字检测算法。CRNN算法主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。

基于EASY-EAI-Nano硬件主板的运行效率:

算法种类 模型大小 运行效率
文字检测算法 2.79MB 227ms
文字识别算法 4.56MB 89ms

2. 快速上手

2.1 开发环境准备

如果您初次阅读此文档,请阅读《入门指南/开发环境准备/Easy-Eai编译环境准备与更新》,并按照其相关的操作,进行编译环境的部署。

在PC端Ubuntu系统中执行run脚本,进入EASY-EAI编译环境,具体如下所示。

cd ~/develop_environment ./run.sh

wKgZO2f_BEyAOsEAAACbrHAYX20186.png

2.2 源码下载以及例程编译

在EASY-EAI编译环境下创建存放源码仓库的管理目录:

cd /opt mkdir EASY-EAI-Toolkit cd EASY-EAI-Toolkit

通过git工具,在管理目录内克隆远程仓库

git clone https://github.com/EASY-EAI/EASY-EAI-Toolkit-C-Demo.git

wKgZPGf_BE2AHbU7AADL06HcVzc386.png

注:

* 此处可能会因网络原因造成卡顿,请耐心等待。

* 如果实在要在gitHub网页上下载,也要把整个仓库下载下来,不能单独下载本实例对应的目录。

进入到对应的例程目录执行编译操作,具体命令如下所示:

cd EASY-EAI-Toolkit-C-Demo/algorithm-ocr/ ./build.sh

注:

* 若build.sh脚本带有cpres参数,则会把Release/目录下的所有资源都拷贝到开发板上。

* 若build.sh脚本不带任何参数,则仅会拷贝demo编译出来的可执行文件。

* 由于依赖库部署在板卡上,因此交叉编译过程中必须保持adb连接。

wKgZO2f_BE2ABJMwAAGE7T_LyXI914.png

2.3 模型部署

要完成算法Demo的执行,需要先下载算法模型。

百度网盘链接为:https://pan.baidu.com/s/1w4tf1YolUCpcAFtyP3aJZQ (提取码:6666 )。

wKgZPGf_BE2AW-E3AAASX4aXfzE122.png

同时需要把下载的OCR识别算法模型复制粘贴到Release/目录:

wKgZO2f_BE2AS6QJAABsoqMXJ3w667.png

再通过下方命令将模型署到板卡中,如下所示。

cp Release/ /mnt/userdata/ -rf

2.4 例程运行

通过按键Ctrl+Shift+T创建一个新窗口,执行adb shell命令,进入板卡运行环境。

adb shell

wKgZPGf_BE6ABm0gAABc3DEXVxM480.png

进入板卡后,定位到例程上传的位置,如下所示:

cd /userdata/Release/

运行例程命令如下所示:

./test-ocr test.jpg

2.5 运行效果

test-ocr的Demo执行效果如下所示:

wKgZO2f_BE6AALDhAAG-6Ctw4HY520.png

再开一个窗口,在PC端Ubuntu环境通过以下命令可以把图片拉回来:

adb pull /userdata/Demo/result.jpg .

结果图片如下所示:

wKgZPGf_BE6AVpjNAAEj4BcK8uY110.jpg

API的详细说明,以及API的调用(本例程源码),详细信息见下方说明。

3. OCR文字识别API说明

3.1 引用方式

为方便客户在本地工程中直接调用我们的EASY EAI api库,此处列出工程中需要链接的库以及头文件等,方便用户直接添加。

选项 描述
头文件目录 easyeai-api/algorithm_api/ocr
库文件目录 easyeai-api/algorithm_api/ocr
库链接参数 -lpthread -locr -lrknn_api

3.2 OCR检测初始化函数

设置OCR检测初始化函数原型如下所示。

int ocr_det_init(const char* model_path, rknn_app_context_t* app_ctx);

具体介绍如下所示。

函数名: ocr_det_init
头文件 ocr.h
输入参数
model_path:算法模型名字/路径
app_ctx:算法模型句柄
返回值 成功返回:0
失败返回:-1
注意事项

3.3 OCR检测运行函数

设置OCR检测运行原型如下所示。

int ocr_det_run(rknn_app_context_t* app_ctx, cv::Mat input_image, ocr_det_postprocess_params* params, ocr_det_result* out_result);

具体介绍如下所示。

函数名: ocr_det_run
头文件 ocr.h
输入参数
app_ctx:算法模型句柄
input_image:Cv::Mat输入图像
Params:ocr检测算法参数
out_result:返回结果
返回值
成功返回:0
失败返回:-1
注意事项

3.4 OCR检测释放函数

设置OCR检测释放原型如下所示。

int ocr_det_release(rknn_app_context_t* app_ctx);

具体介绍如下所示。

函数名: ocr_det_release
头文件 ocr.h
输入参数 app_ctx:算法模型句柄
返回值 成功返回:0
失败返回:-1
注意事项

3.5 OCR识别初始化函数

OCR识别初始化函数原型如下所示。

int ocr_rec_init(const char* model_path, rknn_app_context_t* app_ctx);

具体介绍如下所示。

函数名: ocr_rec_init
头文件 ocr.h
输入参数
model_path:算法模型名字/路径
app_ctx:算法模型句柄
返回值
成功返回:0
失败返回:-1
注意事项

3.6 OCR识别运行函数

OCR识别运行函数原型如下所示。

int ocr_rec_run(rknn_app_context_t* app_ctx, cv::Mat input_image, ocr_rec_result* out_result);

具体介绍如下所示。

函数名: ocr_rec_run
头文件 ocr.h
输入参数
app_ctx:算法模型句柄
input_image:输入图像
out_result:返回结果
返回值
成功返回:0
失败返回:-1
注意事项

3.7 OCR识别释放函数

OCR识别释放函数原型如下所示。

int ocr_rec_release(rknn_app_context_t* app_ctx);

具体介绍如下所示。

函数名: ocr_rec_release
头文件 ocr.h
输入参数 app_ctx:算法模型句柄
返回值 成功返回:0
失败返回:-1
注意事项

4. OCR识别算法例程

例程目录为Toolkit-C-Demo/ocr/test-ocr.cpp,操作流程如下。

wKgZO2f_BE6AR-wwAABFnLXCW4I978.png

参考例程如下所示。

#include < opencv2/opencv.hpp > #include < stdio.h > #include < sys/time.h > #include"ocr.h" using namespace cv; using namespace std; #define INDENT " " #define THRESHOLD 0.3 // pixel score threshold #define BOX_THRESHOLD 0.9 // box score threshold #define USE_DILATION false // whether to do dilation, true or false #define DB_UNCLIP_RATIO 1.5 // unclip ratio for poly type int main(int argc, char **argv) { if (argc != 2) { printf("%s < image_path >n", argv[0]); return -1; } /* 参数初始化 */ const char *img_path = argv[1]; Mat input_image, rgb_img; input_image = imread(img_path); if (input_image.empty()) { cout < < "Error: Could not load image" < < endl; return -1; } cv::cvtColor(input_image, rgb_img, COLOR_BGR2RGB); rknn_app_context_t ocr_det_ctx, ocr_rec_ctx; memset(&ocr_det_ctx, 0, sizeof(rknn_app_context_t)); memset(&ocr_rec_ctx, 0, sizeof(rknn_app_context_t)); /* OCR算法检测模型&识别模型初始化 */ ocr_det_init("ocr_det.model", &ocr_det_ctx); ocr_rec_init("ocr_ret.model", &ocr_rec_ctx); struct timeval start; struct timeval end; float time_use=0; /* OCR算法检测模型运行 */ ocr_det_result results; ocr_det_postprocess_params params; params.threshold = THRESHOLD; params.box_threshold = BOX_THRESHOLD; params.use_dilate = USE_DILATION; params.db_score_mode = (char*)"slow"; params.db_box_type = (char*)"poly"; params.db_unclip_ratio = DB_UNCLIP_RATIO; gettimeofday(&start,NULL); int ret; ret = ocr_det_run(&ocr_det_ctx, rgb_img, ¶ms, &results); if (ret != 0) { printf("inference_ppocr_rec_model fail! ret=%dn", ret); } gettimeofday(&end,NULL); time_use=(end.tv_sec-start.tv_sec)*1000000+(end.tv_usec-start.tv_usec);//微秒 printf("time_use is %fn",time_use/1000); /* 截取文字信息和画框 */ printf("DRAWING OBJECTn"); for (int i = 0; i < results.count; i++) { printf("[%d]: [(%d, %d), (%d, %d), (%d, %d), (%d, %d)] %fn", i, results.box[i].left_top.x, results.box[i].left_top.y, results.box[i].right_top.x, results.box[i].right_top.y, results.box[i].right_bottom.x, results.box[i].right_bottom.y, results.box[i].left_bottom.x, results.box[i].left_bottom.y, results.box[i].score); line(input_image, Point(results.box[i].left_top.x, results.box[i].left_top.y), Point(results.box[i].right_top.x, results.box[i].right_top.y), Scalar(0, 255, 0), 1, LINE_AA); line(input_image, Point(results.box[i].right_top.x, results.box[i].right_top.y), Point(results.box[i].right_bottom.x, results.box[i].right_bottom.y), Scalar(0, 255, 0), 1, LINE_AA); line(input_image, Point(results.box[i].right_bottom.x, results.box[i].right_bottom.y), Point(results.box[i].left_bottom.x, results.box[i].left_bottom.y), Scalar(0, 255, 0), 1, LINE_AA); line(input_image, Point(results.box[i].left_bottom.x, results.box[i].left_bottom.y), Point(results.box[i].left_top.x, results.box[i].left_top.y), Scalar(0, 255, 0), 1, LINE_AA); cv::Mat rgb_crop_image = GetRotateCropImage(rgb_img, results.box[i]); /* OCR算法识别模型运行 */ ocr_rec_result rec_results; ocr_rec_run(&ocr_rec_ctx, rgb_crop_image, &rec_results); // print text result printf("regconize result: %s, score=%fn", rec_results.str, rec_results.score); } cv::imwrite("result.jpg", input_image); return 0; } 审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97165
  • 文字识别
    +关注

    关注

    0

    文章

    18

    浏览量

    8895
  • OCR
    OCR
    +关注

    关注

    0

    文章

    170

    浏览量

    17053
  • rv1126
    +关注

    关注

    0

    文章

    115

    浏览量

    4082
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    音诺恒YNH-363 RV1126人脸识别主板规格书

    音诺恒RV1126人脸识别主板规格书
    发表于 09-20 11:15 0次下载

    RV1126系列选型指南:从RV1126RV1126B,一文看懂升级差异

    2025年7月,瑞芯微正式发布新一代AI视觉芯片RV1126B。作为其金牌方案商,EASYEAI灵眸科技同步推出搭载该芯片的AIoT核心板EAI1126B-Core-T。相较于前代RV1126
    的头像 发表于 09-04 10:50 3531次阅读
    <b class='flag-5'>RV1126</b>系列选型指南:从<b class='flag-5'>RV1126</b>到<b class='flag-5'>RV1126</b>B,一文看懂升级差异

    基于RV1126开发板实现二维码识别方案

    RV1126开发板上实现方案设计逻辑流程图,方案代码分为两个业务流程,主体代码负责抓取、合成图像,算法代码负责二维码识别功能。
    的头像 发表于 04-21 14:25 54次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板实现二维码<b class='flag-5'>识别</b>方案

    基于RV1126开发板实现人脸识别方案

    RV1126上实现人脸识别:在图像中找出人脸,并与数据库进行比对,得出该人脸对应的身份信息。 方案设计逻辑流程图,方案代码分为分为三个业务流程,主体代码负责抓取、合成图像,算法代码负责人脸
    的头像 发表于 04-21 13:51 11次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板实现人脸<b class='flag-5'>识别</b>方案

    基于RV1126开发板实现人脸识别方案

    RV1126开发板上实现人脸识别:在图像中找出人脸,并与数据库进行比对,得出该人脸对应的身份信息。 方案设计逻辑流程图,方案代码分为分为三个业务流程,主体代码负责抓取、合成图像,
    的头像 发表于 04-21 10:24 107次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板实现人脸<b class='flag-5'>识别</b>方案

    基于RV1126开发板实现驾驶员行为检测方案

    RV1126开发板上实现驾驶员行为检测:通过图像识别出这几种行为:打电话、抽烟、疲劳驾驶。
    的头像 发表于 04-18 17:47 354次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板实现驾驶员行为检测方案

    基于RV1126开发板实现人脸识别方案

    RV1126开发板实现人脸识别:在图像中找出人脸,并与数据库进行比对,得出该人脸对应的身份信息。 方案设计逻辑流程图,方案代码分为分为三个业务流程,主体代码负责抓取、合成图像,
    的头像 发表于 04-18 16:55 83次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板实现人脸<b class='flag-5'>识别</b>方案

    基于RV1126开发板的resnet50训练部署教程

    本教程基于图像分类算法ResNet50的训练和部署到EASY-EAI-Nano(RV1126)进行说明
    的头像 发表于 04-18 15:07 939次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板的resnet50训练部署教程

    基于RV1126开发板的按键测试方法与例程

    RV1126开发板的按键测试方法与例程详细描述
    的头像 发表于 04-15 17:03 837次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板的按键测试方法与例程

    基于RV1126开发板的人员检测算法开发

    RV1126开发人员检测AI算法组件
    的头像 发表于 04-14 13:56 633次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板的人员检测<b class='flag-5'>算法</b><b class='flag-5'>开发</b>

    基于RV1126开发板的人脸检测算法开发

    RV1126开发人脸检测算法组件
    的头像 发表于 04-14 10:19 746次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板的人脸检测<b class='flag-5'>算法</b><b class='flag-5'>开发</b>

    RV1126 实现人脸检测方案

    基于RV1126开发板实现人脸检测方案,充分体现了电子方面的实践经验和目标检测技术。
    的头像 发表于 04-14 09:25 693次阅读
    <b class='flag-5'>RV1126</b> 实现人脸检测方案

    基于RV1126开发板实现二维码识别方案

    RV1126上实现二维码识别方案
    的头像 发表于 04-11 14:48 582次阅读
    基于<b class='flag-5'>RV1126</b><b class='flag-5'>开发</b>板实现二维码<b class='flag-5'>识别</b>方案

    RV1126 实现人脸识别门禁系统解决方案

    RV1126实现人脸识别门禁系统解决方案
    的头像 发表于 04-10 15:17 1052次阅读
    <b class='flag-5'>RV1126</b> 实现人脸<b class='flag-5'>识别</b>门禁系统解决方案

    RV1126 实现简单的UI开发示例

    RV1126上实现简单的UI开发实例
    的头像 发表于 04-09 16:08 908次阅读
    <b class='flag-5'>RV1126</b> 实现简单的UI<b class='flag-5'>开发</b>示例