0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

瑞芯微(EASY EAI)RV1126B OCR文字识别

广州灵眸科技有限公司 2026-01-12 10:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. OCR文字识别简介

文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行文字的识别。所以一般包含两个步骤:

文字检测:解决的问题是哪里有文字,文字的范围有多少。

文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。

我们的OCR算法是基于CTPN+CRNN设计的。CTPN是一种文字检测算法,能有效的检测出复杂场景的横向分布的文字,是目前比较好的文字检测算法。CRNN算法主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。

基于EASY-EAI-Nano-TB硬件主板的运行效率:

v2-182ff4d2a9cc1ee1c705c1799929ad1c_720w.webp

2. 快速上手

2.1 开发环境准备

如果您初次阅读此文档,请阅读《入门指南/开发环境准备/Easy-Eai编译环境准备与更新》,并按照其相关的操作,进行编译环境的部署

在PC端Ubuntu系统中执行run脚本,进入EASY-EAI编译环境,具体如下所示。

cd ~/develop_environment
./run.sh
v2-e1127efd76bcca3331922be6d17e546f_720w.webp

2.2 源码下载

在EASY-EAI编译环境下创建存放源码仓库的管理目录:

cd /opt
mkdir EASY-EAI-Toolkit
cd EASY-EAI-Toolkit

通过git工具,在管理目录内克隆远程仓库

git clone https://github.com/EASY-EAI/EASY-EAI-Toolkit-1126B.git
v2-67d8e73ccfe13280db05364195d1679f_720w.webp

注:

* 此处可能会因网络原因造成卡顿,请耐心等待。

* 如果实在要在gitHub网页上下载,也要把整个仓库下载下来,不能单独下载本实例对应的目录。

2.3 模型部署

要完成算法Demo的执行,需要先下载OCR算法模型。

百度网盘链接为:https://pan.baidu.com/s/1imI86u1O9xH6T6V_0k2jxw?pwd=1234 (提取码:1234 )。

v2-46f0cb43eaae629b1314d0d17447c5ff_720w.webp

同时需要把下载的OCR算法模型复制粘贴到Release/目录:

v2-7fb3d89d157d2a94eb9a09a9f366bc87_720w.webp

2.4 例程编译

进入到对应的例程目录执行编译操作,具体命令如下所示:

cd EASY-EAI-Toolkit-1126B/Demos/algorithm-ocr/
./build.sh cpres

注:

* 由于依赖库部署在板卡上,因此交叉编译过程中必须保持/mnt挂载。

* 若build.sh脚本带有cpres参数,则会把Release/目录下的所有资源都拷贝到开发板上。

v2-df6923692a41324b6d0723163516e212_720w.webp

2.5 例程运行及效果

通过串口调试或ssh调试,进入板卡后台,定位到例程部署的位置,如下所示:

cd /userdata/Demo/algorithm-ocr/
v2-9adf0d9785c79c39af55904739970245_720w.webp

运行例程命令如下所示:

sudo ./test-ocr test.jpg
v2-f3ec53bc5a0dcbffed899b587101e6bf_720w.webp

在EASY-EAI编译环境可以取回测试图片:

cp /mnt/userdata/Demo/algorithm-ocr/result.jpg .
v2-32a53dd3f520c8c09d4437f28b808afe_720w.webp

结果图片如下所示:

v2-9c533337a91fb36629d25264daca6bc8_720w.webp

API的详细说明,以及API的调用(本例程源码),详细信息见下方说明。

3. OCR文字识别API说明

3.1 引用方式

为方便客户在本地工程中直接调用我们的EASY EAI api库,此处列出工程中需要链接的库以及头文件等,方便用户直接添加。

v2-1bd7d06cf825a9a95eb5b4f14c1eef95_720w.webp

3.2 OCR检测初始化函数

设置OCR检测初始化函数原型如下所示。

int ocr_det_init(const char* model_path, rknn_app_context_t* app_ctx);

具体介绍如下所示。

v2-c3158b2c8f0958ba7f9add2370c26e33_720w.webp

3.3 OCR检测运行函数

设置OCR检测运行原型如下所示。

int ocr_det_run(rknn_app_context_t* app_ctx, cv::Mat input_image, ocr_det_postprocess_params* params, ocr_det_result* out_result);

具体介绍如下所示。

v2-bf4d465efb5915679af930e56afcbcea_720w.webp

3.4 OCR检测释放函数

设置OCR检测释放原型如下所示。

int ocr_det_release(rknn_app_context_t* app_ctx);

具体介绍如下所示。

v2-45a3c60f49dc43f42f55558b95145223_720w.webp

3.5 OCR识别初始化函数

OCR识别初始化函数原型如下所示。

int ocr_rec_init(const char* model_path, rknn_app_context_t* app_ctx);

具体介绍如下所示。

v2-6c480d211692a2dc01f54d3703abf6d9_720w.webp

3.6 OCR识别运行函数

OCR识别运行函数原型如下所示。

int ocr_rec_run(rknn_app_context_t* app_ctx, cv::Mat input_image, ocr_rec_result* out_result);

具体介绍如下所示。

v2-23d426dd9e0bfc9691061c75d04cb4f2_720w.webp

3.7 OCR识别释放函数

OCR识别释放函数原型如下所示。

int ocr_rec_release(rknn_app_context_t* app_ctx);

具体介绍如下所示。

v2-8ee67b1293b2862f66dd73b16e27bf14_720w.webp

4. OCR检测算法例程

例程目录为Demos/algorithm-ocr/test-ocr.cpp,操作流程如下。

v2-eaef5e3a1d097054406ba65aa3761af8_720w.webp
#include 
#include 
#include 
#include"ocr.h"

using namespace cv;
using namespace std;

#define INDENT "    "
#define THRESHOLD 0.3 // pixel score threshold
#define BOX_THRESHOLD 0.9 // box score threshold
#define USE_DILATION false // whether to do dilation, true or false
#define DB_UNCLIP_RATIO 1.5 // unclip ratio for poly type

int main(int argc, char **argv)
{
	if (argc != 2) {
		printf("%s \n", argv[0]);
		return -1;
	}
	/* 参数初始化 */
	const char *img_path = argv[1];
	Mat input_image, rgb_img;
	input_image = imread(img_path);
	if (input_image.empty()) {
		cout << "Error: Could not load image" << endl;
		return -1;
	}

	cv::cvtColor(input_image, rgb_img, COLOR_BGR2RGB);

	rknn_app_context_t ocr_det_ctx, ocr_rec_ctx;
	memset(&ocr_det_ctx, 0, sizeof(rknn_app_context_t));
	memset(&ocr_rec_ctx, 0, sizeof(rknn_app_context_t));

	/* OCR算法检测模型&识别模型初始化 */
	ocr_det_init("ocr-det.model", &ocr_det_ctx);
	ocr_rec_init("ocr-rec.model", &ocr_rec_ctx);  

	struct timeval start;
    struct timeval end;
    float time_use=0;

	/* OCR算法检测模型运行 */
	ocr_det_result results;
    ocr_det_postprocess_params params;
    params.threshold = THRESHOLD;
    params.box_threshold = BOX_THRESHOLD;
    params.use_dilate = USE_DILATION;
    params.db_score_mode = (char*)"slow";
    params.db_box_type = (char*)"poly";
    params.db_unclip_ratio = DB_UNCLIP_RATIO;

	gettimeofday(&start,NULL); 
	int ret;
    ret = ocr_det_run(&ocr_det_ctx, rgb_img, ¶ms, &results);
    if (ret != 0) {
        printf("inference_ppocr_rec_model fail! ret=%d\n", ret);
    }

    gettimeofday(&end,NULL);
    time_use=(end.tv_sec-start.tv_sec)*1000000+(end.tv_usec-start.tv_usec);//微秒
    printf("time_use is %f\n",time_use/1000);

	/* 截取文字信息和画框 */
    printf("DRAWING OBJECT\n");
    for (int i = 0; i < results.count; i++)
    {
        printf("[%d]: [(%d, %d), (%d, %d), (%d, %d), (%d, %d)] %f\n", i,
            results.box[i].left_top.x, results.box[i].left_top.y, results.box[i].right_top.x, results.box[i].right_top.y, 
            results.box[i].right_bottom.x, results.box[i].right_bottom.y, results.box[i].left_bottom.x, results.box[i].left_bottom.y,
            results.box[i].score);

        line(input_image, Point(results.box[i].left_top.x, results.box[i].left_top.y), Point(results.box[i].right_top.x, results.box[i].right_top.y),
             Scalar(0, 255, 0), 1, LINE_AA);
        line(input_image, Point(results.box[i].right_top.x, results.box[i].right_top.y), Point(results.box[i].right_bottom.x, results.box[i].right_bottom.y), 
             Scalar(0, 255, 0), 1, LINE_AA);
        line(input_image, Point(results.box[i].right_bottom.x, results.box[i].right_bottom.y), Point(results.box[i].left_bottom.x, results.box[i].left_bottom.y), 
             Scalar(0, 255, 0), 1, LINE_AA);
        line(input_image, Point(results.box[i].left_bottom.x, results.box[i].left_bottom.y), Point(results.box[i].left_top.x, results.box[i].left_top.y), 
             Scalar(0, 255, 0), 1, LINE_AA);

		cv::Mat rgb_crop_image = GetRotateCropImage(rgb_img, results.box[i]);

		/* OCR算法识别模型运行 */
		ocr_rec_result rec_results;
		ocr_rec_run(&ocr_rec_ctx, rgb_crop_image, &rec_results);

		// print text result
    		printf("regconize result: %s, score=%f\n", rec_results.str, rec_results.score);
    }
    cv::imwrite("result.jpg", input_image);
	return 0;
}
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux
    +关注

    关注

    88

    文章

    11810

    浏览量

    219513
  • 瑞芯微
    +关注

    关注

    27

    文章

    844

    浏览量

    54647
  • EASY-EAI灵眸科技

    关注

    4

    文章

    95

    浏览量

    3721
  • RV1126B
    +关注

    关注

    0

    文章

    83

    浏览量

    240
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    (EASY EAI)RV1126B 音频输入

    1.声卡资源介绍EASY-EAI-Nano-TB仅有一块由RV1126B主控输出的声卡。通过串口调试或ssh调试,可以进入开发板终端。执行aplay命令查看声卡相关的详细信息,如下所示
    的头像 发表于 12-18 13:41 2554次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> 音频输入

    (EASY EAI)RV1126B PWM使用

    1.PWM简介1.1开发板PWM资源1.2查找PWM节点rv1126b的pwm资源表如下:【PWM1CH0】对应的是pwm1_4ch_0,寄存地址为20700000。【PWM1CH1】对应
    的头像 发表于 01-06 10:49 8174次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> PWM使用

    (EASY EAI)RV1126B 音频输出

    1.声卡资源介绍EASY-EAI-Nano-TB仅有一块由RV1126B主控输出的声卡。通过串口调试或ssh调试,可以进入开发板终端。执行aplay命令查看声卡相关的详细信息,如下所示
    的头像 发表于 04-01 17:13 8503次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> 音频输出

    EASY EAI Nano-TB(RV1126B)开发板试用】+初识篇

    Nano-TB是灵眸科技研发的一款应用于AIoT领域的开发板,它基于RV1126B处理器,集成了4个Cortex-A53及独立的NEON协处理器,它支持4K@30fps的H.
    发表于 10-25 22:06

    EASY EAI Nano-TB(RV1126B)开发板试用】命令行功能测试-shell脚本进行IO控制-灯闪

    接上文【EASY EAI Nano-TB(RV1126B)开发板试用】开箱测评 https://pan.baidu.com/s/15pnbJXPN5TrfV2KfsKaZyQ?pwd=1234 打开
    发表于 11-01 21:26

    EASY EAI Nano-TB(RV1126B)开发板试用】命令行功能测试-shell脚本进行IO控制-红绿灯项目

    接上文【EASY EAI Nano-TB(RV1126B)开发板试用】通过wifi连接,使用ssh登录EASY EAI Nano-TB(
    发表于 11-02 18:34

    EASY EAI Nano-TB(RV1126B)开发板试用】命令行功能测试-shell脚本进行IO控制-红绿灯按钮项目

    0接上文【EASY EAI Nano-TB(RV1126B)开发板试用】命令行功能测试-shell脚本进行IO控制-红绿灯项目-实现开机起动 EASYEAINano-TB(RV1126B
    发表于 11-03 10:00

    EASY EAI Nano-TB(RV1126B)开发板试用】+1、开箱上电

    ,避免因接触不良导致显示或采集异常。 2 硬件解析:强劲AI核心与丰富接口 2.1 核心处理器性能 EASY EAI Nano-TB开发板的核心基于
    发表于 11-19 21:39

    EASY EAI Nano-TB(RV1126B)开发板试用】介绍、系统安装

    ,并介绍了系统镜像安装部署的相关流程。 介绍 EASY-EAI-Nano-TB是灵眸科技研发的一款应用于AIoT领域的AIOT主板。 核心板基于
    发表于 12-23 18:05

    【飞凌嵌入式RV1126B开发板试用体验】初识飞凌嵌入式RV1126B开发板试

    排列也整齐合理。下面是飞凌嵌入式RV1126B开发板的详细介绍,文字中有链接可以到达飞凌嵌网站做详细了解。 飞凌嵌入式RV1126B 是由保定飞凌嵌入式技术有限公司基于
    发表于 04-13 17:27

    RV1126系列选型指南:从RV1126RV1126B,一文看懂升级差异

    2025年7月,正式发布新一代AI视觉芯片RV1126B。作为其金牌方案商,EASYEAI灵眸科技同步推出搭载该芯片的AIoT核心板EAI11
    的头像 发表于 09-04 10:50 5086次阅读
    <b class='flag-5'>RV1126</b>系列选型指南:从<b class='flag-5'>RV1126</b>到<b class='flag-5'>RV1126B</b>,一文看懂升级差异

    【免费试用】EASY EAI Nano-TB(RV1126B)开发套件评测

    EASY-EAI-Nano-TB是灵眸科技研发的一款应用于AIoT领域的AIOT主板。核心板基于RV1126B处理器设计,并引入了新
    的头像 发表于 09-23 08:09 1234次阅读
    【免费试用】<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b> Nano-TB(<b class='flag-5'>RV1126B</b>)开发套件评测

    RV1126B特性概述

    RV1126BRockchip在2025年第二季度全新推出的Arm架构AI视觉芯片,搭载4核Cortex-A53与自研3Tops算力NPU。全面替代上一代的
    的头像 发表于 10-09 11:22 2138次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b><b class='flag-5'>RV1126B</b>特性概述

    替代升级实锤!实测RV1126B,CPU性能吊打RV1126

    AI智能芯片迭代提速,推出了全新的Arm架构AI视觉芯片RV1126B,是否替换RV1126,CPU性能是挤牙膏还是大突破。带着这些核
    的头像 发表于 12-11 17:13 2513次阅读
    替代升级实锤!实测<b class='flag-5'>RV1126B</b>,CPU性能吊打<b class='flag-5'>RV1126</b>

    (EASY EAI)RV1126B 人体关键点识别

    的特点。本人员检测算法在数据集表现如下所示:基于EASY-EAI-Nano-TB(RV1126B)硬件主板的运行效率:17个人体关键点索引定义:2.快速上手2.1开发
    的头像 发表于 01-23 10:13 3502次阅读
    <b class='flag-5'>瑞</b><b class='flag-5'>芯</b><b class='flag-5'>微</b>(<b class='flag-5'>EASY</b> <b class='flag-5'>EAI</b>)<b class='flag-5'>RV1126B</b> 人体关键点<b class='flag-5'>识别</b>