OpenVINO2021.4版本中场景文字检测与识别模型的推理使用-电子发烧友网

场景文字检测与识别模型

OpenVINO2021.4支持场景文字检测是基于MobileNetV2的PixelLink模型，模型有两个分别是text-detection-0003与text-detection-0004。以text-detection-0003模型为例它有两个输出，分别是分割输出与bounding Boxes输出

下面是基于VGG16作为backbone实现的PixelLink的模型。

最终得到输出text/notext的mask区域，对mask区域简单处理之后就会得到每个场景文字区域的ROI。关于后处理，再后续的会有详细代码演示。OpenVINO2021.4不仅支持场景文字的检测还支持场景文字的识别，支持场景文字识别的模型是基于VGG16+双向LSTM，识别0~9与26个字符加空白，并且非大小写敏感！

模型输入与输出格式

PixelLink场景文字检测模型的输入与输出格式如下：

输入格式：1x3x768x1280 BGR彩色图像

输出格式：

name： “model/link_logits_/add”，［1x16x192x320］ – pixelLink的输出

name： “model/segm_logits/add”，［1x2x192x320］ – 像素分类text/no text

图-3文本识别模型的输入与输出格式如下：

输入格式：1x1x32x120

输出格式：30， 1， 37

输出解释是基于CTC贪心解析方式。

其中37字符集长度，字符集为：

0123456789abcdefghijklmnopqrstuvwxyz#

#表示空白。

同步与异步推理

在OpenVINO的IE推理模块相关SDK支持同步与异步推理模型，同步的意思是阻塞直到返回结果，异步就是调用推理之后直接返回，接受到处理完成通知之后再解析输出，相比同步方式，异步推理更加适合视频流多路推理的方式。异步推理的执行方式大致如下：

// start the async infer request （puts the request to the queue and immediately returns）

async_infer_request-》StartAsync（）;

// here you can continue execution on the host until results of the current request are really needed

//。。。

async_infer_request.Wait（IInferRequest：：RESULT_READY）;

auto output = async_infer_request.GetBlob（output_name）;

场景文字检测代码演示

OpenVINO2021.4中场景文字检测的，以text-detection-0003为例。加载模型文件与获取推理请求等与之前的保持一致，无需再说，这里主要是PixelLink模型的输出解析部分，它的解析部分代码如下：

cv：：Mat mask = cv：：Size（out_w， out_h）， CV_8U）;

int step = out_h*out_w;

for （int row = 0; row 《 out_h; row++） {

for （int col = 0; col 《 out_w; col++） {

float p1 = detection_out［row*out_w + col］;

float p2 = detection_out［step + row*out_w + col］; // text

if （p2》1.0） {

mask.at《uchar》（row， col） = 255;

}

cv：：resize（mask， mask， cv：：Size（im_w， im_h））;

std：：vector《std：：vector《cv：：Point》》 contours;

cv：：findContours（mask， contours， cv：：RETR_EXTERNAL， cv：：CHAIN_APPROX_SIMPLE）;

对输出的Mask数据，完成text与非text的分类，得到二值图象，然后对二值图象完成轮廓发现，根据轮廓发现的的结果输出最大/最小外接矩形，得到每个Text区域的检测结果，最终模型的运行结果如下：

场景文字识别代码演示

场景文字识别是基于场景文字检测模型输出得到的TEXT区域作为输入，基于灰度图象预测输出，使用text-recognition-0012模型。关于模型加载、输入与输出设置同样不再赘述，检测得到TEXT的ROI作为输入，推理与预测文字及显示的代码如下：

auto reco_output = reco_request.GetBlob（reco_output_name）;

const float* blob_out = static_cast《PrecisionTrait《Precision：：FP32》：：value_type*》（reco_output-》buffer（））;

const SizeVector reco_dims = reco_output-》getTensorDesc（）.getDims（）;

const int RW = reco_dims［0］;

const int RB = reco_dims［1］;

const int RL = reco_dims［2］;

std：：string ocr_txt = ctc_decode（blob_out， RW， RL）;

std：：cout 《《 ocr_txt 《《 std：：endl;

cv：：putText（src， ocr_txt， box.tl（）， cv：：FONT_HERSHEY_PLAIN， 1.0， cv：：Scalar（255， 0， 0）， 1）;

其中RWxRBxRL=30x1x37，CTC解析的函数ctc_decode实现代码如下：

std：：string ctc_decode（const float* blob_out， int seq_w， int seq_l） {

printf（“seq width： %d， seq length： %d ”， seq_w， seq_l）;

std：：string res = “”;

bool prev_pad = false;

const int num_classes = alphabet.length（）;

int seq_len = seq_w*seq_l;

for （int i = 0; i 《 seq_w; i++） {

int argmax = 0;

int max_prob = blob_out［i*seq_l］;

for （int j = 0; j 《num_classes; j++） {

if （blob_out［i*seq_l + j］》 max_prob） {

max_prob = blob_out［i*seq_l + j］;

argmax = j;

}

auto symbol = alphabet［argmax］;

if （symbol == ‘#’） {

prev_pad = true;

}

else {

if （res.empty（） || prev_pad || （！res.empty（） && symbol ！= res.back（））） {

prev_pad = false;

res += symbol;

}

return res;

}

解析过程就是对得到二维矩阵30x37，按行先做argmax，然后再去掉重复，最终得到预测生成的text文本返回。

总结

本文主要讲述了OpenVINO2021.4版本中场景文字检测与识别模型的推理使用，以及同步与异步推理的的基本概念。特别值得注意的是场景文字识别模型是基于灰度图象不是RGB彩色图象，如果搞错这点就会得到错误的文本预测结果。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

RGB

RGB

+关注

关注
4

文章
763

浏览量
57406
识别

识别

+关注

关注
3

文章
170

浏览量
31859
vgg

vgg

+关注

关注
1

文章
11

浏览量
5145
LSTM

LSTM

+关注

关注
0

文章
42

浏览量
3681

原文标题：OpenVINO™ 场景文字识别与同步与异步推理

文章出处：【微信号：英特尔物联网，微信公众号：英特尔物联网】欢迎添加关注！文章转载请注明出处。

HarmonyOS：使用MindSpore Lite引擎进行模型推理

场景介绍 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件设备 AI 模型推理的功能，目前已经在图像分类、目标识别、人脸识别

发表于 12-14 11:41

同步模式下OpenVINO2023 SDK的推理方式

OpenVINO2023版本的SDK支持同步与异步推理模式相比之前OpenVINO2021版本更加的简洁，易用。同时支持创建多个Requst

发表于 11-21 10:03 •508次阅读

NNCF压缩与量化YOLOv8模型与OpenVINO部署测试

OpenVINO2023版本衍生出了一个新支持工具包NNCF(Neural Network Compression Framework – 神经网络压缩框架)，通过对OpenVINO IR格式

发表于 11-20 10:46 •898次阅读

基于OpenVINO+OpenCV的OCR处理流程化实现

预处理主要是基于OpenCV、场景文字检测与识别基于OpenVINO框架 + PaddleOCR模型

发表于 11-07 11:21 •382次阅读

基于OpenVINO Python API部署RT-DETR模型

RT-DETR 是在 DETR 模型基础上进行改进的，一种基于 DETR 架构的实时端到端检测器，它通过使用一系列新的技术和算法，实现了更高效的训练和推理，我们将在 Python、C++、C# 三个

发表于 10-20 11:15 •532次阅读

OpenVINO场景文字检测与文字识别教程

OpenVINO是英特尔推出的深度学习模型部署框架，当前最新版本是OpenVINO2023版本。Open

发表于 09-24 15:31 •725次阅读

opencv_videoio_ffmpeg_64.dll缺失，无法在OpenVINO trade中配置OpenCV怎么处理？

] global C:\\jenkins\\workspace\\OpenCV\\OpenVINO\\2021.4\\build\\windows\\opencv\\modules\\videoio

发表于 08-15 08:24

如何在OpenVINO工具包中使用带推理引擎的blob？

无法确定如何在OpenVINO™工具包中使用带推理引擎的 blob。

发表于 08-15 07:17

无法在OpenVINO工具套件中使用ENetwork.层怎么解决？

在 OpenVINO™ 工具套件 2021.4 中使用 IENetwork.层。收到错误：openvino.inference_engine.ie_api。IENetwork 对象没有属性“层”

发表于 08-15 06:41

三种主流模型部署框架YOLOv8推理演示

部署。这里以YOLOv8为例，演示了YOLOv8对象检测模型在OpenVINO、ONNXRUNTIME、TensorRT三个主流框架上C++推理演示效果。

发表于 08-06 11:39 •1839次阅读

没有“中间商赚差价”， OpenVINO™ 直接支持 PyTorch 模型对象

随着 OpenVINO 2023.0 版本的发布，OpenVINO 工具库中预置了全新的 PyTorch 前端，为开发者们提供了一条全新的 PyTorch 模型支持路径，带来更友好的用

发表于 06-27 16:39 •420次阅读

如何将Pytorch自训练模型变成OpenVINO IR模型形式

本文章将依次介绍如何将Pytorch自训练模型经过一系列变换变成OpenVINO IR模型形式，而后使用OpenVINO Python API 对IR

发表于 06-07 09:31 •1153次阅读

AI爱克斯开发板上使用OpenVINO加速YOLOv8目标检测模型

《在AI爱克斯开发板上用OpenVINO加速YOLOv8分类模型》介绍了在AI爱克斯开发板上使用OpenVINO 开发套件部署并测评YOLOv8的分类模型，本文将介绍在AI爱克斯开发板

发表于 05-26 11:03 •717次阅读

自训练Pytorch模型使用OpenVINO™优化并部署在AI爱克斯开发板

本文章将依次介绍如何将 Pytorch 自训练模型经过一系列变换变成 OpenVINO IR 模型形式，而后使用 OpenVINO Python API 对 IR

发表于 05-26 10:23 •622次阅读

在AI爱克斯开发板上用OpenVINO™加速YOLOv8目标检测模型

《在 AI 爱克斯开发板上用 OpenVINO 加速 YOLOv8 分类模型》介绍了在 AI 爱克斯开发板上使用 OpenVINO 开发套件部署并测评 YOLOv8 的分类模型，本文将

发表于 05-12 09:08 •844次阅读