如何使用TensorFlow Lite从Android设备图像提取文本-电子发烧友网

俗话说：“一图胜千言”。图像包含丰富的视觉信息，但有时关键信息位于图像的文本当中。虽然识字的人可以轻松理解图像中嵌入的文字，但我们如何利用计算机视觉和机器学习来教计算机做到这一点呢？

今天，我们将向您展示如何使用 TensorFlow Lite 从 Android 设备上的图像中提取文本。我们将引导您完成最近开源的光学字符识别（OCR） Android 参考应用的关键步骤，您可参考该处获取完整代码。在下方动画中，可以看到该应用如何从三款 Google 产品徽标图片中提取产品名称。

该处

https://github.com/tensorflow/examples/tree/master/lite/examples/optical_character_recognition/android

从图像中识别文本的过程即为 OCR，该技术在多个领域中广泛使用。例如，Google 地图运用 OCR 技术从地理定位图像中提取信息，进而完善 Google 地图。

Google 地图运用 OCR 技术

https://ai.googleblog.com/2017/05/updating-google-maps-with-deep-learning.html

一般来说，OCR 是一个包含多个步骤的流水线。相关步骤通常包含文本检测和文本识别：

使用文本检测模型查找文本周围的边界框；

执行一些后处理操作，以转换边界框；

将这些边界框内的图像转换为灰度图像，如此一来，文本识别模型便可绘制出文字和数字。

在示例中，我们将利用 TensorFlow Hub 中的文本检测和文本识别模型。多个不同的模型版本可用来权衡速度/准确率的取舍；我们在此使用的是 float16 量化模型。如需有关模型量化的更多信息，请参阅 TensorFlow Lite 量化文档。

文本检测

https://hub.tensorflow.google.cn/sayakpaul/lite-model/east-text-detector/fp16/1

文本识别

https://hub.tensorflow.google.cn/tulasiram58827/lite-model/keras-ocr/float16/2

TensorFlow Lite 量化

https://tensorflow.google.cn/lite/performance/model_optimization

我们还会使用 OpenCV，这是一款广泛使用的计算机视觉库，适用于非极大值抑制（NMS）和透视变换（我们稍后会对此展开讨论），以对检测结果进行后处理。此外，我们还会使用 TFLite 支持库对图像进行灰度和标准化处理。

非极大值抑制

https://www.coursera.org/lecture/convolutional-neural-networks/non-max-suppression-dvrjH

TFLite 支持库

https://tensorflow.google.cn/lite/inference_with_metadata/lite_support

对于文本检测，由于检测模型支持 320x320 的固定像素，我们会使用 TFLite 支持库调整输入图像的大小并对其进行标准化处理：

检测模型

https://hub.tensorflow.google.cn/sayakpaul/lite-model/east-text-detector/fp16/1

val imageProcessor =

ImageProcessor.Builder（）.add（ResizeOp（height， width， ResizeOp.ResizeMethod.BILINEAR））.add（NormalizeOp（means， stds））.build（）

var tensorImage = TensorImage（DataType.FLOAT32）

tensorImage.load（bitmapIn）

tensorImage = imageProcessor.process（tensorImage）

接下来，我们使用 TFLite 运行检测模型：

detectionInterpreter.runForMultipleInputsOutputs（detectionInputs， detectionOutputs）

检测模型的输出是一些经过旋转且图像内包含文本的边界框。我们会运行非极大值抑制，借助 OpenCV 为每个文本块确定一个边界框：

NMSBoxesRotated（

boundingBoxesMat，

detectedConfidencesMat，

detectionConfidenceThreshold.toFloat（），

detectionNMSThreshold.toFloat（），

indicesMat

）

有些时候，图像内的文本会出现变形（例如，我的笔记本电脑上的“kubernetes”贴纸），并伴随一个透视角度：

如果我们只是将原始旋转边界框直接“喂”给识别模型，则该模型不太可能正确识别字符。在本例中，我们需要使用 OpenCV 来进行透视变换：

val rotationMatrix = getPerspectiveTransform（srcPtsMat， targetPtsMat）

warpPerspective（

srcBitmapMat，

recognitionBitmapMat，

rotationMatrix，

Size（recognitionImageWidth.toDouble（）， recognitionImageHeight.toDouble（）））

之后，我们会再次使用 TFLite 支持库，在边界框内调整变换图像的大小，并对其进行灰度和归一化处理：

val imageProcessor =

ImageProcessor.Builder（）.add（ResizeOp（height， width， ResizeOp.ResizeMethod.BILINEAR））.add（TransformToGrayscaleOp（））.add（NormalizeOp（mean， std））.build（）

最后，我们会运行文本识别模型、根据模型输出绘制出字符与数字，然后更新应用界面：

recognitionInterpreter.run（recognitionTensorImage.buffer， recognitionResult）

var recognizedText = “”for （k in 0 until recognitionModelOutputSize） {

var alphabetIndex = recognitionResult.getInt（k * 8）if（alphabetIndex in 0..alphabets.length - 1）

recognizedText = recognizedText + alphabets［alphabetIndex］}

Log.d（“Recognition result：”， recognizedText）if （recognizedText ！= “”） {

ocrResults.put（recognizedText， getRandomColor（））}

这样就完成了，就是这么简单。此时，我们可以在我们的应用中使用 TFLite 来提出输入图像中的文本。

最后我想指出的是，如果您只是需要一个即用型 OCR SDK，您可以直接使用 Google ML Kit 的文字识别功能。ML Kit 底层使用了 TFLite，并且对于大多数 OCR 用例而言足矣。在以下情况下，您可以使用 TFLite 来构建专属 OCR 解决方案：

您有自己想要使用的专属文本检测/识别 TFLite 模型；

您有特殊的业务需求（例如识别颠倒的文本），并且需要自定义 OCR 流水线；

您希望支持 ML Kit 没有覆盖的语言；