如何在机器视觉中部署深度学习神经网络-电子发烧友网

图 1：基于深度学习的目标检测可定位已训练的目标类别，并通过矩形框（边界框）对其进行标识。

在讨论人工智能（AI）或深度学习时，经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概念对非专业人士而言往往难以理解，人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上，这种印象忽视了该技术为机器视觉（乃至生产自动化）带来的潜力，因为深度学习并非只属于计算机科学家或程序员。

从头开始：什么是深度学习？

作为机器学习的子集，深度学习基于多层神经网络，它们能够逼真地模拟人脑的复杂结构和过程，并独立做出决策。在全面的训练过程中，深度学习模型通过分析数据学习识别特定模式和关系。

那么，深度学习技术为何在机器视觉领域如此成功呢？因为机器视觉会产生海量的图像数据，这为神经网络的有效训练提供了完美基础。与此同时，用户也能从深度学习技术中获益：深度学习能提供的识别率达到了新的质量水平，这也使得全新的机器视觉自动化应用成为可能。

整体而言，深度学习为机器视觉注入了新的发展动力，因此越来越多人认为深度学习值得使用。许多大大小小的公司都在考虑引入AI或深度学习，但往往因某些顾虑而迟迟未有行动。实际上，使用该技术并不像他们想象的那么复杂，目前也有工具能简化深度学习的应用流程。

适配不同应用的深度学习方法

在落地实践中，最核心的问题是：你究竟想自动化什么任务？集成商、工厂运营商、机器制造商可使用的深度学习方法，正在不断增多。

（1）异常检测

异常检测能快速轻松地识别缺陷，使质量管理流程中的缺陷检测效率大大提高。其最大的优势在于：传统深度学习方法相比，该技术需要更少的训练数据—— 完整的训练只需 20~100 张图像。而且，异常检测仅需“正常图像”即可满足要求，这使训练数据集的生成速度大大加快。基于正常图像训练的异常检测模型，能够识别与训练图像的结构偏差（即异常），从而检测出此前未知的缺陷形态。

（2）全局背景异常检测

全局背景异常检测更进一步，它能识别全新的异常类型，如部件缺失、变形或排列错误。因此，缺陷检测不再局限于结构缺陷，还涵盖了逻辑异常，这为半导体制造中的印刷电路板检测、印刷验证等全新场景开辟了道路。

编辑

图2：基于深度学习的全局上下文异常检测技术，可以实现半导体生产中印刷电路板的可靠检测。

（3）分类

分类利用图像数据将对象归属于特定类别或等级，例如“合格品”或“不良品”。这使得每张图像都能以一定概率确定其所属类别。

（4）目标检测

基于深度学习的目标检测技术，能定位目标的位置并识别其类别。该过程能够识别不同目标类别和实例的各种目标实体，包括它们在图像中的位置。

（5）分割

基于深度学习的分割有两种类型：语义分割和实例分割。

· 语义分割：对经过训练的目标、结构和缺陷进行像素级精确定位。在此过程中，图像中的每个像素都会被分配类别标签，并基于训练数据“教导”模型，使其能够对新图像中的每个像素的所属类别进行高概率预测。这种方法使得执行此前无法实现或仅能通过大量编程工作才能完成的检测任务成为可能。

· 实例分割：结合了语义分割和目标检测的双重优势，能以像素级精度为不同目标分配类别标签。该技术特别适用于物体紧密排列、相互接触或重叠的应用场景，典型应用包括从料箱中随机抓取散放工件（料箱随机抓取），以及识别和测量自然生长的结构。

（6）边缘提取

这是一种基于深度学习的可靠的创新性边缘提取方法，它能够从图像中大量可见的边缘中精准地提取目标边缘。该技术即使在低对比度或强噪声环境下也能稳定识别边缘，可提取传统边缘识别滤波器无法识别的边缘。该技术通常与基于规则的机器视觉方法结合使用。

图 3A：使用深度学习的光学字符识别（OCR）示例，即深度 OCR。

图3B：未使用深度学习时，光学字符识别（OCR）的结果精度低于深度 OCR。

（7）深度 OCR（光学字符识别）

基于深度学习算法的 OCR 被称为深度 OCR，即使在挑战性条件下（如识别倾斜文本、变形字符、印在或蚀刻在反光表面上的字符，或高纹理彩色背景上的字符）也能输出可靠结果。深度 OCR 可以自动对字符分组以识别单词，避免相似字符的误判，从而提升识别性能。

（8）深度计数

深度计数可快速定位和计数大量目标，不仅基于部件形状，还通过深度学习整合颜色、图案或纹理等其他特征。其显著优势在于，即使目标由高反光或无定形材料制成，也能实现可靠计数，还能可靠记录大量相互接触或部分重叠的目标。因此，该技术非常适合食品饮料行业中各类产品的计数，以及螺母、螺栓等小物件的精准包装核验。

深度学习的最佳应用场景在哪里？

深度学习开辟了全新的应用领域，让更多不熟悉机器视觉或不愿自己编写算法的人，也能使用机器视觉。AI系统通常可通过自有图像文件进行设置，其优势在于：通过训练神经网络，AI系统往往能比传统算法输出更可靠的检测结果。例如，当所有目标外观完全相同时，传统的匹配算法才表现良好；但当数据存在大量变化时（如果蔬的自然差异，此时很难提前明确定义传统特征，如怎样的表面算合格？），AI系统则更具优势。AI系统的另一个应用场景是对质量标准要求极高的生产制造领域。

图 4：深度计数可用于快速且可靠地对大量目标（如玻璃瓶）进行计数。

某些企业的生产线几乎零缺陷，因此无法为基于规则的系统提供缺陷样本图像——毕竟瑕疵可能万中无一，且缺陷形态事前无法预知。基于AI的异常检测技术此时便能大显身手：该技术无需预知缺陷特征，仅需学习良品特征即可建立检测模型。这类应用在传统规则编程框架下是无法实现的。

然而，实现完美机器视觉应用的最佳途径，在于将深度学习算法与基于规则的机器视觉技术双剑合璧。典型应用场景如下：企业利用AI进行预分类，以精准定位待测兴趣区域（ROI），再通过传统方法在该区域内执行高精度测量。这种协同策略不仅能提升整体检测效率，也能获得更准确的检测结果。

如何在机器视觉中启用深度学习？

要在机器视觉应用中部署深度学习，首先要构建经典的机器视觉硬件：包含工业相机、适配的光源及高性能计算设备（如配备高性能 CPU 或 GPU的工控机）。而整套系统的核心是强大的机器视觉软件，这可以从 MVTec 等多家公司获取。

（1）深度学习训练中的图像数据优化准备

实施深度学习应用需首先完成训练图像的标注——即在图像中标记出模型应输出的目标信息，包括图像类别或物体位置坐标。配备直观用户界面的标注软件，即使是不具备编程技能的初学者也能轻松操作。进行数据准备时需注意：图像数据必须经过优化处理。

值得注意的是，某些深度学习技术（如异常检测等无监督方法）仅需“正常图像”即可训练，通常获取20至100幅良品图像即可满足需求（具体数量需视被检物体状态而定）。训练过程更可一键启动。

（2）窥探深度学习的“黑箱”

尽管深度学习常因决策过程不透明而受到诟病，但是一些最新的技术进展正在逐步揭示神经网络的内在运作机制。例如，通过热力图工具高亮图像中的决策关键区域（如图5），这是追踪或影响深度学习算法行为的一种方式。

图5：热力图通过高亮图像中的决策依据区域，有效提升深度学习推理的透明度。

借助“分布外检测”（OOD）技术，可以在运行过程中识别由错误分类导致的意外行为，并采取相应措施。使用深度学习分类器时，系统通常会将未知目标分配到已学习的类别中，这可能会存在问题，尤其是在遇到之前从未见过的错误类型或异物时。这项新的深度学习功能，会在将未知目标分类到训练数据中未包含的范围时提醒用户。例如，若系统仅针对带红色标签或黄色标签的瓶子训练，当出现带绿色标签的瓶子时，会显示“分布外”消息，并附带 OOD 分数，以显示目标与已训练类别的偏离程度。

此外，还可以借助阈值来影响深度学习的结果。例如，为了进行异常检测，可以将阈值设置得很高，在这种情况下，你只会得到“正常”的结果。如果将阈值设置得较低，系统相应地会输出越来越少的 “正常” 结果，从而避免漏检。这使用户能够灵活且个性化地调整模型对异常情况的响应灵敏度。

在机器视觉中开启深度学习之路

如果企业想利用深度学习的诸多优势，就需要制定周全的策略，以目标导向的方式落地并长期应用这项技术。然而，与所有人工智能方法一样，深度学习也伴随着一定的复杂性。事实证明，机器视觉是这一背景下的关键技术——在该领域中，被证实的深度学习方法能够被高效且可获利地应用部署。

来源：半导体芯科技

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉