0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

适用于MobileNets的易于量化可分离卷积架构

Tensorflowers 来源:未知 作者:胡薇 2018-10-09 08:55 次阅读

IEEE LPIRC 挑战赛

低功耗图像识别挑战赛 (LPIRC)是一年一度的竞赛,主要从准确度、执行时间和能量消耗方面评估计算机视觉技术。今年的竞赛由 Google 和 Facebook 赞助,共分为三个赛道,其中赛道 1 的挑战目标是使用由Qualcomm Snapdragon 835 移动平台支持的 Pixel 2 智能手机,在 10 分钟的时间限制内处理 20000 张图像,同时最大程度地保证图像分类的准确度。此次竞赛使用大型数据集作为训练数据,其中包含大约 120 万张 JPEG 图像,涵盖 1000 个不同类别,同时使用 Holdout 图像集作为测试数据。

现实世界需要能够在移动设备上实时运行且可准确进行图像分类的神经网络模型,此项公开竞赛正是为此目的而举行。除准确度以外,计算效率对电池供电设备也至关重要。在竞赛中,我们团队将易于量化的 MobileNet V2 架构与先进的量化后方案结合使用,并因绝佳速度和准确度拔得头筹。我们使用每层计算好的最小和最大值插入 FakeQuantization 节点,以修改 TensorFlow 中的图表,并使用 TensorFlow Lite 将图表转化为用于硬件部署的.tflite 文件。

Qualcomm Canada Inc 的团队成员:Parker Zhang、Liang Shen、Chen Feng、Terry Sheng、Jay Zhuo 和 Zhiyu Liang

我们的模型在单个 ARM CPU 上的每次推理中以 28 毫秒识别 20000 张图像时,实现了最高的准确度。

Qualcomm Technologies, Inc. 工程部副总裁 Mickey Aleksic 说:“此次挑战与我们的 AI 战略完美契合,而赢得这次竞赛对于确立 Qualcomm Technologies 在机器学习中的重要地位以及推广设备中的 AI 大有帮助。”

实现设备上的极速图像识别

在边缘设备上准确快速地识别图像需要执行以下步骤:

创建和训练一个神经网络模型,从而以浮点运算对图像进行识别和分类。

将浮点模型转化为定点模型,后者可以在边缘设备上高效运行,而不会出现延迟和准确度问题。

我们团队的模型基于MobileNet v2构建,但以 “易于量化” 的方式进行了修改。虽然 Google 的 MobileNet 模型通过使用可分离卷积结构成功缩小了参数大小和计算延时,但直接量化预训练的 MobileNet v2 模型可能会造成准确度下降。我们的团队分析并找出了在此类可分离卷积网络中因量化而降低准确度的根本原因,并在不使用量化感知重新训练的情况下解决了此问题。通过量化感知训练,模型可获得良好的准确度,而我们的方法是一种替代方案,能够修改网络架构以解决量化问题,而无需重新训练。另一种更为端到端的方法是使用 Google 的 ML 框架Learn2Compress,通过优化多个网络架构和同时使用量化及其他技术(如提炼、剪枝和联合训练),直接从头开始训练高效的设备上模型或现有的 TensorFlow 模型。

模型架构

在可分离卷积结构中,我们将深度卷积分别应用于每个通道。但是,用于权重量化的最小和最大值是从所有通道中整体获取的。由于数据范围的扩大,某个通道中的异常值可能会导致整个模型的量化损失。如果未在不同通道中进行数据计算,深度卷积结构可能会在某个通道内产生全零值的权重,而这在 MobileNet v1 和 v2 模型中都很常见。某个通道中的全零值意味着偏差很小。在完成深度卷积后,直接应用批量归一化转换时,预计该特定通道的"缩放"值会较大。这会损害整个模型的表示能力。

我们的团队提出一种易于量化的高效可分离卷积架构作为解决方案,将深度和逐点卷积层之间的非线性操作(批量归一化和 ReLU6)全部移除,让网络学习合适的权重来直接处理批量归一化转换。此外,我们还将所有逐点卷积层中的 ReLU6 替换为 ReLU。在使用 MobileNet v1 和 v2 模型进行的多项试验中,此架构在 8 位量化通道中展示出显著的准确度提升。

量化后技术

定义模型结构后,您便可在数据集上训练浮点模型。在量化后步骤中,我们使用各种不同的输入内容并针对训练数据中各个类别的单张图像运行模型,以收集最小和最大值以及每层输出的数据直方图分布。我们选取最佳 “步长” 和 “偏移” 值(用 ∆ 表示)以用于线性量化,这可以在贪婪搜索期间最大限度地减小量化损失和饱和损失的总量。根据计算出的最小和最大值范围,TensorFlow Lite 提供了将图表模型转化为.tflite 模型的路径,以便在边缘设备上部署模型。

Qualcomm Technologies, Inc 的 Ning Bi(上图右侧中间)代表团队领奖

结论

将计算移至 8 位并保留较高的准确度是在边缘设备上快速高效地运行模型的关键步骤。我们的团队发现了此量化问题,分析并找出其根本原因,然后解决了此问题。之后,我们将这些发现应用于图像分类挑战赛,并看到我们的理论成果变为了现实。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像识别
    +关注

    关注

    8

    文章

    447

    浏览量

    37908
  • Qualcomm
    +关注

    关注

    8

    文章

    667

    浏览量

    51693

原文标题:实现设备上的节能图像识别 — Qualcomm Technologies 的方法

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    磁珠有什么功能?适用于哪些行业?

    磁珠有什么功能?适用于哪些行业? 磁珠是一种具有磁性的微小颗粒,通常由磁性材料如氧化铁或钴合金制成。磁珠具有许多独特的功能和用途,广泛应用于各个行业。在本文中,我将详细介绍磁珠的功能以及适用的行业
    的头像 发表于 01-11 15:59 282次阅读

    适用于电表的防干扰隔离反激式电源

    适用于电表的防干扰隔离反激式电源
    的头像 发表于 12-06 16:10 300次阅读
    <b class='flag-5'>适用于</b>电表的防干扰隔离反激式电源

    IGBT适用于ZVS 还是 ZCS?

    IGBT适用于ZVS 还是 ZCS?
    的头像 发表于 12-01 16:10 600次阅读
    IGBT<b class='flag-5'>适用于</b>ZVS 还是 ZCS?

    易于入门适用于驱动电机控制的32位MCU RH850/C1M-A

    电子发烧友网站提供《易于入门适用于驱动电机控制的32位MCU RH850/C1M-A.pdf》资料免费下载
    发表于 09-20 09:13 0次下载
    <b class='flag-5'>易于</b>入门<b class='flag-5'>适用于</b>驱动电机控制的32位MCU RH850/C1M-A

    适用于戴尔易安信的博科网络企业混合云

    电子发烧友网站提供《适用于戴尔易安信的博科网络企业混合云.pdf》资料免费下载
    发表于 08-28 10:56 0次下载
    <b class='flag-5'>适用于</b>戴尔易安信的博科网络企业混合云

    ODU TURNTAC®,适用于车制与开槽针孔

    ODU TURNTAC, 即使在恶劣环境下也适用的车制、开槽针孔 车制、开槽针孔 坚固的针孔系统,适用于恶劣的环境 10,000次插拔 低而稳定的插拔配合力 尽可能小的尺寸,针孔直径低至0.3mm
    的头像 发表于 08-15 09:50 270次阅读
    ODU TURNTAC®,<b class='flag-5'>适用于</b>车制与开槽针孔

    高压连接线可分离性电蜂

    高压连接线的可分离性在许多应用场景中都非常有用。例如,在航空航天领域,高压连接线经常需要安装在狭小的空间中,插拔高压连接线时需要小心避免插针或插孔受到损坏。
    的头像 发表于 07-26 09:53 385次阅读
    高压连接线<b class='flag-5'>可分离</b>性电蜂

    69.6 6 深度可分离卷积网络

    数据网络应用程序
    充八万
    发布于 :2023年07月20日 23:33:59

    适用于5G-V2X和DSRC的高级连接架构

    商用车中的当今无线连接架构 可能适用于自动驾驶的标准 2 级。然而 它是否能满足 3 级的性能要求仍然值得怀疑 及以上。在此背景下,我们提出了未来的连接架构 自动驾驶汽车。它基于远程无线电头(RRH
    的头像 发表于 06-15 15:10 770次阅读
    <b class='flag-5'>适用于</b>5G-V2X和DSRC的高级连接<b class='flag-5'>架构</b>

    适用于Arduino的Adafruit NeoPixel Shield

    电子发烧友网站提供《适用于Arduino的Adafruit NeoPixel Shield.zip》资料免费下载
    发表于 06-09 10:27 0次下载
    <b class='flag-5'>适用于</b>Arduino的Adafruit NeoPixel Shield

    是否有适用于LPC4357的替代屏幕?

    我正在考虑使用 LPC4357-K43WQA 开发板开始一些开发。它适用于需要 LCD 屏幕的项目。LPC ARM 设备是我们在这里体验最多的,因此使用 LPC4357 并带有 LCD 屏幕的开发板
    发表于 06-02 07:57

    jscrane/TTS库不适用于NodeMCU 1.0吗?

    该库适用于 arduino nano,但我无法让它适用于 NodeMCU 1.0 esp8266。该库将文本转换为使用 PWM 信号生成为音频的现象。库 2 的 github 页面在其自述文件中确实
    发表于 06-01 06:01

    如何调整CapSense库以使其适用于ESP8266架构

    知道如何调整 CapSense 库以使其适用于 ESP8266 架构?或者是否有适用于 ESP8266 的电容式触摸解决方案?
    发表于 05-22 10:01

    德索谈LVDS连接器可分离性的需求

    德索五金电子工程师指出,LVDS连接器是一种电机系统,其可提供可分离的界面用以连接两个次电子系统,并且对于系统的运作不会产生不可接受的作用。可分离的和不可接受的作用。LVDS连接器是一种电机系
    的头像 发表于 05-06 17:19 275次阅读
    德索谈LVDS连接器<b class='flag-5'>可分离</b>性的需求

    德索讲解LVDS连接器结构可分离

    德索五金电子工程师指出,LVDS连接器在机电体系可提供连接两个可分离子电子系统的接口,以及用于该系统的操作不会产生不可接受的影响。定义中关键词是 电机系统 ,可分离的 和不可接受的作用 。 连接器
    的头像 发表于 04-28 14:34 373次阅读
    德索讲解LVDS连接器结构<b class='flag-5'>可分离</b>性