0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软亚研院提出用于语义分割的结构化知识蒸馏

电子工程师 来源:lp 2019-03-18 10:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天跟大家分享一篇关于语义分割的论文,刚刚上传到arXiv的CVPR 2019接收论文《Structured Knowledge Distillation for Semantic Segmentation》,通讯作者单位为微软亚洲研究院。

作者信息:

作者分别来自澳大利亚阿德莱德大学、微软亚洲研究院、北航、Keep公司、三星中国研究院,该文为第一作者Yifan Liu在微软亚洲研究院实习期间的工作。

该文研究了在语义分割模型的知识蒸馏中引入结构化信息的损失函数,在不改变模型计算量的情况下,使用该方法在Cityscapes数据集上mIoU精度取得了最高达15.17%的提升。

什么是知识蒸馏?

顾名思义,知识蒸馏是把知识浓缩到“小”网络模型中。一般情况下,在相同的数据上训练,模型参数量较大、计算量大的模型往往精度比较高,而用精度高、模型复杂度高的模型即Teacher网络的输出训练Student网络,以期达到使计算量小参数少的小网络精度提升的方法,就是知识蒸馏。

知识蒸馏的好处是显而易见的,使用知识蒸馏后的Student网络能够达到较高的精度,而且更有利于实际应用部署,尤其是在移动设备中。

下面两幅图中,作者展示了使用该文提出的结构化知识蒸馏的语义分割模型在计算量和参数量不变的情况下,精度获得了大幅提升。

算法原理

知识蒸馏的目标是希望对于Teacher网络和Student网络给定相同的图像,输出结果尽量一样。

所以,知识蒸馏的关键,是如何衡量Teacher网络和Student网络输出结果的一致性,也就是训练过程中的损失函数设计。

该文中作者将语义分割问题看为像素分类问题,所以很自然的可以使用衡量分类差异的逐像素(Pixel-wise)的损失函数Cross entropy loss,这是在最终的输出结果Score map中计算的。

同时作者引入了图像的结构化信息损失,如下图所示。

如何理解图像的结构化信息?一种很显然的结构化信息即图像中局部的一致性。在语义分割中,可以简单理解为,预测结果中存在的自相似性,作者衡量这种结构化信息的方式是Teacher预测的两像素结果和Student网络预测的两像素结果一致。衡量这种损失,作者称之为Pair-wise loss(也许可以翻译为“逐成对像素”损失)。

另一种更高层次的结构化信息是来自对图像整体结构相似性的度量,作者引入了对抗网络的思想,设计专门的网络分支分类Teacher网络和Student网络预测的结果,网络收敛的结果是该网络不能再区分Teacher网络和Student网络的输出。作者称这块损失函数为Holistic loss(整体损失)。

仔细想想,作者设计的损失函数的三部分,逐像素的损失(Pixel-wise loss,PI)、逐像素对的损失(Pair-wise loss,PA)、整体损失(Holistic loss,HO)都很有道理,是不是?

作者使用ResNet18网络模型在Cityscapes数据集上研究了作者提出的损失函数各部分对结果的影响。(ImN代表用ImageNet预训练模型初始化网络)

结果如下图。

可知,作者提出的损失函数的各个部分都能使得Student网络获得精度增益,最高达15.17%!CV君发现逐像素对的损失(Pair-wise loss,PA)获得的增益最大。

实验结果

作者使用多个轻量级网络模型,在三个主流语义分割数据库上进行了实验。

下图为在Cityscapes数据集上的结果,使用该文方法知识蒸馏后Student网络精度获得了大幅提升!

下图为一些预测结果示例,视觉效果上改进明显。

下图为在CamVid数据集上的结果,同样改进明显。

CamVid数据集上的Student网络预测示例,视觉上也好了很多。

下图为在ADE20K数据集上的实验结果,同样所有网络模型的精度都获得了大幅提升!

目前还未发现该文作者公布代码。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6719

    浏览量

    107340
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66829
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26044

原文标题:微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    结构化布线中使用电缆标签的4个主要优势

    在现代通信和网络基础设施建设中,结构化布线系统扮演着至关重要的角色。它不仅确保了网络的高效传输和稳定运行,还为未来的扩展和维护提供了便利。而在结构化布线中,电缆标签的使用虽看似是一个小小的细节,却能
    的头像 发表于 11-24 10:34 163次阅读

    北京迅为itop-3588开发板NPU例程测试deeplabv3 语义分割

    北京迅为itop-3588开发板NPU例程测试deeplabv3 语义分割
    的头像 发表于 07-22 15:51 813次阅读
    北京迅为itop-3588开发板NPU例程测试deeplabv3 <b class='flag-5'>语义</b><b class='flag-5'>分割</b>

    智能体AI面临非结构化数据难题:IBM推出解决方案

    ,同时提供一个开放的混合数据基础架构和企业级的结构化和非结构化数据管理。 智能体AI面临非结构化数据难题:IBM推出解决方案 测试结果显示,与传统RAG相比,IBM watsonx.data的AI准确性
    的头像 发表于 07-02 09:40 383次阅读

    从零到一:如何利用非结构化数据中台快速部署AI解决方案

    在企业数字转型的浪潮中,AI已从概念走向落地应用。然而,真正能高效、安全地部署AI解决方案的企业仍属少数,瓶颈往往出在“数据”——尤其是非结构化数据的管理与应用上。文件、音频、视频、图像、邮件
    的头像 发表于 04-14 13:50 598次阅读

    AI知识库的搭建与应用:企业数字转型的关键步骤

    和应用数据,从而为AI应用提供源源不断的支持,帮助企业实现全面的数字转型。   AI知识库的定义与作用   AI知识库是一个由结构化和非结构化
    的头像 发表于 03-27 15:18 1076次阅读

    VirutualLab Fusion应用:结构光照明的显微镜系统

    摘要 与阿贝理论预测的分辨率相比,用于荧光样品的结构照明显微镜系统可以将显微镜系统的分辨率提高2倍。 VirutualLab Fusion提供了一种通过入射波属性来研究结构化照明模式的快速方法
    发表于 03-21 09:26

    华KB Insight智能知识管理工具加速工业智能

    为应对新型工业进程中“经验未数字”与“数据未业务”的双重困局,华 IoTSuite 工业物联网平台 & AIoT 数智应用开发工具包全新发布又一利器—— KB Insight
    的头像 发表于 03-10 10:18 904次阅读

    DeepSeek赋能,华KB Insight引领工业知识管理革命

    在面对制造业占比超80%的非结构化数据情况下,华KB Insight知识管理平台借助于DeepSeek多模态处理技术,搭建核心处理框架,将加速各类知识库的建设与完善,为企业数字
    的头像 发表于 03-07 14:29 572次阅读

    结构化数据中台:企业AI应用安全落地的核心引擎

    在数字转型浪潮中,非结构化数据(如文档、图片、音视频等)已成为企业核心资产,其价值挖掘能力直接影响AI应用的效能与安全性。然而,数据分散、多模态处理复杂、安全合规风险高等问题,严重制约了企业AI
    的头像 发表于 02-27 17:06 839次阅读

    ShiMetaOS | 怎样免费调用人脸识别模块以及视频结构化分析软件API

    ShiMetaOS内置视美泰自人脸识别模块及视频结构化分析软件API,可在设备端免费实现本地智能安防服务:涵盖精准人脸检测跟踪、高速人脸搜索比对、活体及人证精准比对、人脸属性精细识别,能实时预警
    的头像 发表于 02-05 17:09 994次阅读
    ShiMetaOS  | 怎样免费调用人脸识别模块以及视频<b class='flag-5'>结构化</b>分析软件API

    基于微软专利的带蝴蝶出瞳扩展的光波导结构

    到出射耦合的传播过程中分割视场的系统。一个非常流行的方法是所谓的 \"蝴蝶出瞳扩展\",即在FOV的正负部分使用两个独立的EPE光栅区域,这也被应用于微软的Hololens2。在这
    发表于 01-24 08:41

    大连理工提出基于Wasserstein距离(WD)的知识蒸馏方法

    的机制,应用于中间层蒸馏时存在问题,其无法处理不重叠的分布且无法感知底层流形的几何结构。 为了解决这些问题,大连理工大学的研究人员提出了一种基于 Wasserstein 距离(WD)的
    的头像 发表于 01-21 09:45 1007次阅读

    华科技入选信通智能体应用案例

    华“智慧工厂精益生产管理智能体”成功入选中国信通智能体应用案例,通过零代码开发和多模态分析,助力企业突破传统瓶颈,实现生产效率和品质管理的显著提升,为制造业数字转型树立了新标杆。
    的头像 发表于 01-17 10:06 1020次阅读

    SparseViT:以非语义为中心、参数高效的稀疏视觉Transformer

    (IML)都遵循“语义分割主干网络”与“精心制作的手工制作非语义特征提取”相结合的设计,这种方法严重限制了模型在未知场景的伪影提取能力。 论文标题: Can We Get Rid
    的头像 发表于 01-15 09:30 809次阅读
    SparseViT:以非<b class='flag-5'>语义</b>为中心、参数高效的稀疏<b class='flag-5'>化</b>视觉Transformer

    基于微软专利的带蝴蝶出瞳扩展的光波导结构

    到出射耦合的传播过程中分割视场的系统。一个非常流行的方法是所谓的 \"蝴蝶出瞳扩展\",即在FOV的正负部分使用两个独立的EPE光栅区域,这也被应用于微软的Hololens2。在这
    发表于 12-11 11:36