0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FGIA 中的主要问题和挑战

lviY_AI_shequ 来源:YXQ 2019-07-23 16:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本文中,来自旷视科技、南京大学和早稻田大学的研究者对基于深度学习的细粒度图像分析进行了综述,从细粒度图像识别、检索和生成三个方向展开论述。此外,他们还对该领域未来的发展方向进行了讨论。

计算机视觉(CV)是用机器来理解和分析图像的过程,是人工智能中一个重要分支。在 CV 的各个研究领域中,细粒度图像分析(fine-grained image analysis, FGIA)是一个长期存在的基础性问题,而且在各种实际应用(比如鸟的种类、汽车模型、商品识别等)中无处不在。由细粒度特性造成的类间(inter-class)小变化和类内(intra-class)大变化使得这一问题具有极大的挑战性。由于深度学习的蓬勃发展,近年来应用了深度学习的 FGIA 取得了显著的进步。

本文系统地对基于深度学习的 FGIA 技术进行了综述。具体来说,本文将针对 FGIA 技术的研究分为三大类:细粒度图像识别、细粒度图像检索和细粒度图像生成。本文还讨论了其他 FGIA 的重要问题,比如公开可用的基准数据集及其在相关领域的特定应用。本文在结尾处强调了未来仍需进一步探讨的几个方向以及待解决的问题。

综述结构。

在环太平洋国家举办的另一个重要的 AI 会议中,本文作者(魏秀参、吴建鑫)针对细粒度图像分析组织了具体的教程。该教程中提供了一些关于细粒度图像分析的额外的细节信息,所以在此向想深入了解的读者推荐该教程。

此外,论文作者还开放了一个细粒度图像分析的主页,内含代表性论文、代码、数据集等。

背景:FGIA 中的主要问题和挑战

FGIA 与一般的图像分析之间的区别在于:在一般的图像分析中,目标对象属于粗粒度的元类别(例如:鸟、橙子和狗),因此它们看起来非常不同。但在 FGIA 中,由于对象都属于一个元类别的子类,细粒度的特性导致它们看起来非常相似。我们以图像识别为例。如图 1 所示。

图 1:细粒度图像分析(右)与一般的图像分析(左)

此外,细粒度特性也会导致由子类别高度相似而造成的类间变化较小以及因姿势、尺寸和角度等不同而造成的类内变化大的问题,如图 3 所示。

图 3:细粒度图像分析的关键挑战

基准数据集

表 1:主流细粒度图像数据集汇总

表 1 中列出了细粒度问题中常用的图像数据集,并特地标出了它们的元类别、细粒度图像的数量、细粒度类别的数量和额外可用的不同种类的监督(即边界框、部位注释、层次标签、属性标签以及文本视觉描述等),参见图 5。

图 5:带有 CUB200-2011 监督信息的示例图像

细粒度图像识别

这些细粒度识别方法可以总结为三个范式:(1)用定位分类子网络进行细粒度识别;(2)用端到端的特征编码进行细粒度识别;(3)用外部信息进行细粒度识别。

其中,第一个范式和第二个范式只用和细粒度图像相关的监督(比如图像标签、边界框以及部分注释等)进行了限制。此外,由于细粒度存在的挑战,自动识别系统还不能实现良好的性能。因此,研究人员逐渐试着在细粒度识别问题中融入外部但易于获得的信息(比如网页数据、文本描述等)来进一步提升准确率,这对应了细粒度识别的第三个范式。细粒度识别中常用的评估指标是数据集所有从属类别的平均分类准确率。

4.1 用定位分类子网络进行细粒度识别

为了缓解类内变化较大的问题,细粒度社区注重捕获细粒度对象具有辨别性的语义部分,然后再建立和这些语义部分相关的中级表征用于最后的分类。具体而言,研究人员为了定位这些关键部位,设计出了定位子网络。之后再连接一个用于识别的分类子网络。这两个子网络合作组成的框架就是第一个范式,也就是用定位分类子网络进行细粒度识别。

有了定位信息(比如部位边界框或分割掩码),就可以获得更有辨别力的中级(部位)表征。此外,它还进一步提高了分类子网络的学习能力,这可以显著增强最终识别的准确率。

属于这一范式的早期工作依赖于额外的密集部位注释(又称关键点定位)来定位目标的语义关键部位(例如头部、躯干)。它们中的一些学习了基于部位的检测器 [Zhang et al.,2014;Lin et al.,2015a],还有一些利用分割方法来定位部位。然后,这些方法将多个部位特征当做整个图像的表征,并将其馈送到接下来的分类子网络中进行最终的识别。因此,这些方法也称为基于部位的识别方法。

但这样的密集部位注释是劳动密集型工作,限制了细粒度应用在现实世界中的可扩展性和实用性。最近还出现了一种趋势,在这种范式下,更多只需要图像标签 [Jaderberg et al.,2015;Fu et al.,2017;Zheng et al.,2017;Sun et al.,2018] 就可以准确定位这些部位的技术出现了。它们共同的思路是先找到相对应的部位,然后再比较它们的外观。具体而言,我们希望能捕获到在细粒度类别中共享的语义部位(比如头部和躯干),同时还希望发现这些部位表征之间的微小差别。像注意力机制 [Yang et al.,2018] 和多阶段策略 [He 和 Peng,2017b] 这样的先进技术可以对集成的定位分类子网络进行复杂的联合训练。

4.2 用端到端的特征编码进行细粒度识别

和第一个范式不同,第二个范式是端到端特征编码,它是通过开发用于细粒度识别的强大深度模型来直接学习更具辨别力的表征实现的。这些方法中最具代表性的方法是双线性 CNN(Bilinear CNNs[Lin et al.,2015b]),它用来自两个深度 CNN 池化后的特征的外积来表征图像,从而对卷积激活的高阶统计量进行编码,以增强中级学习能力。由于其模型容量较高,双线性 CNN 在细粒度识别中实现了优良的性能。但双线性特征的维度极高,因此它无法在现实世界中应用,尤其是大规模应用。

最近也有一些尝试解决这一问题的工作,比如 [Gao et al.,2016;Kong 和 Fowlkes,2017;Cui et al.,2017],[Pham 和 Pagh,2013;Charikar et al.,2002] 试着用张量草图(tensor sketching)来聚合低维嵌入,该方法可以近似双线性特征,还可以保持相当程度或更高的准确率。其他工作,比如 [Dubey et al.,2018] 则专门为细粒度量身设计了特定的损失函数,它可以驱动整个深度模型学习具有辨别性的细粒度表征。

4.3 用外部信息进行细粒度识别

如前文所述,除了传统的识别范式外,另一种范式是利用外部信息(比如网络数据、多模态数据或人机交互)来进一步帮助细粒度识别。详细内容参见论文。

细粒度图像检索

除了图像识别,细粒度检索是 FGIA 的另一个重要方面,它也是当前的研究热点。在细粒度检索中,常用的评估指标是平均精度均值(mean average precision,mAP)。在细粒度图像检索中,给出同一个子类(比如鸟类或车类)的数据库图像和要查询的图像,它可以在不依赖任何其他监督信号的情况下,返回与查询图像属于同一类别的图像,如图 7 所示。

图 7:细粒度检索图示。

一般的图像检索是基于图像内容(比如纹理、颜色和形状)的相似性来检索非常相似的图像,而细粒度检索则侧重于检索属于同一类别(比如同一物种的生物或一种车型)的图像。同时,细粒度图像中目标的差别很小,而在姿势、尺寸以及角度等方面存在差异。

[Wei et al.,2017] 首次试着用深度学习进行细粒度图像检索。该模型用预训练的 CNN 模型,在无监督的情况下,通过在细粒度图像中定位主要目标选出了有意义的深度描述符,进一步揭示了只用去除背景或噪声的深度描述符可以显著提高检索任务的性能。为了打破通过预训练模型进行无监督细粒度检索的局限性,一些实验 [Zheng et al.,2018;Zheng et al.,2019] 倾向于在有监督指标学习范式下,研究出全新的损失函数。与此同时,他们还为细粒度目标量身设计了额外的特定子模块,例如,[Zheng et al.,2018] 受 [Wei et al.,2017] 启发后提出的弱监督定位模块。

细粒度图像生成

除了监督学习任务,图像生成也是无监督学习中的代表性主题。它用像 GAN[Goodfellow et al.,2014] 这样的深度生成模型来学习合成看起来很真实的逼真图像。随着生成图像的质量越来越高,更具挑战性的任务——细粒度图像生成,出现了。顾名思义,细粒度生成可以在细粒度类别(比如特定人物的面部或从属类别中的对象)中合成图像。

这方面的第一项工作是 [Bao et al.,2017] 提出的 CVAE-GAN,它将变分自编码器和条件生成过程下的生成对抗网络结合在一起,来解决这一问题。具体而言,CVAE-GAN 将图像建模成概率模型中的标签和隐含属性的组合。通过改变馈入生成模型的细粒度类别,它就可以生成特定类别的图像。最近,根据文本描述生成图像 [Xu et al.,2018b] 因其多样化和实用性(如艺术生成和计算机辅助设计)而流行起来。执行配备了注意力的生成网络后,模型可以根据文本描述中的相关细节来合成细微区域的细粒度细节。

与细粒度图像分析相关领域的特定应用

在真实世界中,基于深度学习的细粒度图像分析技术在不同领域中都得到了应用,并表现出了很好的性能,例如在推荐系统中检索衣服或鞋 [Song et al.,2017],在电子商务平台上识别时尚图像 [Wei et al.,2016] 以及在智能零售平台中识别产品 [Wei et al.,2019a] 等。这些应用都和 FGIA 的细粒度检索与识别高度相关。

此外,如果我们向下移动粒度范围,极端点说,也可以将人脸识别看作细粒度识别的实例,在这个例子中粒度降到了身份粒度级别之下。此外,人员或机动车的再识别也是细粒度的一项相关任务,这项任务的目标是确定两张图像是否属于同一个特定的人或机动车。显然,再识别任务的粒度等级也在身份粒度之下。

在实际应用中,这些工作都遵循了 FGIA 的思路,来解决相关领域的特定任务,FGIA 的思路包括捕获目标极具辨别性的部位(人脸、人和机动车)[Suh et al.,2018]、发现由粗到细的结构信息 [Wei et al.,2018b] 以及开发基于属性的模型 [Liu et al.,2016] 等等。

未来的方向

在这一部分,研究者明确指出了 FGIA 相关领域中尚未解决的问题,以及一些未来的研究趋势。

自动细粒度模型

AutoML 和 NAS 的最新方法在计算机视觉的各种应用中都取得了和手工设计架构相媲美、甚至更好的结果。因此,希望可以利用 AutoML 或 NAS 技术开发自动细粒度模型,有望找到更好、更合适的深度模型,同时也可以反向促进 AutoML 和 NAS 研究的进步。

细粒度 few-shot 学习

我们最好的深度学习细粒度系统需要成百上千个标记好的样本。更糟的是,细粒度图像的监督不仅耗时而且昂贵,因为细粒度目标是由该领域的专家做准确标记的。因此,现实应用迫切需要开发出基于小样本的细粒度学习方法(fine-grained few-shot,FGFS)[Wei et al.,2019b]。FGFS 任务需要学习系统以元学习的方式,根据少量(只有一个或少于五个)样本构建针对全新细粒度类别的分类器。鲁棒的 FGFS 方法可以很大程度上地增强细粒度识别的可用性和可扩展性。

细粒度哈希

在像细粒度图像检索这样的实际应用中,会自然地出现这样的问题——在参考数据非常大的情况下,找到准确的最近邻的成本是非常高的。哈希 [Wang et al.,2018;Li et al.,2016] 是近似最近邻搜索中最流行也最有效的技术之一,它有处理大量细粒度数据的潜力。因此,细粒度哈希是 FGIA 中值得进一步探索的方向。

在更实际的环境中进行细粒度分析

细粒度图像分析还有许多新颖的主题——用域自适应进行细粒度分析、用知识迁移进行细粒度分析、用长尾分布进行细粒度分析以及在资源受限的嵌入设备上运行细粒度分析等。这些更高级也更实际的 FGIA 都很值得进行大量的研究工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123900
  • 旷视科技
    +关注

    关注

    1

    文章

    154

    浏览量

    12042

原文标题:超全深度学习细粒度图像分析:项目、综述、教程一网打尽

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    面向医疗电子的电源设计:主要挑战与电感选型考量

    本文系统分析医疗电子设备在电源设计面临的电气、机械、环境与安规挑战,并详细阐述电感器在电源架构的关键应用与选型规范。
    的头像 发表于 10-09 16:35 406次阅读
    面向医疗电子的电源设计:<b class='flag-5'>主要</b><b class='flag-5'>挑战</b>与电感选型考量

    动态环境下的挑战:移动载体上能否实现准确寻北?

    在现代工业领域,精准的方向基准是许多应用的基础需求。尤其是在移动载体上——如掘进机等——如何在动态环境实现快速、准确的定向和寻北,一直是一项重大技术挑战。传统的光学或机械寻北方案往往依赖静态条件
    的头像 发表于 09-05 14:38 271次阅读

    LitePoint如应对UWB测试挑战

    超宽带(UWB)连接已成为现代无线通信系统的重要组成部分。然而,随着UWB应用的日益广泛,相关的测试与测量挑战也随之增加。在本篇博客,我们将探讨LitePoint如何从设备研发初期的构思,到验证与特性分析,再到批量生产,全程应对这些测试
    的头像 发表于 07-25 15:43 2060次阅读
    LitePoint如应对UWB测试<b class='flag-5'>挑战</b>

    浅谈辰达MOSFET在USB PD快充电源的应用挑战与应对

    在USBPD快充电源设计,MOSFET作为功率控制与转换的核心器件,发挥着关键作用。随着充电功率向65W、100W甚至更高迈进,对MOSFET的性能提出了更严苛的挑战。本文将从应用挑战出发,结合
    的头像 发表于 07-08 09:43 343次阅读
    浅谈辰达MOSFET在USB PD快充电源<b class='flag-5'>中</b>的应用<b class='flag-5'>挑战</b>与应对

    移动设备的MDDESD防护挑战:微型化封装下的可靠性保障

    。如何在有限空间内实现有效的ESD防护,已成为FAE(现场应用工程师)在设计阶段必须重点考虑的问题。一、微型化趋势带来的挑战在移动设备,主控芯片、触控IC、射频模块
    的头像 发表于 04-22 09:33 488次阅读
    移动设备<b class='flag-5'>中</b>的MDDESD防护<b class='flag-5'>挑战</b>:微型化封装下的可靠性保障

    LPCVD方法在多晶硅制备的优势与挑战

    本文围绕单晶硅、多晶硅与非晶硅三种形态的结构特征、沉积技术及其工艺参数展开介绍,重点解析LPCVD方法在多晶硅制备的优势与挑战,并结合不同工艺条件对材料性能的影响,帮助读者深入理解硅材料在先进微纳制造的应用与工艺演进路径。
    的头像 发表于 04-09 16:19 1786次阅读
    LPCVD方法在多晶硅制备<b class='flag-5'>中</b>的优势与<b class='flag-5'>挑战</b>

    动力电池测试的直流负载挑战与应对策略

    一、背景与挑战 动力电池作为电动汽车的核心部件,其性能测试需模拟真实工况下的直流负载特性。然而,在测试过程,直流负载的高功率、动态响应及精度要求带来多重技术挑战: 高功率与能量密度矛盾:大容量
    发表于 04-02 16:05

    智慧路灯的推广面临哪些挑战

    引言 在智慧城市建设的宏伟蓝图中,叁仟智慧路灯的推广面临哪些挑战?叁仟智慧路灯作为重要的基础设施,承载着提升城市照明智能化水平、实现多功能集成服务的使命。然而,尽管叁仟智慧路灯前景广阔,在推广过程
    的头像 发表于 03-27 17:02 521次阅读

    提升焊接质量:实时监测技术的应用与挑战

    的应用也面临着诸多挑战。本文将探讨实时监测技术在提升焊接质量方面的应用及其面临的挑战。 ### 实时监测技术的定义与分类 实时监测技术是指在焊接过程,通过各种传感
    的头像 发表于 02-18 09:15 878次阅读
    提升焊接质量:实时监测技术的应用与<b class='flag-5'>挑战</b>

    MEMS工艺制造的首要挑战:揭秘头号大敌

    MEMS技术发展的一个重要问题,MEMS 器件的残余应力会对器件的性能以及可靠性产生重要影响。根据其产生的原因,一般可将残余应力分为本征应力和热失配应力两大类。本征应力的成因比较复杂,主要
    的头像 发表于 02-17 10:27 1066次阅读
    MEMS工艺制造<b class='flag-5'>中</b>的首要<b class='flag-5'>挑战</b>:揭秘头号大敌

    目前GaN正逐渐广泛应用的四个主要电压领域

    这篇技术文章由德州仪器(TEXAS INSTRUMENTS)的 Srijan Ashok 撰写,主要介绍了电压氮化镓(GaN)在四种应用领域的优势和应用情况,强调其对电子设计转型的推动
    的头像 发表于 02-14 14:12 1065次阅读
    目前GaN正逐渐广泛应用的四个<b class='flag-5'>主要</b><b class='flag-5'>中</b>电压领域

    电路图设计:需要问一下,需要哪些零件可以组合在一起组成一个音箱?

    目前手头上只有这一个音响。现在需要问一下,需要哪些零件可以组合在一起组成一个音箱?嗯,设备呃,包括哪些是多大的电容电阻和三极管,最好能详细到多大的二极管,三极管电容电阻
    发表于 01-24 13:05

    长周期认证下的IGBT封装:先发企业的优势与后来者的困境

    绝缘栅双极晶体管(IGBT)功率模块是现代电力电子系统的核心组件,广泛应用于新能源发电、电动汽车、智能电网等领域。然而,IGBT功率模块的封装技术却面临着诸多挑战。本文将从材料选择、热管理、可靠性、工艺控制等方面详细探讨IGBT功率模块封装面临的
    的头像 发表于 12-27 14:11 991次阅读
    长周期认证下的IGBT封装:先发企业的优势与后来者的困境

    清洗EUV掩膜版面临哪些挑战

    本文简单介绍了极紫外光(EUV)掩膜版的相关知识,包括其构造与作用、清洗挑战以及相关解决方案。
    的头像 发表于 12-27 09:26 1210次阅读

    生产HDI线路板需要解决的主要问

    生产HDI(高密度互连)线路板是一个复杂且技术密集的过程,涉及多个环节需要克服的挑战。以下是生产HDI线路板过程需要解决的一些主要问题: 1. 材料的热膨胀系数差异导致的应力问题 问题描述:HDI
    的头像 发表于 12-09 16:49 1224次阅读