0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习:理论和关注机制的进展

机器视觉 来源:CSDN 作者:xtyang315 2022-05-13 10:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、深度学习:理论和关注机制的进展(Yoshua Bengio)

二、深度语义学习 (Xiaodong He)

三、深度神经网络GPU(Julie Bernauer)

四、深度视觉Keynote(Rahul Sukthankar)

五、学习和理解视觉表示(Andrea Vedaldi)

六、用于目标检测的可变深度卷积神经网络(Xiaogang Wang)

一直自称研究方向是“机器视觉机器学习和深度学习”,然而除了做过几个相关的项目以外,感觉自己对这个领域并没有足够深入的认识和理解。趁着这个假期我要好好补补课了。今天先来看一些high level的内容,看看深度学习近期的最近进展以及其在机器视觉问题中的应用。学习资料来源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides,介绍了理论、应用、实现等方面的内容,应该是干货满满的。对于每一个talk,我会把内容框架记录下来(可以check一下对这些点是否有一定了解?),并记下一些个人觉得有趣的点。

一、深度学习:理论和关注机制的进展(Yoshua Bengio)

顾名思义,Bengio的talk主要讲了两个部分:理论进展和attention mechanism。理论进展介绍了:

分布式表示的“指数级”优点

深度的“指数级”优点

非凸优化和局部最小值

编码器的概率解释

Attention 机制则介绍了在机器翻译、语音、图像、视频和记忆单元中的应用。

分布式表示和深度的优点Bengio之前的talk里已经讲过不少次了。简单的说,虽然类似local partition的方法可以得到有用的表示,浅层(2层)的神经网络也可近似任意的函数,但是分布式表示和深度的引入可以使特征表示和模型变得更加紧凑(compact),达到exponentially more statistically efficient的效果。

接下来提到了在深度学习中凸性质(convexity)可能并不是必要的。因为在高维空间中,鞍点(saddle point)的存在是主要问题,而局部最小值通常都会很接近全局最小值了。这部分的内容比较陌生,有兴趣可以看看最近的论文。

Attention 机制方面,讲了很多最新的进展。有很多相关的paper都非常有趣,我要找个时间好好看看这个系列了。一个基本的思路是:我们给每一层引入一个额外的输入,这个输入反应的是之前的一个加权,来表示它们的关注程度。在所谓的soft-attention中,这个加权的值可以直接通过BP训练得到。记下几句有趣的话:
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度语义学习 (Xiaodong He)

来自微软研究院的报告,主要内容:

学习文本的语义性(semantic)表示

知识库和问答系统

多模态(图片——文本)语义模型

讲座开始引入了一点有趣的motivation:一般我们测试机器是否能够理解图片(其实就是训练对了),方法是给图片标记标签然后计算其错误率。然而对于含有丰富内容的复杂场景来说,很难定义所有fine-grained的类别。因此,用自然语言的描述来测试对图片的理解是比较好的方式。

从 Word2Vec 到 Sent2Vec:Deep Structured Semantic Model (DSSM),虽然我们不知道该如何标记一个句子的语义,但我们知道哪些句子的语义是比较接近的,因此文章通过优化一个基于相似性的目标函数来训练模型,使具有相近语义的句子产生距离相近的向量。接着还介绍了很多模型的细节和变种(卷积DSSM、递归DSSM),在此就不赘述了。

Deep Multimodal Similarity Model (DMSM):将目标函数中两个句子的相似性改成句子和图片的相似性,便可以将DSSM扩展为一个多模态的模型。

09c15960-d260-11ec-bce3-dac502259ad0.png

MSR系统解决图片–>语言问题:

图片词语检测(Image word detection)

句子生成(Language generation)

全局语义性重排序(Global semantic re-ranking)

其中图片词语检测用了CNN+MIL(Multiple Instance Learning)的方法,个人对此比较感兴趣,文章在此。

三、深度神经网络和GPU(Julie Bernauer)

换个口味,我们来看看NVIDIA关于深度学习和GPU的结合。总的来说,内容上跟NVIDIA官网上介绍深度学习的slides没什么不同。主要介绍了GPU有什么好处、GPU有多牛,还有一些支持GPU的库和工具。

一张比较好的图:

09e39f02-d260-11ec-bce3-dac502259ad0.png

有用的工具:

Lasagne:基于theano上的开源库,能方便搭建一个深度网络。(Keras用得不太爽,可以试试这个)

四、深度视觉Keynote(Rahul Sukthankar)

来看看来自google的报告。这个talk里面的内容都不太熟悉,但是看起来都非常有意思。主要内容有:

用Peer Presssure方法来找high value mistake

结合深度学习和其他机器学习方法来更好解决视觉问题

首先来看看Peer Pressure。这是Rahul组最近的一个工作:The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所谓“high-value mistake”,指的是那些我们认为训练好的模型可以准确预测的样本,结果它却“犯傻”了。因此这些样本也叫做“hard positive”,难以答对的样子。

从头说起,深度神经网络虽然有很多成功的应用,但同时也被发现很容易犯愚蠢的错误(比如上述的high-value mistake)。因此作者提出了Peer Pressure:集成+对抗训练(emsembles+adversarial training)的方法,来找到这些错误。简单来说就是,有一组训练于同样数据但是初始化或者结构不同的NN分类器(称作peers),如果一个样本出现其中一个NN输出与其它都不一致的情况(其它NN淡然都是一致的了),那么它应该就是high-value mistake。寻找这类错误当然是有价值的啦:(1)它可以用在发掘无标签的数据中(2)可以用来合成新的hard positive样本。

接下来提到将上述的方法应用到视频当中,找出anchor frame附近的hard positive 帧,用来训练更好的模型。其中具有semantic consistency的帧是通过Dense Trajectory来确定的。感觉挺有意思,可惜没找到相应的paper,那就上张图吧。

0a499e56-d260-11ec-bce3-dac502259ad0.png

五、学习和理解视觉表示(Andrea Vedaldi)

来自牛津大学的报告,题目看起来还是很吸引人的。大纲如下(略有失望,好像就是讲CNN的):

黑盒:一个将CNN用于图片文字识别的例子

架构:卷积和纹理

可视化:CNN所知道的图片

性质:对比CNN和视觉几何

第一个例子用CNN做OCR,感觉并不是很有趣。一个challenge是它的类别特别多(90k个类,对应90k个单词)。他们解决的办法是增量地训练网络,即先只训练5k个类,再逐步添加5k个新的类。。。效果好像还不错。

第二部分讲分辨纹理。提出用CNN的卷积层加上Fisher Vector(替换全连接层)来做,效果不错不错的。

第三部分可视化,看看就好。

第四部分还不错,讲的是图像变换对特征表示的影响。除去语义层面上的影响(特征的不变性跟任务相关),我们通常希望图像的特征表示不受图像变换的影响,如翻转和仿射变换。

类内差异大,包括:部分出现(part existence)、颜色、遮挡、变形

0a68b372-d260-11ec-bce3-dac502259ad0.png

0ac6f1c6-d260-11ec-bce3-dac502259ad0.png

六、用于目标检测的可变深度卷积神经网络(Xiaogang Wang)

最后一个talk,讲的是我最近比较关注的目标检测问题,主要介绍他们的DeepID-Net。

第一部分他们的工作,用深度学习进行行人识别。其中着重讲了通过设计大小可变的卷积核来实现部分检测器(Part detector),对于行人识别应该是重要的一部分。

第二部分讲更general的目标检测问题。首先介绍目标检测的困难有(经筛选):

对比了他们的DeepID-Net和RCNN:

0b03452c-d260-11ec-bce3-dac502259ad0.png

后面详细的介绍了他们模型的每个环节。总体来说,感觉每个环节都比较tricky,暂时也看不到有什么insight,故先略过了。之后专门研究object detection时可能还会重新看看他们的工作。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器视觉
    +关注

    关注

    166

    文章

    4829

    浏览量

    126490
  • 深度学习
    +关注

    关注

    73

    文章

    5604

    浏览量

    124617

原文标题:学习笔记 ——深度学习和机器视觉

文章出处:【微信号:www_51qudong_com,微信公众号:机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习的工程化落地,早已不是纸上谈兵的事。从卷积神经网络到Transformer,从目标检测到大模型私有化部署,技术栈不断延伸,工程师面临的知识体系也越来越庞杂。现根据中际赛威工程师培训老师的一份
    的头像 发表于 04-21 11:01 290次阅读
    人工智能-Python<b class='flag-5'>深度</b><b class='flag-5'>学习</b>进阶与应用技术:工程师高培解读

    深度学习驱动的超构表面设计进展及其在全息成像中的应用

    当前,深度学习技术与超构表面(metasurface)全息成像技术的融合,有力推动了光学成像领域的发展。得益于超构表面对光波特性的精准调控,全息成像技术经处理后可生成对应的三维图像。因此,二者的结合
    的头像 发表于 04-09 13:55 128次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>驱动的超构表面设计<b class='flag-5'>进展</b>及其在全息成像中的应用

    【智能检测】基于AI深度学习与飞拍技术的影像测量系统:实现高效精准的全自动光学检测与智能制造数据闭环

    内容概要:文档内容介绍了中图仪器(Chotest)影像测量仪融合人工智能深度学习与飞拍技术的自动化检测解决方案。系统通过AI深度学习实现抗干扰能力强、自适应高的智能寻边,精准识别复
    发表于 03-31 17:11

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切
    的头像 发表于 01-07 15:37 346次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    穿孔机顶头检测仪 机器视觉深度学习

    LX01Z-DG626穿孔机顶头检测仪采用深度学习技术,能够实现顶头状态的在线实时检测,顶头丢失报警,顶头异常状态报警等功能,响应迅速,异常状态视频回溯,检测顶头温度,配备吹扫清洁系统,维护周期长
    发表于 12-22 14:33

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    (第10系列)、YOLOv8-Tiny工业优化版(第9系列),满足产线端设备算力限制,模型推理速度提升300%。 LabVIEW生态整合 作为工业自动化领域主流开发环境,LabVIEW与深度学习的集成
    发表于 12-04 09:28

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 325次阅读

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 1048次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    边聊安全 | 安全芯片的守护神:BIST机制深度解析

    BIST机制深度解析写在前面:在安全芯片的设计与验证过程中,工程师常会遇到一个关键概念——BIST(Built-InSelf-Test,内置自检测)。初次接触这一术语时,许多人容易将其简单理解为
    的头像 发表于 09-05 16:17 29次阅读
    边聊安全 | 安全芯片的守护神:BIST<b class='flag-5'>机制</b>的<b class='flag-5'>深度</b>解析

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 1200次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4363次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    上海光机所在激光烧蚀曲面元件理论研究中取得新进展

    图1 激光烧蚀曲面元件示意图 近期,中国科学院上海光学精密机械研究所高功率激光元件技术与工程部魏朝阳研究员团队,在激光烧蚀曲面元件理论研究中取得新进展。研究首次阐明激光烧蚀过程中曲面元件对形貌
    的头像 发表于 07-15 09:58 664次阅读
    上海光机所在激光烧蚀曲面元件<b class='flag-5'>理论</b>研究中取得新<b class='flag-5'>进展</b>

    深度学习遇上嵌入式资源困境,特征空间如何破局?

    多层神经网络的非线性变换拟合规律,理论上几乎可以描述和模拟一切规律,但实际上该过程效率极低 —— 其计算复杂度往往呈指数级增长。这一特性使得深度学习与端侧设备的资源约束存在根本性矛盾,导致其在端侧 AI 实施过程中屡屡碰壁。  
    发表于 07-14 14:50 1316次阅读
    当<b class='flag-5'>深度</b><b class='flag-5'>学习</b>遇上嵌入式资源困境,特征空间如何破局?

    中国科学院西安光机所在计算成像可解释性深度学习重建方法取得进展

    图1 MDFP-Net网络结构 近日,中国科学院西安光机所空间光学技术研究室在计算成像可解释性深度学习重建方法研究取得创新性进展。相关研究成果发表于计算机视觉与图形学领域国际著名期刊
    的头像 发表于 06-09 09:27 818次阅读
    中国科学院西安光机所在计算成像可解释性<b class='flag-5'>深度</b><b class='flag-5'>学习</b>重建方法取得<b class='flag-5'>进展</b>

    深度学习赋能:正面吊车载箱号识别系统的核心技术

    支撑。 深度学习驱动的智能识别 传统OCR技术易受光线、污损或箱体图案干扰,而新一代识别系统通过深度卷积神经网络(CNN)和注意力机制,实现了复杂场景下的高精度动态识别: - 抗干扰优
    的头像 发表于 05-07 10:10 669次阅读