侵权投诉

深度学习之机器视觉详解:网络压缩、视觉问答、可视化、风格迁移等

人工智能头条 2018-04-02 00:16 次阅读

深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用。然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解,这使得初学者经常卡在一些概念的理解上,读论文似懂非懂,十分吃力。另一方面,即使有了简单易用的深度学习框架,如果对深度学习常见概念和基本思路不了解,面对现实任务时不知道如何设计、诊断、及调试网络,最终仍会束手无策。

本系列文章旨在直观系统地梳理深度学习各领域常见概念与基本思想,使读者对深度学习的重要概念与思想有一直观理解,做到“知其然,又知其所以然”,从而降低后续理解论文及实际应用的难度。本系列文章力图用简练的语言加以描述,避免数学公式和繁杂细节。本文是该系列文章中的第三篇,旨在介绍深度学习在计算机视觉的其他任务的应用。

机器视觉,人脸识别,深度学习,神经网络

网络压缩(network compression)

尽管深度神经网络取得了优异的性能,但巨大的计算和存储开销成为其部署在实际应用中的挑战。有研究表明,神经网络中的参数存在大量的冗余。因此,有许多工作致力于在保证准确率的同时降低网路复杂度。

低秩近似 用低秩矩阵近似原有权重矩阵。例如,可以用SVD得到原矩阵的最优低秩近似,或用Toeplitz矩阵配合Krylov分解近似原矩阵。

剪枝(pruning) 在训练结束后,可以将一些不重要的神经元连接(可用权重数值大小衡量配合损失函数中的稀疏约束)或整个滤波器去除,之后进行若干轮微调。实际运行中,神经元连接级别的剪枝会使结果变得稀疏,不利于缓存优化和内存访问,有的需要专门设计配套的运行库。相比之下,滤波器级别的剪枝可直接运行在现有的运行库下,而滤波器级别的剪枝的关键是如何衡量滤波器的重要程度。例如,可用卷积结果的稀疏程度、该滤波器对损失函数的影响、或卷积结果对下一层结果的影响来衡量。

量化(quantization) 对权重数值进行聚类,用聚类中心数值代替原权重数值,配合Huffman编码,具体可包括标量量化或乘积量化。但如果只考虑权重自身,容易造成量化误差很低,但分类误差很高的情况。因此,Quantized CNN优化目标是重构误差最小化。此外,可以利用哈希进行编码,即被映射到同一个哈希桶中的权重共享同一个参数值。

降低数据数值范围 默认情况下数据是单精度浮点数,占32位。有研究发现,改用半精度浮点数(16位)几乎不会影响性能。谷歌TPU使用8位整型来表示数据。极端情况是数值范围为二值或三值(0/1或-1/0/1),这样仅用位运算即可快速完成所有计算,但如何对二值或三值网络进行训练是一个关键。通常做法是网络前馈过程为二值或三值,梯度更新过程为实数值。

此外,有研究认为,二值运算的表示能力有限,因此其使用一个额外的浮点数缩放二值卷积后的结果,以提升网络表示能力。

精简结构设计  有研究工作直接设计精简的网络结构。例如,

瓶颈(bottleneck)结构及1×1卷积。这种设计理念已经被广泛用于Inception和ResNet系列网络设计中。

分组卷积。

扩张卷积。使用扩张卷积可以保持参数量不变的情况下扩大感受野。

知识蒸馏(knowledge distillation) 训练小网络以逼近大网络,但应该如何去逼近大网络仍没有定论。

软硬件协同设计 常用的硬件包括两大类:(1). 通用硬件,包括CPU(低延迟,擅长串行、复杂运算)和GPU(高吞吐率,擅长并行、简单运算)。(2). 专用硬件,包括ASIC(固定逻辑器件,例如谷歌TPU)和FPGA(可编程逻辑器件,灵活,但效率不如ASIC)。

细粒度图像分类(fine-grained image classification)

相比(通用)图像分类,细粒度图像分类需要判断的图像类别更加精细。比如,我们需要判断该目标具体是哪一种鸟、哪一款的车、或哪一个型号的飞机。通常,这些子类之间的差异十分微小。比如,波音737-300和波音737-400的外观可见的区别只是窗户的个数不同。因此,细粒度图像分类是比(通用)图像分类更具有挑战性的任务。

细粒度图像分类的经典做法是先定位出目标的不同部位,例如鸟的头、脚、翅膀等,之后分别对这些部位提取特征,最后融合这些特征进行分类。这类方法的准确率较高,但这需要对数据集人工标注部位信息。目前细粒度分类的一大研究趋势是不借助额外监督信息,只利用图像标记进行学习,其以基于双线性CNN的方法为代表。

双线性CNN (bilinear CNN) 其通过计算卷积描述向量(descriptor)的外积来考察不同维度之间的交互关系。由于描述向量的不同维度对应卷积特征的不同通道,而不同通道提取了不同的语义特征,因此,通过双线性操作,可以同时捕获输入图像的不同语义特征之间的关系。

机器视觉,人脸识别,深度学习,神经网络

精简双线性汇合 双线性汇合的结果十分高维,这会占用大量的计算和存储资源,同时使后续的全连接层的参数量大大增加。许多后续研究工作旨在设计更精简的双线性汇合策略,大致包括以下三大类:

(1) PCA降维。在双线性汇合前,对深度描述向量进行PCA投影降维,但这会使各维不再相关,进而影响性能。一个折中的方案是只对一支进行PCA降维。

(2) 近似核估计。可以证明,在双线性汇合结果后使用线性SVM分类等价于在描述向量间使用了多项式核。由于两个向量外积的映射等于两个向量分别映射之后再卷积,有研究工作使用随机矩阵近似向量的映射。此外,通过近似核估计,我们可以捕获超过二阶的信息(如下图)。

(3) 低秩近似。对后续用于分类的全连接层的参数矩阵进行低秩近似,进而使我们不用显式计算双线性汇合结果。

机器视觉,人脸识别,深度学习,神经网络

“看图说话”(image captioning)

“看图说话”旨在对一张图像产生对其内容一两句话的文字描述。这是视觉和自然语言处理两个领域的交叉任务。

编码-解码网络(encoder-decoder networks) 看图说话网络设计的基本思想,其借鉴于自然语言处理中的机器翻译思路。将机器翻译中的源语言编码网络替换为图像的CNN编码网络以提取图像的特征,之后用目标语言解码网络生成文字描述。

机器视觉,人脸识别,深度学习,神经网络

Show, attend, and tell  注意力(attention)机制是机器翻译中用于捕获长距离依赖的常用技巧,也可以用于看图说话。在解码网络中,每个时刻,除了预测下一个词外,还需要输出一个二维注意力图,用于对深度卷积特征进行加权汇合。使用注意力机制的一个额外的好处是可以对网络进行可视化,以观察在生成每个词的时候网络注意到图像中的哪些部分。

Adaptive attention  之前的注意力机制会对每个待预测词生成一个二维注意力图(图(a)),但对于像the、of这样的词实际上并不需要借助来自图像的线索,并且有的词可以根据上文推测出也不需要图像信息。该工作扩展了LSTM,以提出“视觉哨兵”机制以判断预测当前词时应更关注上文语言信息还是更关注图像信息(图(b))。此外,和之前工作利用上一时刻的隐层状态计算注意力图不同,该工作使用当前隐层状态。

视觉问答(visual question answering)

给定一张图像和一个关于该图像内容的文字问题,视觉问答旨在从若干候选文字回答中选出正确的答案。其本质是分类任务,也有工作是用RNN解码来生成文字回答。视觉问答也是视觉和自然语言处理两个领域的交叉任务。

基本思路 使用CNN从图像中提取图像特征,用RNN从文字问题中提取文本特征,之后设法融合视觉和文本特征,最后通过全连接层进行分类。该任务的关键是如何融合这两个模态的特征。直接的融合方案是将视觉和文本特征拼成一个向量、或者让视觉和文本特征向量逐元素相加或相乘。

注意力机制  和“看图说话”相似,使用注意力机制也会提升视觉问答的性能。注意力机制包括视觉注意力(“看哪里”)和文本注意力(“关注哪个词”)两者。HieCoAtten可同时或交替产生视觉和文本注意力。DAN将视觉和文本的注意力结果映射到一个相同的空间,并据此同时产生下一步的视觉和文本注意力。

双线性融合  通过视觉特征向量和文本特征向量的外积,可以捕获这两个模态特征各维之间的交互关系。为避免显式计算高维双线性汇合结果,细粒度识别中的精简双线性汇合思想也可用于视觉问答。例如,MFB采用了低秩近似思路,并同时使用了视觉和文本注意力机制。

网络可视化(visualizing)和网络理解(understanding)

这些方法旨在提供一些可视化的手段以理解深度卷积神经网络。直接可视化第一层滤波器  由于第一层卷积层的滤波器直接在输入图像中滑动,我们可以直接对第一层滤波器进行可视化。可以看出,第一层权重关注于特定朝向的边缘以及特定色彩组合。这和生物的视觉机制是符合的。但由于高层滤波器并不直接作用于输入图像,直接可视化只对第一层滤波器有效。

t-SNE 对图像的fc7或pool5特征进行低维嵌入,比如降维到2维使得可以在二维平面画出。具有相近语义信息的图像应该在t-SNE结果中距离相近。和PCA不同的是,t-SNE是一种非线性降维方法,保留了局部之间的距离。下图是直接对MNIST原始图像进行t-SNE的结果。可以看出,MNIST是比较容易的数据集,属于不同类别的图像聚类十分明显。

可视化中间层激活值 对特定输入图像,画出不同特征图的响应。观察发现,即使ImageNet中没有人脸或文字相关的类别,网络会学习识别这些语义信息,以辅助后续的分类。

最大响应图像区域 选择某一特定的中间层神经元,向网络输入许多不同的图像,找出使该神经元响应最大的图像区域,以观察该神经元用于响应哪种语义特征。是“图像区域”而不是“完整图像”的原因是中间层神经元的感受野是有限的,没有覆盖到全部图像。

输入显著性图 对给定输入图像,计算某一特定神经元对输入图像的偏导数。其表达了输入图像不同像素对该神经元响应的影响,即输入图像的不同像素的变化会带来怎样的神经元响应值的变化。Guided backprop只反向传播正的梯度值,即只关注对神经元正向的影响,这会产生比标准反向传播更好的可视化效果。

梯度上升优化 选择某一特定的神经元,计算某一特定神经元对输入图像的偏导数,对输入图像使用梯度上升进行优化,直到收敛。此外,我们需要一些正则化项使得产生的图像更接近自然图像。此外,除了在输入图像上进行优化外,我们也可以对fc6特征进行优化并从其生成需要的图像。

DeepVisToolbox  该工具包同时提供了以上四种可视化结果。

遮挡实验(occlusion experiment)用一个灰色方块遮挡住图像的不同区域,之后前馈网络,观察其对输出的影响。对输出影响最大的区域即是对判断该类别最重要的区域。从下图可以看出,遮挡住狗的脸对结果影响最大。

Deep dream  选择一张图像和某一特定层,优化目标是通过对图像的梯度上升,最大化该层激活值的平方。实际上,这是在通过正反馈放大该层神经元捕获到的语义特征。可以看出,生成的图像中出现了很多狗的图案,这是因为ImageNet数据集1000类别中有200类关于狗,因此,神经网络中有很多神经元致力于识别图像中的狗。

对抗样本(adversarial examples)  选择一张图像和一个不是它真实标记的类别,计算该类别对输入图像的偏导数,对图像进行梯度上升优化。实验发现,在对图像进行难以察觉的微小改变后,就可以使网络以相当大的信心认为该图像属于那个错误的类别。实际应用中,对抗样本会将会对金融、安防等领域产生威胁。有研究认为,这是由于图像空间非常高维,即使有非常多的训练数据,也只能覆盖该空间的很小一部分。只要输入稍微偏离该流形空间,网络就难以得到正常的判断。

纹理生成(texture synthesis)和风格迁移(style transform)

给定一小张包含特定纹理的图像,纹理合成旨在生成更大的包含相同纹理的图像。给定一张普通图像和一张包含特定绘画风格的图像,风格迁移旨在保留原图内容的同时,将给定风格迁移到该图中。

特征逆向工程(feature inversion)  这两类问题的基本思路。给定一个中间层特征,我们希望通过迭代优化,产生一个特征和给定特征接近的图像。此外,特征逆向工程也可以告诉我们中间层特征中蕴含了多少图像中信息。可以看出,低层的特征中几乎没有损失图像信息,而高层尤其是全连接特征会丢失大部分的细节信息。从另一方面讲,高层特征对图像的颜色和纹理变化更不敏感。

Gram矩阵 给定D×H×W的深度卷积特征,我们将其转换为D×(HW)的矩阵X,则该层特征对应的Gram矩阵定义为通过外积,Gram矩阵捕获了不同特征之间的共现关系。

纹理生成基本思路 对给定纹理图案的Gram矩阵进行特征逆向工程。使生成图像的各层特征的Gram矩阵接近给定纹理图像的各层Gram。低层特征倾向于捕获细节信息,而高层特征可以捕获更大面积的特征。

风格迁移基本思路 优化目标包括两项,使生成图像的内容接近原始图像内容,及使生成图像风格接近给定风格。风格通过Gram矩阵体现,而内容则直接通过神经元激活值体现。

直接生成风格迁移的图像  上述方法的缺点是需要多次迭代才能收敛。该工作提出的解决方案是训练一个神经网络来直接生成风格迁移的图像。一旦训练结束,进行风格迁移只需前馈网络一次,十分高效。在训练时,将生成图像、原始图像、风格图像三者前馈一固定网络以提取不同层特征用于计算损失函数。

示例归一化(instance normalization) 和批量归一化(batch normalization)作用于一个批量不同,示例归一化的均值和方差只由图像自身决定。实验中发现,在风格迁移网络中使用示例归一化可以从图像中去除和示例有关的对比度信息以简化生成过程。

条件示例归一化(conditional instance normalization) 上述方法的一个问题是对每种不同的风格,我们需要分别训练一个模型。由于不同风格之间存在共性,该工作旨在让对应于不同风格的风格迁移网络共享参数。具体来说,其修改了风格迁移网络中的示例归一化,使其具有N组缩放和平移参数,每组对应一个不同的风格。这样,我们可以通过一次前馈过程同时获得N张风格迁移图像。

人脸验证/识别(face verification/recognition)

人脸验证/识别可以认为是一种更加精细的细粒度图像识别任务。人脸验证是给定两张图像、判断其是否属于同一个人,而人脸识别是回答图像中的人是谁。一个人脸验证/识别系统通常包括三大步:检测图像中的人脸,特征点定位、及对人脸进行验证/识别。人脸验证/识别的难题在于需要进行小样本学习。通常情况下,数据集中每人只有对应的一张图像,这称为一次学习(one-shot learning)。

两种基本思路 当作分类问题(需要面对非常多的类别数),或者当作度量学习问题。如果两张图像属于同一个人,我们希望它们的深度特征比较接近,否则,我们希望它们不接近。之后,根据深度特征之间的距离进行验证(对特征距离设定阈值以判断是否属于同一个人),或识别(k近邻分类)。

DeepFace 第一个将深度神经网络成功用于人脸验证/识别的模型。DeepFace使用了非共享参数的局部连接。这是由于人脸不同区域存在不同的特征(例如眼睛和嘴巴具有不同的特征),经典卷积层的“共享参数”性质在人脸识别中不再适用。因此,人脸识别网络中会采用不共享参数的局部连接。其使用孪生网络(siamese network)进行人脸验证。当两张图像的深度特征小于给定阈值时,认为其来自同一个人。

FaceNet 三元输入,希望和负样本之间的距离以一定间隔(如0.2)大于和正样本之间的距离。此外,输入三元的选择不是随机的,否则由于和负样本之间的差异很大,网络学不到什么东西。选择最困难的三元组(即最远的正样本和最近的负样本)会使网络陷入局部最优。FaceNet采用半困难策略,选择比正样本远的负样本。

大间隔交叉熵损失 近几年的一大研究热点。由于类内波动大而类间相似度高,有研究工作旨在提升经典的交叉熵损失对深度特征的判断能力。例如,L-Softmax加强优化目标,使对应类别的参数向量和深度特征夹角增大。 A-Softmax进一步约束L-Softmax的参数向量长度为1,使训练更集中到优化深度特征和夹角上。实际中,L-Softmax和A-Softmax都很难收敛,训练时采用了退火方法,从标准softmax逐渐退火至L-Softmax或A-Softmax。

活体检测(liveness detection) 判断人脸是来自真人或是来自照片等,这是人脸验证/识别需要解决的关键问题。在产业界目前主流的做法是利用人的表情变化、纹理信息、眨眼、或让用户完成一系列动作等。

图像检索(image retrieval)

给定一个包含特定实例(例如特定目标、场景、建筑等)的查询图像,图像检索旨在从数据库图像中找到包含相同实例的图像。但由于不同图像的拍摄视角、光照、或遮挡情况不同,如何设计出能应对这些类内差异的有效且高效的图像检索算法仍是一项研究难题。

图像检索的典型流程 首先,设法从图像中提取一个合适的图像的表示向量。其次,对这些表示向量用欧式距离或余弦距离进行最近邻搜索以找到相似的图像。最后,可以使用一些后处理技术对检索结果进行微调。可以看出,决定一个图像检索算法性能的关键在于提取的图像表示的好坏。

(1) 无监督图像检索

无监督图像检索旨在不借助其他监督信息,只利用ImageNet预训练模型作为固定的特征提取器来提取图像表示。

直觉思路 由于深度全连接特征提供了对图像内容高层级的描述,且是“天然”的向量形式,一个直觉的思路是直接提取深度全连接特征作为图像的表示向量。但是,由于全连接特征旨在进行图像分类,缺乏对图像细节的描述,该思路的检索准确率一般。

利用深度卷积特征 由于深度卷积特征具有更好的细节信息,并且可以处理任意大小的图像输入,目前的主流方法是提取深度卷积特征,并通过加权全局求和汇合(sum-pooling)得到图像的表示向量。其中,权重体现了不同位置特征的重要性,可以有空间方向权重和通道方向权重两种形式。

CroW 深度卷积特征是一个分布式的表示。虽然一个神经元的响应值对判断对应区域是否包含目标用处不大,但如果多个神经元同时有很大的响应值,那么该区域很有可能包含该目标。因此,CroW把特征图沿通道方向相加,得到一张二维聚合图,并将其归一化并根号规范化的结果作为空间权重。CroW的通道权重根据特征图的稀疏性定义,其类似于自然语言处理中TF-IDF特征中的IDF特征,用于提升不常出现但具有判别能力的特征。

Class weighted features 该方法试图结合网络的类别预测信息来使空间权重更具判别能力。具体来说,其利用CAM来获取预训练网络中对应各类别的最具代表性区域的语义信息,进而将归一化的CAM结果作为空间权重。

PWA PWA发现,深度卷积特征的不同通道对应于目标不同部位的响应。因此,PWA选取一系列有判别能力的特征图,将其归一化之后的结果作为空间权重进行汇合,并将其结果级联起来作为最终图像表示。

(2) 有监督图像检索

有监督图像检索首先将ImageNet预训练模型在一个额外的训练数据集上进行微调,之后再从这个微调过的模型中提取图像表示。为了取得更好的效果,用于微调的训练数据集通常和要用于检索的数据集比较相似。此外,可以用候选区域网络提取图像中可能包含目标的前景区域。

孪生网络(siamese network) 和人脸识别的思路类似,使用二元或三元(++-)输入,训练模型使相似样本之间的距离尽可能小,而不相似样本之间的距离尽可能大。

目标跟踪(object tracking)

目标跟踪旨在跟踪一段视频中的目标的运动情况。通常,视频第一帧中目标的位置会以包围盒的形式给出,我们需要预测其他帧中该目标的包围盒。目标跟踪类似于目标检测,但目标跟踪的难点在于事先不知道要跟踪的目标具体是什么,因此无法事先收集足够的训练数据以训练一个专门的检测器。

孪生网络 类似于人脸验证的思路,利用孪生网络,一支输入第一帧包围盒内图像,另一支输入其他帧的候选图像区域,输出两张图的相似度。我们不需要遍历其他帧的所有可能的候选区域,利用全卷积网络,我们只需要前馈整张图像一次。通过互相关操作(卷积),得到二维的响应图,其中最大响应位置确定了需要预测的包围盒位置。基于孪生网络的方法速度快,能处理任意大小的图像。

CFNet 相关滤波通过训练一个线性模板来区分图像区域和它周围区域,利用傅里叶变换,相关滤波有十分高效的实现。CFNet结合离线训练的孪生网络和在线更新的相关滤波模块,提升轻量级网络的跟踪性能。

生成式模型(generative models)

这类模型旨在学得数据(图像)的分布,或从该分布中采样得到新的图像。生成式模型可以用于超分辨率重建、图像着色、图像转换、从文字生成图像、学习图像潜在表示、半监督学习等。此外,生成式模型可以和强化学习结合,用于仿真和逆强化学习。

显式建模 根据条件概率公式,直接进行最大似然估计对图像的分布进行学习。该方法的弊端是,由于每个像素依赖于之前的像素,生成图像时由于需要从一角开始序列地进行,所以会比较慢。例如,WaveNet可以生成类似人类说话的语音,但由于无法并行生成,得到1秒的语音需要2分钟的计算,无法达到实时。

变分自编码器(variational auto-encoder, VAE) 为避免显式建模的弊端,变分自编码器对数据分布进行隐式建模。其认为图像的生成受一个隐变量控制,并假设该隐变量服从对角高斯分布。变分自编码器通过一个解码网络从隐变量生成图像。由于无法直接进行最大似然估计,在训练时,类似于EM算法,变分自编码器会构造似然函数的下界函数,并对这个下界函数进行优化。变分自编码器的好处是,由于各维独立,我们可以通过控制隐变量来控制输出图像的变化因素。

生成式对抗网络(generative adversarial networks, GAN) 由于学习数据分布十分困难,生成式对抗网络绕开这一步骤,直接生成新的图像。生成式对抗网络使用一个生成网络G从随机噪声中生成图像,以及一个判别网络D判断其输入图像是真实/伪造图像。在训练时,判别网络D的目标是能判断真实/伪造图像,而生成网络G的目标是使得判别网络D倾向于判断其输出是真实图像。

实际中,直接训练生成式对抗网络会遇到mode collapse问题,即生成式对抗网络无法学到完整的数据分布。随后,出现了LS-GAN和W-GAN的改进。和变分自编码器相比,生成式对抗网络的细节信息更好。以下链接整理了许多和生成式对抗网络有关的论文:hindupuravinash/the-gan-zoo。以下链接整理了许多训练生成式对抗网络的其技巧:soumith/ganhacks。

视频分类(video classification)

前面介绍的大部分任务也可以用于视频数据,这里仅以视频分类任务为例,简要介绍处理视频数据的基本方法。

多帧图像特征汇合 这类方法将视频看成一系列帧的图像组合。网络同时接收属于一个视频片段的若干帧图像(例如15帧),并分别提取其深度特征,之后融合这些图像特征得到该视频片段的特征,最后进行分类。实验发现,使用"slow fusion"效果最好。此外,独立使用单帧图像进行分类即可得到很有竞争力的结果,这说明单帧图像已经包含很多的信息。

三维卷积 将经典的二维卷积扩展到三维卷积,使之在时间维度也局部连接。例如,可以将VGG的3×3卷积扩展为3×3×3卷积,2×2汇合扩展为2×2×2汇合。

图像+时序两分支结构 这类方法用两个独立的网络分别捕获视频中的图像信息和随时间运动信息。其中,图像信息从单帧静止图像中得到,是经典的图像分类问题。运动信息则通过光流(optical flow)得到,其捕获了目标在相邻帧之间的运动情况。

CNN+RNN捕获远距离依赖 之前的方法只能捕获几帧图像之间的依赖关系,这类方法旨在用CNN提取单帧图像特征,之后用RNN捕获帧之间的依赖。

机器视觉,人脸识别,

此外,有研究工作试图将CNN和RNN合二为一,使每个卷积层都能捕获远距离依赖。

特别感谢作者 | 张皓(南京大学)

参考文献

A. Agrawal, et al. VQA: Visual question answering. IJCV, 2017.

M. Arjovsky, et al. Wasserstein generative adversarial networks. ICML, 2017.

N. Ballas, et al. Delving deeper into convolutional networks for learning video representations. ICLR, 2016.

L. Bertinetto, et al. Fully-convolutional siamese networks for object tracking. ECCV Workshop, 2016.

W. Chen, et al. Compressing neural networks with the hashing trick. ICML, 2015.

Y. Cui, et al. Kernel pooling for convolutional neural networks. CVPR, 2017.

M. Danelljan, et al. ECO: Efficient convolution operators for tracking. CVPR, 2017.

E. Denton, et al. Exploiting linear structure within convolutional networks for efficient evaluation. NIPS, 2014.

C. Doersch. Tutorial on variational autoencoders. arXiv: 1606.05908, 2016.

J. Donahue, et al. Long-term recurrent convolutional networks for visual recognition and description. CVPR, 2015.

V. Dumoulin, et al. A learned representation for artistic style. ICLR, 2017.

Y. Gao, et al. Compact bilinear pooling. CVPR, 2016.

L. A. Gatys, et al. Texture synthesis using convolutional neural networks. NIPS, 2015.

L. A. Gatys, et al. Image style transfer using convolutional neural networks. CVPR, 2016.

I. Goodfellow, et al. Generative adversarial nets. NIPS, 2014.

I. Goodfellow. NIPS 2016 tutorial: Generative adversarial networks, arXiv: 1701.00160, 2016.

A. Gordo, et al. End-to-end learning of deep visual representations for image retrieval. IJCV, 2017.

S. Han, et al. Learning both weights and connections for efficient neural network. NIPS, 2015.

A. G. Howard, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications. arXiv: 1704.04861, 2017.

H. Hu, et al. Network trimming: A data-driven neuron pruning approach towards efficient deep architectures. arXiv: 1607.03250, 2016.

I. Hubara, et al. Binarized neural networks. NIPS, 2016.

A. Jiménez, et al. Class-weighted convolutional features for visual instance search. BMVC, 2017.

Y. Jing, et al. Neural style transfer: A review. arXiv: 1705.04058, 2017.

J. Johnson, et al. Perceptual losses for real-time style transfer and super-resolution. ECCV, 2016.

K. Kafle and C. Kanan. Visual question answering: Datasets, algorithms, and future challenges. CVIU, 2017.

Y. Kalantidis, et al. Cross-dimensional weighting for aggregated deep convolutional features. ECCV, 2016.

A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR, 2014.

A. Karpathy and L. Fei-Fei. Deep visual-semantic alignments for generating image descriptions. CVPR, 2015.

D. P. Kingma and M. Welling. Auto-encoding variational Bayes. ICLR, 2014.

S. Kong and C. Fowlkes. Low-rank bilinear pooling for fine-grained classification. CVPR, 2017.

A. Krizhevsky, et al. ImageNet classification with deep convolutional neural networks. NIPS, 2012.

T.-Y. Lin, et al. Bilinear convolutional neural networks for fine-grained visual recognition. TPAMI, 2017.

T.-Y. Lin and S. Maji. Improved Bilinear Pooling with CNNs. BMVC, 2017.

J. Liu, et al. Knowing when to look: Adaptive attention via a visual sentinel for image captioning. CVPR, 2017.

W. Lie, et al. Large-margin softmax loss for convolutional neural networks. ICML, 2016.

W. Liu, et al. SphereFace: Deep hypersphere embedding for face recognition. CVPR, 2017.

J. Lu, et al. Hierarchical question-image co-attention for visual question answering. NIPS, 2016.

J.-H. Luo, et al. Image categorization with resource constraints: Introduction, challenges and advances. FCS, 2017.

J.-H. Luo, et al. ThiNet: A filter level pruning method for deep neural network compression. ICCV, 2017.

L. Maaten and G. Hinton. Visualizing data using t-SNE. JMLR, 2008.

A. Mahendran and A. Vedaldi. Understanding deep image representations by inverting them. CVPR, 2015.

X. Mao, et al. Least squares generative adversarial networks. ICCV, 2017.

P. Molchanov, et al. Pruning convolutional neural networks for resource efficient inference. ICLR, 2017.

A. Mordvintsev, et al. Inceptionism: Going deeper into neural networks. Google Research Blog, 2015.

H. Nam, et al. Dual attention networks for multimodal reasoning and matching. CVPR, 2017.

J. Y. H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR, 2015.

F. Radenović, et al. Fine-tuning CNN image retrieval with no human annotation. arXiv: 1711.02512, 2017.

A. Radford, et al. Unsupervised representation learning with deep convolutional generative adversarial networks. ICLR, 2016.

M. Rastegari, et al. XNOR-Net: ImageNet classification using binary convolutional neural networks. ECCV, 2016.

F. Schroff, et al. FaceNet: A unified embedding for face recognition and clustering. CVPR, 2015.

K. Simonyan, et al. Deep inside convolutional networks: Visualizing image classification models and saliency maps. ICLR Workshop, 2014.

K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. NIPS, 2014.

V. Sindhwani, et al. Structured transforms for small-footprint deep learning. NIPS, 2015.

J. T. Springenberg, et al. Striving for simplicity: The all convolutional net. ICLR Workshop, 2015.

Y. Taigman, et al. DeepFace: Closing the gap to human-level performance in face verification. CVPR, 2014.

D. Tran, et al. Learning spatiotemporal features with 3D convolutional networks. ICCV, 2015.

A. Nguyen, et al. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks. NIPS, 2016.

D. Ulyanov and A. Vedaldi. Instance normalization: The missing ingredient for fast stylization. arXiv: 1607.08022, 2016.

J. Valmadre, et al. End-to-end representation learning for correlation filter based tracking. CVPR, 2017.

O. Vinyals, et al. Show and tell: A neural image caption generator. CVPR, 2015.

C. Wu, et al. A compact DNN: Approaching GoogleNet-level accuracy of classification and domain adaptation. CVPR, 2017.

J. Wu, et al. Quantized convolutional neural networks for mobile devices. CVPR, 2016.

Z. Wu, et al. Deep learning for video classification and captioning. arXiv: 1609.06782, 2016.

J. Xu, et al. Unsupervised part-based weighting aggregation of deep convolutional features for image retrieval. AAAI, 2018.

K. Xu, et al. Show, attend, and tell: Neural image caption generation with visual attention. ICML, 2015.

J. Yosinski, et al. Understanding neural networks through deep visualization. ICML Workshop, 2015.

Z. Yu, et al. Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. ICCV, 2017.

M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. ECCV, 2014.

L. Zhang, et al. SIFT meets CNN:  A decade survey of instance retrieval. TPAMI, 2017.

原文标题:一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

文章出处:【微信号:AI_Thinker,微信公众号:人工智能头条】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

如何实现复杂背景中的快速人脸识别技术研究

对复杂背景下的人脸图像,提出一种快速人脸检测识别方法。包括基于肤色模型和OpenCV的综合方法进行人....
发表于 12-06 15:36 35次 阅读
如何实现复杂背景中的快速人脸识别技术研究

生物识别信息安全怎样才能有保障

众所周知,作为一项依靠人类各种生物信息而打造出来的新技术,近年来生物识别的崛起速度十分快速。
发表于 12-06 14:56 130次 阅读
生物识别信息安全怎样才能有保障

美国出入境采用人脸识别技术 其目的值得怀疑

美国是世界上唯一能与中国在人脸识别领域并驾齐驱的科技强国,但不同的是,中国政府支持人脸识别商用、民用....
发表于 12-06 11:37 200次 阅读
美国出入境采用人脸识别技术 其目的值得怀疑

机器视觉的工业镜头与工业相机CCD应该如何选择方法说明

光学镜头一般称为摄像镜头或摄影镜头,简称镜头,其功能就是光学成像。在机器视觉系统中,镜头的主要作用是....
发表于 12-06 11:37 24次 阅读
机器视觉的工业镜头与工业相机CCD应该如何选择方法说明

PFN研究方向转变,为什么从深度学习开源框架到了PyTorch

据MONOist网站报道,12月5日,PFN宣布今后将不再进行深度学习开源框架Chainer的重大升....
的头像 汽车玩家 发表于 12-06 11:05 198次 阅读
PFN研究方向转变,为什么从深度学习开源框架到了PyTorch

使用神经网络实现语音驱动发音器官运动合成方法详细资料说明

实现一种基于深度神经网络的语音驱动发音器官运动合成的方法, 并应用于语音驱动虚拟说话人动画合成。 通....
发表于 12-05 15:53 28次 阅读
使用神经网络实现语音驱动发音器官运动合成方法详细资料说明

刷脸支付不管发展多广 用户安全底线不能突破

使用AI技术,用户只需提供一张正面人脸照片上传到该软件,就可以把选定视频中的明星面部替换掉,生成以自....
发表于 12-05 15:29 212次 阅读
刷脸支付不管发展多广 用户安全底线不能突破

AI芯片攻坚战已然打响 深度学习技术逐渐成为主流

近年来,随着人工智能和大数据产业的发展,数据量呈现爆炸性增长的态势。深度学习技术因其识别精度高、适应....
发表于 12-05 14:53 120次 阅读
AI芯片攻坚战已然打响 深度学习技术逐渐成为主流

人脸识别带来的焦虑正在逐渐加深 隐私安全问题一直无法解决

12月4日,美联社消息称,国土安全部计划将面部识别检查扩展到所有进出美国的旅行者,包括美国公民。然鹅....
发表于 12-05 09:46 117次 阅读
人脸识别带来的焦虑正在逐渐加深 隐私安全问题一直无法解决

如何使用深度神经网络实现实时人脸识别

作为典型的模式识别任务,人脸识别有着巨大的实际应用价值与市场前景。理想环境下的人脸识别已经取得不俗成....
发表于 12-04 16:57 48次 阅读
如何使用深度神经网络实现实时人脸识别

人工智能在安防领域有什么成就

现有的治安监控系统融入基于深度学习的人脸识别算法,实现系统的智能化升级。
发表于 12-04 16:40 465次 阅读
人工智能在安防领域有什么成就

AI时代的软件开发你觉得怎么样

人工智能驱动的优化算法,如神经网络,可以针对一个问题,尝试各种解决方案的评估标准,直到找到他们所认为....
发表于 12-04 16:27 65次 阅读
AI时代的软件开发你觉得怎么样

你走进校园被“刷脸”了吗

在人工智能蓬勃发展以及移动支付普及应用等因素影响下,人脸识别早已不再只是一个文字名词,而是正加快渗透....
发表于 12-04 15:52 152次 阅读
你走进校园被“刷脸”了吗

人工智能是如何来评估神经系统疾病的

人工神经网络目前已经被用于驾驶汽车、解读视频监控以及监控和调节交通等。使用人工神经网络的这场革命也鼓....
发表于 12-04 15:39 40次 阅读
人工智能是如何来评估神经系统疾病的

美国政府或对所有进出美国的人进行人脸识别

8月中旬美国政府在机场安装生物识别系统,对所有前往该国的非本国公民进行指纹识别和拍照。在美国土安全部....
的头像 汽车玩家 发表于 12-04 14:53 250次 阅读
美国政府或对所有进出美国的人进行人脸识别

深度强化学习最有可能实现通用人工智能 但还需依托脑科学的发展

纽约大学心理学与认知科学教授马库斯最近和人工智能企业“深层思维”(DeepMind)杠上了。继前不久....
发表于 12-04 14:50 301次 阅读
深度强化学习最有可能实现通用人工智能 但还需依托脑科学的发展

人工智能伦理问题是怎样的

人工智能正处于蓬勃发展的大好机遇期,人类社会吁求高阶科学技术力量的伦理支撑。
发表于 12-04 13:52 84次 阅读
人工智能伦理问题是怎样的

人工智能风险评估有多重要

人工智能技术对于智慧社会建设意义非凡。人工智能技术的繁荣,也离不开人类社会的场景应用。
发表于 12-04 13:48 67次 阅读
人工智能风险评估有多重要

XDF 重磅:Xilinx宣布Vitis™ AI即日起开放下载,人工智能推断再提速

赛灵思开发者大会(XDF)亚洲站终于在北京拉开帷幕了,与往届 XDF 一样,每次大会我们都会为全球开....
发表于 12-04 13:38 116次 阅读
XDF 重磅:Xilinx宣布Vitis™ AI即日起开放下载,人工智能推断再提速

大数据对人工智能的影响有多大

以深度学习为代表的人工智能技术已经应用到各个行业。驱动人工智能技术蓬勃发展的是各行各业积累的大数据。
发表于 12-04 11:41 68次 阅读
大数据对人工智能的影响有多大

PID控制的理论和PID控制器设计的及PID控制器参数整定的以及分析

PID控制作为一种经典的控制方法而广泛应用于工业控制中,是实际工业生产过程正常运行的基本保障。随着计....
发表于 12-04 08:00 49次 阅读
PID控制的理论和PID控制器设计的及PID控制器参数整定的以及分析

深度学习入门

发表于 12-03 18:11 134次 阅读
深度学习入门

Imagination联合紫光展锐开展新一代神经网络加速器的AI战略

Imagination Technologies宣布:领先的无晶圆厂半导体公司紫光展锐(UNISOC....
发表于 12-03 17:55 161次 阅读
Imagination联合紫光展锐开展新一代神经网络加速器的AI战略

人脸识别技术引爆“刷脸时代” 国家标准制定速度要加快

随着人脸识别这一前沿的人工智能技术逐渐渗透在社会的方方面面,相关标准也将有据可依。
发表于 12-03 16:40 172次 阅读
人脸识别技术引爆“刷脸时代” 国家标准制定速度要加快

蚂蚁金服表示支付宝人脸识别非常安全 信息安全有足够的保证

近日,央视财经曝光,有平台商家在网上公开兜售人脸照片,10元即可购买5000多张包含人脸信息的照片,....
发表于 12-03 16:30 197次 阅读
蚂蚁金服表示支付宝人脸识别非常安全 信息安全有足够的保证

如何学习深度神经网络和目标检测详细笔记说明

今天的计算机视觉技术已经可以在图片、视频中识别出大量类别的物体, 甚至可以初步理解图片或者视频中的内....
发表于 12-03 15:29 47次 阅读
如何学习深度神经网络和目标检测详细笔记说明

如何使用深度卷积神经网络进行ImageNet数据库的分类

我们训练了一个大型的深度卷积神经网络,来将在ImageNet LSVRC-2010 大赛中的120万....
发表于 12-03 15:29 43次 阅读
如何使用深度卷积神经网络进行ImageNet数据库的分类

人脸识别大行其道 要用法律来制裁违法确保信息安全

卖个面子,过去指犹言讲情面,而在科技飞速发展的今天,你是否想过当你的“面子”连同身份证、电话号码、住....
发表于 12-03 09:40 161次 阅读
人脸识别大行其道 要用法律来制裁违法确保信息安全

苹果MacBook Pro明年或引入人脸识别功能

据外媒报道称,苹果可能会在明年的MacBook产品线中引入新的功能,而它就是人脸识别(Face ID....
的头像 汽车玩家 发表于 12-03 09:02 311次 阅读
苹果MacBook Pro明年或引入人脸识别功能

鲲鹏昇腾 华为与鹏城实验室共建鹏城云脑Ⅱ 开启千P级AI集群应用

华为与鹏城实验室在深圳共同发布鹏城云脑Ⅱ一期,正式开启千P级AI集群应用,这是鲲鹏计算产业在科研领域....
发表于 12-02 14:05 120次 阅读
鲲鹏昇腾 华为与鹏城实验室共建鹏城云脑Ⅱ 开启千P级AI集群应用

办理手机卡推出新规定 方便人脸信息的采集

据工信部印发的《关于进一步做好电话用户实名登记管理有关工作的通知》,12月1日起,电信企业要在实体渠....
发表于 12-02 11:09 267次 阅读
办理手机卡推出新规定 方便人脸信息的采集

蓝芯科技智能移动拣货机器人实现智能拣货一站式解决

由于对效率的需求和人口红利的消退,近年来,电商仓储领域的发展已经现出很明显的进化轨迹。“机器换人”刻....
发表于 12-01 09:30 59次 阅读
蓝芯科技智能移动拣货机器人实现智能拣货一站式解决

深度学习和机器学习的六个本质区别你知道几个?

深度学习和机器学习已经变得无处不在,那它们之间到底有什么区别呢?本文我们为大家总结了深度学习VS机器....
的头像 汽车玩家 发表于 11-30 11:17 435次 阅读
深度学习和机器学习的六个本质区别你知道几个?

解决AI开发三大痛点,五分钟完成开发的“神器”存在吗?

「钛灵 AIX」是一款集计算机视觉与智能语音交互两大核心功能为一体的人工智能硬件,搭载 Intel ....
的头像 墨记 发表于 11-29 20:42 1849次 阅读
解决AI开发三大痛点,五分钟完成开发的“神器”存在吗?

使用FPGA设计线型CCD高速驱动采集一体化控制板的论文详细说明

线型CCD图像传感器在工业检测、图像测量和机器视觉等方面有着广泛的应用。本文针对CCD测量应用系统中....
发表于 11-29 17:47 68次 阅读
使用FPGA设计线型CCD高速驱动采集一体化控制板的论文详细说明

人脸识别应用广泛 标准不可缺少

人脸识别标准问题一直备受人们关注。近期,全国信标委生物特征识别分技术委员会换届大会发布了《生物特征识....
发表于 11-29 16:48 345次 阅读
人脸识别应用广泛 标准不可缺少

特斯拉自动雨刷软件升级,深层神经网络控制雨刷

据外媒报道,特斯拉发布了一款新的软件升级,使用一种新的车辆深度神经网络对车辆的自动雨刷进行了重大升级....
的头像 汽车玩家 发表于 11-29 16:24 358次 阅读
特斯拉自动雨刷软件升级,深层神经网络控制雨刷

人脸识别遍地开花 隐私问题引发各界关注

近日,因为拒绝使用人脸识别系统升级年卡,浙江理工大学特聘副教授郭兵将杭州野生动物世界起诉至法院,这被....
发表于 11-29 16:08 249次 阅读
人脸识别遍地开花 隐私问题引发各界关注

如何使用BCI脑机接口设计及实现三维视觉刺激器

脑机接口(Brain-Computer Interface,BC1)是近年来发展的一门新兴的、多学科....
发表于 11-29 15:53 53次 阅读
如何使用BCI脑机接口设计及实现三维视觉刺激器

Micron Insight创新浪潮中,美光又揭示了哪些科技“宝藏”?

美光还推出了业内首款基于硅的安全即服务平台,用于保护物联网边缘设备。新推出的美光 Authenta ....
的头像 美光科技 发表于 11-29 14:37 1380次 阅读
Micron Insight创新浪潮中,美光又揭示了哪些科技“宝藏”?

机器视觉的下一个发展空间会将是嵌入式吗

历经多年积累,机器视觉技术或许正在面临一个黄金发展期。一旦成本下降、性能提升、应用增多,就如无线网络....
发表于 11-29 11:32 179次 阅读
机器视觉的下一个发展空间会将是嵌入式吗

人脸识别在2019年下半年有什么动静

随着光电技术、微计算机技术、图像处理技术与模式识别等技术快速发展,人脸识别横空出世。
发表于 11-29 11:11 155次 阅读
人脸识别在2019年下半年有什么动静

推动“刷脸”的规范化 才能助力生物识别的不断发展

对于“刷脸”,相信大家都有所了解。如果你经常乘坐火车出行,应该已经体验过安检口的“刷脸”系统。除了安....
发表于 11-29 08:59 108次 阅读
推动“刷脸”的规范化 才能助力生物识别的不断发展

浅谈按键驱动的编写和设备树的修改

随着深度学习和5G的应用,对FPGA的功能要求越来越多。因此近几年FPGA大厂纷纷将自己的器件集成了....
的头像 FPGA开发圈 发表于 11-28 17:48 621次 阅读
浅谈按键驱动的编写和设备树的修改

浅谈DNN中应用FPGA的作用分析

深度神经网络(deep neural network)是机器学习发展20年来取得的最大突破,比如在语....
的头像 FPGA开发圈 发表于 11-28 17:19 586次 阅读
浅谈DNN中应用FPGA的作用分析

每天430万次调用人脸识别?滴滴真的做到了吗

今天下午滴滴出行官方表示,滴滴人脸识别每天平均进行430万次人脸调用,每月人工复核司机60万人次。
的头像 汽车玩家 发表于 11-28 16:46 493次 阅读
每天430万次调用人脸识别?滴滴真的做到了吗

大数据的人脸识别是否会加剧数据的泄露

未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。
发表于 11-28 16:23 198次 阅读
大数据的人脸识别是否会加剧数据的泄露

农业大数据应用怎样加快进程

平台利用遥感、GIS、物联网、深度学习、大数据等信息技术,有效的促进了当地农牧产业的良性发展,带动了....
发表于 11-28 15:31 75次 阅读
农业大数据应用怎样加快进程

人脸识别技术国家标准工作组成立,提高技术使用安全性实现降本增效

此次正式成立的人脸识别国家标准工作组,由商汤科技担任组长单位,腾讯、中国平安、蚂蚁金服、大华、科大讯....
的头像 牵手一起梦 发表于 11-28 15:17 552次 阅读
人脸识别技术国家标准工作组成立,提高技术使用安全性实现降本增效

机器视觉3D成像技术大全!

3D成像关键技术,主要有四种关键技术:立体视觉、结构光3D成像、激光三角形测量、后面三个是主动成像,需要外加光源来实现。接...
发表于 11-19 15:28 264次 阅读
机器视觉3D成像技术大全!

机器视觉系统应用于标签外观视觉检查!

机器视觉系统可以快速获取大量信息,而且易于自动处理,也易于同设计信息以及加工控制信息集成,因此,在现代自动化生产过程中,...
发表于 11-18 16:13 283次 阅读
机器视觉系统应用于标签外观视觉检查!

【免费直播】AI芯片专家陈小柏博士,带你解析AI算法及其芯片操作系统。

直播内容:人工智能是新一轮科技革命和产业转型的核心驱动力,在海量数据、深度学习和超强算力的支持下,人工智能迎来了前所未有...
发表于 11-07 14:03 229次 阅读
【免费直播】AI芯片专家陈小柏博士,带你解析AI算法及其芯片操作系统。

BiLSTM模型的CRF层是怎么工作的?

BiLSTM模型中CRF层的运行原理-1
发表于 11-06 09:26 90次 阅读
BiLSTM模型的CRF层是怎么工作的?

平衡Winnow算法在短信过滤系统上有什么应用?

手机短信以其短小、迅速、简便、价格低廉等优点成为一种重要的通信和交流方式,受到众多人士的青睐。然而, 手机短信与邮件一样存...
发表于 11-01 07:04 109次 阅读
平衡Winnow算法在短信过滤系统上有什么应用?

ARM与DSP的数据通信有什么方法?

DSP对数字信号和数值算法具有强大的运算处理能力,因而在信号采集与处理中被广泛应用,但其在任务管理、实时控制、人机交互等...
发表于 10-31 06:17 136次 阅读
ARM与DSP的数据通信有什么方法?

人脸识别历程中的opencv库是1.0还是emcv版本?

Q1.这个历程中的opencv库是否是1.0还是emcv版本啊? Q2.看到里面好多opencv库中有的函数并没有调用,而是重写了一个(比如转化...
发表于 10-28 14:31 86次 阅读
人脸识别历程中的opencv库是1.0还是emcv版本?

浅析监督学习算法MLPClassifier

sklearn 神经网络 MLPClassifier简单应用与参数说明...
发表于 10-23 10:46 97次 阅读
浅析监督学习算法MLPClassifier

如何设计基于FPGA的通用CNN加速?

随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。同时,人工智能、高性能数据分析和金融分析...
发表于 10-23 07:17 115次 阅读
如何设计基于FPGA的通用CNN加速?