0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于CNN的通用框架来区别自然图像NIs与计算机生成图像CG之间的差异

电子工程师 来源:未知 作者:李倩 2018-08-08 11:08 次阅读

传统的肉眼识别方法是很难直接识别出 NIs (自然图像) 和 CG (计算机生成的图像)。本文中提出了一种高效的、基于卷积神经网络 (CNN) 的图像识别方法。通过大量的实验来评估模型的性能。实验结果表明,该方法优于现有的其他识别方法,与传统方法中采用 CNN 模型来识别图像,此方法还能借助高级可视化工具。

▌摘要

考虑到对现有的 CCNs 从头开始训练或微调预训练网络都具有一定的局限性,这个研究提出了一种更合适的想法:设计阶段在 CNN 模型的底部增加了两个级联卷积层。该网络能够根据不同大小的图像输入,进行自适应地调整,同时保持固定的深度,以稳定 CNN 结构并实现良好的识别表现。对于所提出的模型,我们采用一种称为“局部到全局”的策略,即 CNN 能够获取局部图像的识别决策,而全局的识别决策可通过简单的投票方式获得。我们通过大量的实验来评估模型的性能。实验结果表明,该方法优于现有的其他识别方法,且在后处理的图像上也具有较好的鲁棒性。此外,相比于传统方法中采用 CNN 模型来识别图像,我们的方法还能借助高级可视化工具,进一步可视化地了解 NIs 与 CG 之间的差异。

▌简介

当前,对 NIs 和 CG 的图像识别研究已经得到了广泛的关注。解决这个问题的主要挑战在于 NIs 与 CG 有近乎相同的写实性及图像模式。先前的研究通常都是人工设计一些可判别的特征,来区别 NIs 和 CG。但这些方法普遍存在的问题是人为设计的特征对于给定的图像识别问题来说,并不一定是最适合的,特别对于一些复杂的数据库而言,该方法的识别效果更差。

相比于需要先验知识和假设条件的传统方法,卷积神经网络 (CNN) 能够自动地从数据中学习目标的特征及其抽象表征,这使得它能够更广泛适用于一些复杂的数据库。本文,我们提出一种基于 CNN 的框架来识别 NIs 和 CG。这是一种以端到端的方式进行自动特征学习,而无需进行人为设计图像特征的框架。我们的工作主要总结如下:

提出了一种基于 CNN 的 NIs 与 CG 的通用识别框架,通过微调它能够自适应于不同尺寸的图像输入块。

对微调训练后的 CNN 模型,我们针对性地设计了一种改进方案以改进我们的识别表现,这两种基于 CNN 的方案都优于目前最先进的方法。

我们的方法在 Google 和 PRCG 数据库上都表现出良好的识别性能,而且对调整图像大小和压缩 JPEG 等后处理操作有强大的鲁棒性。

利用可视化工具,我们进一步地了解 CNN 模型是如何区分 NIs 和 CG。

▌数据集

我们使用的实验数据包括 Columbia Photo-graphic 与 PRCG 数据库。数据库由三组图像组成:(1) 从40个 3D 图形网站中获取的800张 PRCGs 数据;(2) 我们所采集的800张 NIs;以及 (3) 从 Google 搜索中获取的795张摄影图像。

我们所采集的300张 NIs 是通过小型数码相机拍摄的。先前研究的方法都没有在 Google 与 PRCG 数据库上进行过测试,这是因为 Google中的 NIs 与PRCG中的CG图像起源不同。而我们的研究不仅尝试解决这个问题,而且还将在 Personal 与 PRCG ,以及 Personal+Google 与 PRCG 两种不同数据库组合条件下进行测试。

▌框架

我们将 NIs 与 CG 的图像识别问题视为是一个二元分类问题。针对此问题,提出了两种不同的图像识别标准框架,如图1所示:其中,f 是特征提取器,c 代表一个分类器 (如 SVM) 。我们的框架是一个二阶段模型,其核心在于特征提取器。通常,特征的提取过程不仅需要耗费大量的时间,且提取出来的特征不一定是我们任务所需要的,而我们的 CNN 框架能够以端到端的方式自动学习并提取所需特征,这为解决特征提取问题提供了一种思路。因此,我们提出了一种适用的 CNN 模型,并采用以下三种不同的训练方法:(1) 遵循现有的网络结构,并从头开始训练 CNN 模型;(2) 微调一个预先在其他数据集或另外一个任务中训练好的、现成的 CNN 网络;(3) 设计一个新的网络,并从头开始训练。

图1 两种不同的图像识别框架

局部到全局策略

考虑到模型的计算成本,图片尺寸的多样性以及图像识别的性能要求,我们采用一种由局部到全局的策略,来对局部图像进行训练并使用简单的投票规则再对全局的图像进行分类。这种由局部到全局的策略是一种基于数据增强的思想,也是扩展训练中的常用技巧,尤其是在深度学习领域。

对于图像分类问题,局部策略 (即高精度的局部图像) 对于图像识别来说是非常重要的;另一方面,从 CG 上裁剪下来的图像本质仍是 CG,而对 Nis 而言也是如此。因此,我们引入数据增强的方法,也就是说,从每次训练中选择一些固定尺寸的图像去增强训练数据集,并且尽可能地去获取更高精度的图像。在实践阶段,我们使用 Maximal Poisson-disk 从每次训练中随机裁剪一定数量的图像来构建新的训练数据集。在测试阶段,从每个测试图像中裁剪一定数量的局部图像,并给每张局部图像加上特定的标签 ( CG 属于0,而 NI 属于1 ),编号较高的标签作为该图像的预测结果。

网络结构

我们所采用的网络结构由 ConvFilter 层,3个卷积层组,2层 FC 层以及1个softmax 分类层组成,模型的输入是二进制的图片格式。其结构如下图2所示:我们的输入是一张233*233的 RGB 图像,用绿色方块表示;红色方块代表卷积核,靠近它的数字代表该卷积核的尺寸,左侧的红色方块代表一个7*7的卷积核;特征图则由阴影部分的长方体所示。

图2 我们的网络结构

▌实验结果

实验设置与细节

我们使用了双三次插值来调整所有图像的大小,调整后的图片的较短边像素值为512,以此确保所有图像的大小一致性。基于原始数据集,我们以 3:1 的分离率来设置训练集和测试集,并用 MPS 从每张训练数据中裁剪出 200 张,以满足局部到全局策略的需要并达到扩充训练数据的目的。同样地,从每张测试数据中裁剪出 30 张来作为测试集。在训练时,我们采用128的批次大小,学习率设置为0.001,每 30k 次迭代学习率就除以10,直到迭代完 90k 次为止。此外,除了 60×60 和 30×30 图像块大小的正则化设置为 5e-5 和 1e-5 外,其余的正则化权重的默认值为 1e-4。

微调 CaffeNet 和卷积滤波器层的性能分析

微调后的 CaffeNet 的测试结果如下表 1 所示。我们可以看到,微调后网络 (C-1 到 C-7) 的测试性能要优于从头开始训练的网络 (C-S) 实验结果,这可能是由于预训练期间学习大量 NI 对模型的特征学习是有益的。而相比于传统方法 (准确率最高80.65%),通过微调后,我们的网络性能更佳,准确率更高。

表1 模型的分类精度,其中 C 表示 CaffeNet,”C-S” 表示从头开始训练网络 CaffeNet,”C-N” 表示微调 CaffeNet 后的前 N 层网络,N 从1到7。

此外,我们还对 ConvFilter 层进行了四种不同的配置: (1) 两个级联卷积层;(2) 删除 convFilter 层;(3) convFilter 层之后接 ReLU 激活层;以及(4) convFilter 层中加入高通滤波器。下表2 显示了这四种配置相对应的模型性能,其中使用两个级联卷积层时模型的准确率最高。

表2 四种不同配置下的 convFilter 的分类精度

不同尺寸图像块上的分类性能

下图 3 展示了我们的方法与三种人工设计特征的方法在不同尺寸图像块上的分类精度。与其他三种方法相比较,我们的方法在任何图像块尺寸上的准确率都更高,且随着图像块尺寸的缩小,网络的分类准确率会降低。

图3 我们的方法与三种人工设计特征的方法在不同尺寸图像块上的分类精度表现

后处理的鲁棒性分析

有效的图像识别算法不仅能处理原始数据,还应该在后处理数据中具有良好的鲁棒性。本文的研究中,我们针对图像缩放和 JPEG 压缩这两种典型的后处理进行鲁棒性分析。下图 4 展示了四种分类方法在五种后处理中的分类准确率表现 (实线部分)。可以看到,我们的模型对于后处理的数据具有更强的鲁棒性。

图4 不同分类方法在后处理数据上的分类精度表现

局部到全局策略的分析

进一步地,我们还分析了局部到全局策略在全尺寸图像上的分类精度表现。如下表3所示,实验结果表明在全尺寸图像上的模型精度,比在图像块上的模型精度要高,并且采用图像块投票的方式获得的全尺寸分类精度要高于直接在全尺寸上图像得到的分类精度。而投票准确性对后处理操作的稳健性由上图4中的虚线表示。

表3 局部到全局策略对六种方法的分类准确率的影响

▌可视化

计算机视觉任务中,CNN 的训练普遍存在一种现象:即模型在第一层学习的卷积核类似于 Gabor 滤波器和 color blobs。我们在下图 5 展示了模型的卷积可视化结果,其中 (a) 表示我们模型的第一层卷积核的傅里叶变换 (FFT) 结果, (b) 表示预训练的 CaffeNet 的结果,(c) 是对应于 CaffeNet 中第一层的前96个卷积核的可视化结果,而 (d) 则对应于最后的96个结果。滤波器根据三个颜色通道 B,G 和 R 被分为3个组,而像素越亮则代表所对应的B,G,R的值越高。

图 5 卷积可视化结果

▌结论

本文,我们提出了一种基于 CNN 的通用框架来区别自然图像 NIs 与计算机生成图像 CG 之间的差异,这种方法不仅能够在 Google 和 PRCG 的数据集中进行测试,而在后处理时也表现出较好的鲁棒性。这些优点对于现实生活中的图像识别任务是非常有效且重要的。

未来的工作中,我们将尝试通过引入语义级别的 CNN 集成模型来进一步改进我们的模型性能。此外,我们还将扩展我们的方法,并应用于视频数据的差异性探索。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98716
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40037
  • cnn
    cnn
    +关注

    关注

    3

    文章

    327

    浏览量

    21296

原文标题:学术 | 一种新的CNN网络可以更高效地区分自然图像&生成图像

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    计算机图形图像处理最新应用分析

    计算机图形图像处理最新应用分析 图形图像处理是研究计算机除了图形图像的原理、方法和技术的科学。它是计算机
    发表于 09-23 14:56

    计算机视觉必读:区分目标跟踪、网络压缩、图像分类、人脸识别

    深度学习目前已成为发展最快、最令人兴奋的机器学习领域之。本文以计算机视觉的重要概念为线索,介绍深度学习在计算机视觉任务中的应用,包括网络压缩、细粒度图像分类、看图说话、视觉问答、
    发表于 06-08 08:00

    图像处理与计算机视觉相关的书籍有哪些

    图像处理与计算机视觉相关的书籍
    发表于 05-20 13:58

    计算机视觉领域的关键技术/典型算法模型/通信工程领域的应用方案

    用于处理两幅图像之间发生平移、旋转、仿射变换情况下的匹配问题。(4)Mask R-CNNMask R-CNN是华人学者何恺明提出的一种简洁、灵活的
    发表于 12-03 13:58

    用于计算机视觉训练的图像数据集介绍

    用于计算机视觉训练的图像数据集
    发表于 02-26 07:35

    嵌入式系统与通用计算机操作系统的区别

    `嵌入式系统与通用计算机操作系统的区别以前仅学习并接触过嵌入式系统,通过对比,可以把以前学过的知识对应到计算机操作系统上来。本文转自个人印象笔记,如有问题欢迎评论指正。1. 嵌入式系统的要点嵌入式
    发表于 04-22 08:05

    嵌入式系统与通用计算机操作系统的区别

    `嵌入式系统与通用计算机操作系统的区别以前仅学习并接触过嵌入式系统,通过对比,可以把以前学过的知识对应到计算机操作系统上来。本文转自个人印象笔记,如有问题欢迎评论指正。1. 嵌入式系统的要点嵌入式
    发表于 04-22 08:05

    使用计算机制作,一种方便教学使用的计算机的制作方法 精选资料推荐

    一种方便教学使用的计算机的制作方法【技术领域】[0001]本实用新型涉及一种方便教学使用的计算机。【背景技术】[0002]现在多使用计算机
    发表于 09-01 06:28

    一种计算机用包装搬运装置

    本实用新型属于搬运装置技术领域,具体涉及一种计算机用包装搬运装置。背景技术:计算机俗称电脑,是一种用于高速计算的电子
    发表于 09-02 06:02

    二维小波包分解在计算机图像重构中的应用

    计算机图像处理中,图像重构技术是一种比较关键的图像预处理技术,同时其也是图像信息学科中的
    发表于 11-16 14:17 14次下载
    二维小波包分解在<b class='flag-5'>计算机</b><b class='flag-5'>图像</b>重构中的应用

    计算机图形学总览:图像图像的概念辨析

    计算机图形学和计算机视觉是同一过程的两个方向。计算机图形学将抽象的语义信息转化成图形,计算机视觉则从图形中提取抽象的语义信息,图像处理研究的
    的头像 发表于 08-21 09:10 6285次阅读

    计算机图形学 数字图像处理和计算机视觉是什么?

    计算机图形学(Computer Graphics)讲的是图形,也就是图形的构造方式,是一种从无到有的概念,从数据得到图像。是给定关于景象结构、表面反射特性、光源配置及相机模型的信息,生成
    的头像 发表于 04-04 17:34 4533次阅读
    <b class='flag-5'>计算机</b>图形学 数字<b class='flag-5'>图像</b>处理和<b class='flag-5'>计算机</b>视觉是什么?

    用于计算机视觉训练的图像数据集

      计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类视觉系统可以实现任务自动化。 计算机视觉任务包括
    的头像 发表于 12-31 09:33 2061次阅读

    用于计算机视觉训练的图像数据集

    计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类视觉系统可以实现任务自动化。计算机视觉任务包括
    的头像 发表于 02-12 16:13 1162次阅读

    机器学习和计算机视觉的前20个图像数据集

    计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类视觉系统可以实现任务自动化。计算机视觉任务包括
    发表于 01-28 07:40 5次下载
    机器学习和<b class='flag-5'>计算机</b>视觉的前20个<b class='flag-5'>图像</b>数据集