0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

镜像翻转的图像,能不变?

算法与数据结构 来源:算法与数据结构 2020-08-03 16:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在训练神经网络的时候,经常会出现「缺数据」的情况。

这时候,就需要「数据增强」来获取更多数据。而近几年,镜像反转成了最为常用的方法之一。

转一次,获得2倍数据,真香!

然而,事情却没有想像中的那么简单——当翻转了数据集里所有的图片时,神经网络所拟合的函数,还能代表原先的图像分布么?

针对这一问题,来自康奈尔大学的研究员,首次挑战了常规神经网络训练中,图片「翻转不变性」(flip-invariant) 的这一假设。

研究的题目叫做视觉手性(Visual Chirality),并在CVPR 2020中获得了最佳论文提名。

注:手性的定义为「一个物体无法与其镜像相重合」。「视觉手性」一词启发自手性,意指「计算机视觉领域中图像分布与其镜像分布的区别」。

而该研究的一作,是此届CVPR大会上年纪最小的获奖者,年仅21岁的华人科研新秀——林之秋。

这项研究在多种领域(人脸,互联网图片,数字处理图像)上利用卷积神经网络,发现了许多常人难以捕捉的「视觉手性」线索。

通过自监督训练,在多项数据集上达到了60%,甚至到90%的精度。

镜像翻转的图像,能不变?

为了理解这一镜像翻转话题,我们先来看下这样的一个例子:

在上面这张图中,你能判断出哪些图像被翻转了吗?答案如下:

图一:镜像翻转(线索:文字)。我们可以很容易看出来文字被翻转过了。

图二:没有翻转(线索:纽扣)。男士衬衫的纽扣一般位于身体右侧。

图三:镜像翻转(线索:吉他)。吉他手的主手应当在吉他右侧。

镜像翻转对于人类而言并没有多少区别(如图二和图三),因而难以判断。

然而,神经网络却可以通过自监督训练的方法在这个任务上达到非常高的精度,并能指出图片中哪些区域可以被用于识别镜像翻转。

手性代表着单个图片的翻转不对称性,而视觉手性(Visual Chirality)则是针对图像分布所定义的翻转不对称性。

当一个图像分布具备视觉手性时,使用镜像翻转作为数据增强方法,将不可避免的改变一个数据集所代表的分布。

换句话说,只有当一个图像分布不具备视觉手性的时候,才能在不改变原先图像分布的前提下,使用镜像翻转来增强数据集。

然而,视觉手性是大部分视觉领域都拥有的属性。正如此篇文章作者,谷歌AI科学家Noah Snavely教授所说:

在计算机视觉的研究中,我们常把这个世界视为”翻转不变“的,镜像翻转因而是一个常规的数据增强方法。

然而,当你翻转图片后,文字将被颠倒,左手变为右手,而螺旋意大利面也将朝相反方向旋转。

那么,这项研究又是如何挑战了,人们先前在计算机视觉中,对于「翻转不变性」假设的呢?

实验过程

这项研究利用了自监督学习方法来训练卷积神经网络。

对于任何一个数据集,只需要将其原有的图片标记为「无翻转」,并将镜像翻转过的图片标记为「有翻转」,即可训练神经网络识别镜像翻转这个二分类任务(binary classification)。

同时,可以根据神经网络在验证集的表现,来评估这一图像分布是否具备视觉手性:

如果验证集上的精度要显著大于50%,便有充足的证据来证明视觉手性的存在。

这项研究利用了ResNet-50作为基本的网络结构,并使用SGD方法来训练网络。

为了了解神经网络学到了哪些视觉手性线索,研究人员利用了类激活映射(CAM:Class Activation Map)方法,在原有图片上对于视觉手性敏感的区域进行了高亮。

同时因为能造成视觉手性的现象有很多,研究人员还推出了一个简单的基于类激活映射的聚类方法——手性特征聚类(Chiral Feature Clustering)。

在互联网图片集上,神经网络在镜像翻转识别上取得了高达60%-80%的精度。

研究人员在Instagram图片集上进行了手性特征聚类,并挑选了一系列与人们生活相关的典型视觉手性现象进行讨论。

手机:对着镜子自拍是人们最爱做的事。此类照片具有视觉手性,因为手机的摄像头一般固定在手机背面的一侧(因品牌而异),同时由于多数人是右撇子,一般都以右手持手机进行自拍。

吉他:几乎大多数的吉他手都以右手拨弦,左手持把。

手表:手表一般都被带在人们的右手侧。

为了深入了解人脸的视觉手性现象,研究人员在人脸数据集上进行了孤立训练。

在Flickr-Faces-HQ (FFHQ)人脸数据集上进行了训练,并在测试集上取得了高达81%的精度,还利用手性特征聚类对人脸中的视觉手性现象进行了初步的探讨:

刘海分界处:人们一般用右手来分理刘海,这会导致刘海的朝向向一侧偏移,并出现视觉手性现象。

眼睛:人们在看向物体时倾向于用一只主视眼进行瞄准,这样会导致人们的目光在进行拍摄时出现偏移。多数人的主视眼为右眼,而这一现象可能是导致视觉手性现象的成因。

胡子:与头发一样,可能与人们习惯于用右手理胡子有关。

文中对以上的视觉手性现象的讨论均为初步的分析,而人脸中任有大量的视觉手性线索值得被发掘。

除此之外,研究人员还对数字图像处理过程(例如去马赛克和图片压缩)中产生的视觉手性现象进行了分析。

举个例子,当研究人员首次利用神经网络,在Instagram数据集上进行自监督训练时,发现没有使用随机剪裁(random cropping)的神经网络。

但在部分图片上,类激活映射所得到的热图更着重关注图片的边缘部分,如下图所示:

而在使用随机剪裁之后,研究人员得到的新的热图,则更关注来自于图片中物体本身的线索。

研究人员提出:当数字图像处理过程和镜像翻转不具备「交换律」时,视觉手性将会凭空产生在一个图像分布上。

作者通过概率论与群论(group theory),对此假设进行了严谨的数学论证,并通过神经网络实验验证了这一现象在互联网图片中广泛存在。

而此类的线索往往不能被肉眼可见,却在图片中存在固定的模式,因而为图像识伪的应用创造了可能性。

98年华人科学新秀

这项研究的第一作者,是98年生的华人科学新秀——林之秋。

林之秋17岁便考入美国“常春藤”盟校——康奈尔大学,而这也是他「开挂人生」的开始。

林之秋仅用两年时间就全部修完计算机和数学两个专业的本科课程,并从大二开始选修博士课程,同时跟随计算机系的教授从事科研工作。

他在多项专业课上,例如多元微积分、线性代数、高等抽象代数、人工智能、计算机操作系统等都取得过第一名。

由于成绩极为优异,自大二起林之秋就接受计算机系里邀请,以助教身份给高年级同学讲课,为康奈尔科技学院编写硕士生的预修课程,甚至在高阶机器学习课上给博士生的试卷打分。

而这篇「CVPR 2020最佳论文提名」的研究,是林之秋从大二就开始着手准备的项目,这也显示了他「超级大学霸」的真实实力。

如今,本科毕业的林之秋,总成绩在学院数千名学生中名列前三,并受院长邀请在毕业典礼上代表学院举旗。之后,他即将前往卡内基梅隆机器人学院,攻读计算机视觉博士学位。

在此,也预祝林之秋同学,能够在科研的道路上,继续乘风破浪!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4845

    浏览量

    108372
  • 函数
    +关注

    关注

    3

    文章

    4423

    浏览量

    68036
  • 计算机视觉
    +关注

    关注

    9

    文章

    1716

    浏览量

    47759

原文标题:21岁华人本科生,凭什么拿下CVPR 2020最佳论文提名?

文章出处:【微信号:TheAlgorithm,微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ​RK3576单板机Docker镜像构建与容器运行手册

    本文为创龙科技RK3576 单板机 Docker 开发指南,涵盖 Docker 安装、本地仓库配置、ARM 架构镜像构建、容器拉取与运行管理。支持单 / 多镜像批量构建、本地仓库推送、容器资源监控与启停控制。创龙科技通过清晰命令与工程化案例,帮助用户高效实现嵌入式平台应用
    的头像 发表于 05-16 13:50 5536次阅读
    ​RK3576单板机Docker<b class='flag-5'>镜像</b>构建与容器运行手册

    格科威GALAXY CORE AI8663 CSP CMOS Image Sensor 参数

    与接口线性模式满帧帧率60fpsHDR 模式满帧帧率30fps数据接口MIPI输出格式RAW10、RAW8功能支持支持功能帧同步、开窗、镜像翻转、2×2 合并、OTP温度参数工作温度-30~85℃图像
    发表于 04-30 11:53

    请问从哪里获得 Debian 镜像

    我昨天交付了 VisionFive 2,所以今天我想开始设置它。 在论坛中,我读到这里有 Debian 镜像: https://debian.starfivetech.com 此页面列出了百度云盘
    发表于 03-23 08:16

    使用Dockerfile构建镜像的详细步骤

    Dockerfile写得好不好,直接影响三件事:镜像大小、构建速度、运行安全性。我见过太多团队的Dockerfile是"能跑就行"的水平——基础镜像用ubuntu:latest
    的头像 发表于 02-26 09:43 516次阅读

    深入解析U-Boot image.c:RK平台镜像处理核心逻辑

    在瑞芯微(RK)平台的嵌入式开发中,U-Boot作为核心的启动加载程序,负责完成镜像解析、校验、加载等关键流程。而image.c正是U-Boot中处理镜像(uImage)的核心文件,尤其针对RK平台
    的头像 发表于 02-24 16:46 1933次阅读
    深入解析U-Boot image.c:RK平台<b class='flag-5'>镜像</b>处理核心逻辑

    无法从eMMC启动最新Debian镜像怎么解决?

    如题,我可以从MicroSD启动最新(202405)的Debian镜像,但是如果改为使用eMMC启动eMMC镜像
    发表于 02-04 07:02

    如何在Zynq UltraScale+ MPSoC平台上通过JTAG启动嵌入式Linux镜像

    在之前文章中,我们介绍了如何使用 XSCT 工具通过 JTAG 在 Zynq SoC 上启动嵌入式 Linux 镜像(从 JTAG 启动 Zynq-7000 嵌入式 Linux:使用 XSCT 全
    的头像 发表于 01-13 11:45 5289次阅读

    EspeedGrab图像采集软件介绍(Cameralink转USB采集)

    时序 设置好tap数,可自动识别分辨率等信息 15 中心十字丝 可设置中心十字丝,辅助光学调试 16 等分网格线 可设置等分虚线网格,辅助画面内容分析 17 镜像翻转 图像可设置上下镜像
    发表于 12-23 17:26

    请问芯源CW32L010 GPIO翻转速度到底可以有多快?

    请问芯源CW32L010GPIO翻转速度到底可以有多快?
    发表于 11-25 07:44

    IQ混频器为何能抑制镜像频率

    → 负频率分量(相位翻转 180°) 3. 数字域的简单“相消”实现 • 取共轭即可让镜像分量相消:   Z_corrected = Z – conj(Z_mirror)  (实际常用 Hilbert
    发表于 09-08 09:43

    Docker镜像构建与管理指南

    凌晨2点,生产环境突然告警,新部署的容器启动失败。排查后发现:开发环境用的镜像800MB,生产环境的却有3.2GB,里面塞满了编译工具、测试数据,甚至还有开发同学的 SSH 私钥...
    的头像 发表于 09-02 16:37 1499次阅读

    如何调试USB Type-C不正确的翻转设置

    USB-C是一个双向(正反插)连接器,插头可以任意方向连接,无论是正插还是反插,对用户没有明显的功能影响。这带来的一个结果就是,PCB走线和重定时器引脚到高速差分对的映射取决于连接器的方向。在正插时对应TX1的走线,在连接器翻转时对应TX2。
    的头像 发表于 07-15 14:01 2506次阅读
    如何调试USB Type-C不正确的<b class='flag-5'>翻转</b>设置

    【Milk-V Duo S 开发板免费体验】1-开箱和烧写镜像

    包装之后,可以看到小巧的开发板上紧凑地排列了各种外设。 镜像烧写 DuoS在Github上提供了各种镜像文件。 不知道为什么原因,我试了多种镜像,最后发现只有2.0的RISC-V镜像
    发表于 07-02 20:42

    【Milk-V Duo S 开发板免费体验】镜像烧录与开箱上电

    /H.265 视频压缩解码和 ISP 能力。 支持 HDR 宽动态、3D 降噪、去雾、镜头畸变校正等多种图像增强和校正算法,为客户提供专业级的视频图像质量。 该芯片还集成了内部 TPU,在 INT8 运算
    发表于 06-30 19:19

    K230 V3.0使用Mipi显示屏无法显示图像怎么解决?

    图像 使用hdmi的例程,hdmi显示屏显示的图像 全是紫色画面 供电正常两根usb线,网上也去找了一些其它人的代码 也都试过了 也是不行, 这是镜像的问题 还是说硬件问题?
    发表于 06-04 07:17