0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2018 上10篇最酷论文,渴望进步的人都在看

8g3K_AI_Thinker 来源:电子发烧友网 作者:工程师谭军 2018-07-09 09:07 次阅读

▌前言

作为计算机视觉领域的顶级会议,2018年的计算机视觉和模式识别会议(CVPR) 上周在美国盐湖城举行。今年的 CVPR共收到3300份来稿并接收了其中的979份。超过6500人参加了今年的会议,这间容纳6500人的房间座无虚席,堪称是一届史诗般的盛会:

每年的 CVPR都会吸引众多优秀的人才和他们最新的研究成果,总可以看到学到新的东西。当然还有那些发表了最新并具有突破性成果的论文,为该领域带来很棒的新知识。这些论文经常在计算机视觉的许多子领域形成最新的技术。

最近,我们看到了一些开箱即用且富有创意的论文!随着最近深度学习在计算机视觉领域的突破性进展,我们仍然在探索并发现一切未知的可能性。许多论文展示了深度神经网络在计算机视觉领域中的全新应用。它们可能不是最根本的开创性作品,但就它们从新颖有趣的角度呈现出全新的想法,为相关领域提供了创造性和启发性的视角。总而言之,这些都是非常酷的作品!

在这里,我将展示我认为在本届 CVPR上最酷的10篇论文。我们将看到最近使用深度网络实现的一些新应用,以及如何进一步使用它们。你可以在阅读过程中根据自己的喜好选择性地进行阅读。让我们开始吧!

▌Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization(用合成数据训练深度网络:通过领域随机化来弥合现实差距)

这篇论文出自Nvidia团队的研究,使用合成数据来训练卷积神经网络(CNN)。 他们为虚幻引擎(Unreal Engine 4) 创建了一个插件用于生成合成的训练数据。这项研究的关键在于他们对训练数据进行了随机化,使其能够包含多种变量,包括:

目标的数量和类型

干扰物的数量,类型,颜色和尺度

感兴趣物体的纹理特征及图片的背景

虚拟摄像机相对于场景的位置

相机相对于场景的角度

光点的数量和位置

他们展示了一些非常有前途的实验结果,证明了合成数据预训练的有效性,这是先前研究从未实现过的结果。如果你之前并不了解这个重要知识的话,那么这项研究将会启发你如何生成并使用合成数据。

▌WESPE: Weakly Supervised Photo Enhancer for Digital Cameras(WESPE:用于数码相机的弱监督照片增强器)

这项研究通过训练生成对抗网络(GAN) 来从美学上自动化增强图片。该研究最酷的地方在于以一种弱监督的方式:你不需要输入-输出的图像对。训练网络时,你只需要一组“好看”的图像(用于输出基础事实) 和一组想要增强的“不好看”的图像(用于输入图像)。然后,通过训练GAN产生输入图像的增强版本,通常所生成的图像会极大地增强原图像的颜色和对比度。

由于不需要精确的图像对,因而你能够快捷方便地使用这个图像增强器。我喜欢这项研究的原因主要是因为它是一种弱监督的方法。虽然我们离无监督学习似乎还很遥远,但对计算机视觉的许多子领域而言,弱监督学习似乎是一个充满希望且值得研究的方向。

▌Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++(用Polygon-RNN ++对图像分割数据集进行高效地交互式标注)

深度神经网络之所以能够表现出如此强大性能的主要原因之一是大型且完全带标注的可用的数据集。然而,对于许多计算机视觉任务而言,这样的数据既费时又昂贵。特别对于图像分割任务而言,我们需要对图像中的每个像素进行类别标注,你可以想象其中的困难性有多大!

Polygon-RNN ++这项研究允许研究者只需在图像中每个目标周围设置粗糙的多边形点,然后该网络能够自动生成图像分割所需的标注信息!本文研究表明这种方法能够在实际应用中很好地推广,并可以用来为分段任务创建快速简便的数据标注!

▌Creating Capsule Wardrobes from Fashion Images

(从时尚配图中创造自己的衣柜)

“嗯,我今天应该穿什么?”如果有人能够每天早上为你解决这个问题,那将再好不过了。

本文研究中,作者设计了一种模型,基于给定的候选服装和配件清单,模型通过收集一组最小的项目集,提供最全面的服装混合搭配的方案。研究中模型使用目标函数进行训练,这些目标函数旨在捕获视觉兼容性,多功能性及特定用户的偏好等关键要素。有了这种衣柜 (Capsule Wardrobes),你可以轻松从衣橱中挑选最佳的服装搭配。

▌Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation (Super SloMo:视频插值中多个中间帧的高质量估计)

你曾经是否想过以超慢的动作拍摄超级酷炫的东西呢?Nvdia的这项研究 Super SloMo就能帮你实现!研究中他们使用 CNN估计视频的中间帧,并能将标准的30fps视频转换为240fps的慢动作!该模型估计视频中间帧之间的光流信息,并在这些信息中间插入视频帧,使慢动作的视频看起来也能清晰锐利。

▌Who Let The Dogs Out? Modeling Dog Behavior From Visual Data(用视觉数据构建狗的行为模型)

这可能是有史以来最酷的研究论文!这项研究的想法是试图模拟狗的思想和行为。研究人员将许多传感器连接到狗的四肢以收集其运动和行为数据;。此外,他们还在狗的头部安装一个摄像头,以便从狗的视角获取相应的运动信息。然后,将一组CNN特征提取器用于从视频帧获取图像特征,并将其与传感器数据一起传递给一组LSTM模型,以便学习并预测狗的动作和行为。这是一项非常新颖而富有创造性的应用研究,其整体的任务框架及独特的执行方式都是本文的亮点!希望这项研究能够为我们未来收集数据和应用深度学习技术的方式带来更多的创造力。

▌Learning to Segment Every Thing(学习分割一切)

在过去的几年里,何凯明团队 (以前在微软研究院,现就职于 Facebook AI Research) 提出了许多重大的计算机视觉研究成果。他们的研究最棒之处在于将创造力和简单性相结合,诸如将 ResNets和Mask R-CNN相结合的研究,这些都不是最疯狂或最复杂的研究思路,但是它们简单易行,并在实践中非常有效。

该团队最新的研究 Learning to Segment Every Thing是 Mask R-CNN研究的扩展,它使模型准确地分割训练期间未出现的类别目标!这对于获取快速且廉价的分割数据标注是非常有用的。事实上,该研究能够获得一些未知目标的基准分割效果(baseline segment),这对于在自然条件中部署这样的分割模型来说是至关重要的,因为在这样的环境下可能存在许多未知的目标。总的来说,这绝对是我们思考如何充分利用深层神经网络模型的正确方向。

▌Soccer on Your Tabletop(桌上足球)

本文的研究是在FIFA世界杯开幕时正式发表的,理应获得最佳时机奖!这的确是CVPR上在计算机视觉领域的“更酷”应用之一。简而言之,作者训练了一个模型,在给定足球比赛视频的情况下,该模型能够输出相应视频的动态3D重建,这意味着你可以利用增强现实技术在任何地方查看它!

本文最大的亮点是结合使用许多不同类型的信息。使用视频比赛数据训练网络,从而相当容易地提取3D网格信息。在测试时,提取运动员的边界框,姿势及跨越多个帧的运动轨迹以便分割运动员。接着你可以轻松地将这些3D片段投射到任何平面上。在这种情况下,你可以通过制作虚拟的足球场,以便在 AR条件下观看的足球比赛!在我看来,这是一种使用合成数据进行训练的方法。无论如何它都是一个有趣的应用程序!

▌LayoutNet: Reconstructing the 3D Room Layout from a Single RGBImage(LayoutNet:从单个RGB图像重建3D房间布局)

这是一个计算机视觉的应用程序,我们可能曾经想过:使用相机拍摄某些东西,然后用数字3D技术重建它。这也正是本文研究的目的,特别是重建 3D房间布局。研究人员使用全景图像作为网络的输入,以获得房间的完整视图。网络的输出是3D重建后的房间布局,具有相当高的准确性!该模型足够强大,可以推广到不同形状、包含许多不同家具的房间。这是一个有趣而好玩、又不需要投入太多研究人员就能实现的应用程序。

▌Learning Transferable Architectures for Scalable Image Recognition (学习可迁移的结构用于可扩展的图像识别任务)

最后要介绍的是一项许多人都认为是深度学习未来的研究:神经架构搜索(NAS)。NAS背后的基本思想是我们可以使用另一个网络来“搜索”最佳的模型结构,而不需要手动地设计网络结构。结构搜索过程是基于奖励函数进行的,通过奖励模型以使其在验证数据集上有良好的表现。此外,作者在论文中表明,这种模型结构比起手动设计的模型能够获得更高的精度。这将是未来巨大的研究方向,特别是对于设计特定的应用程序而言。因为我们真正关注的是设计好的NAS算法,而不是为我们特定的应用设计特定的网络。精心设计的NAS算法将足够灵活,并能够为任何任务找到良好的网络结构。

▌结束语

希望你能从中学到一些新的、有用的东西,甚至能够为你自己的研究与工作找到一些新的想法!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2748

    浏览量

    106383
  • 深度学习
    +关注

    关注

    73

    文章

    5206

    浏览量

    119804
  • cnn
    cnn
    +关注

    关注

    3

    文章

    322

    浏览量

    21248

原文标题:CVPR 2018 上10篇最酷论文,圈儿里最Cool的人都在看

文章出处:【微信号:AI_Thinker,微信公众号:人工智能头条】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Nullmax提出多相机3D目标检测新方法QAF2D

    今天上午,计算机视觉领域顶会CVPR公布了最终的论文接收结果,Nullmax感知部门的3D目标检测研究《Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors》入选
    的头像 发表于 02-27 16:38 508次阅读
    Nullmax提出多相机3D目标检测新方法QAF2D

    双十一,论文分享

    合盘托出吧!那么资料会不会过时啊?对于做物理层算法和数字信号处理算法的人而言,不会存在这些担忧,因为知识是叠加进展的,如同学习数学!每年都在论文库增加素材! 2023年9月,关注人数超过18000人,再次分享资料!之前就说
    的头像 发表于 11-11 11:55 227次阅读
    双十一,<b class='flag-5'>论文</b>分享

    2023年10最酷的Orange Pi 项目,太有想象力了!

    由于超高的性价比,OrangePi在全球市场赢得了众多粉丝,成为许多开发项目的最佳选择。最近出现了很多很酷的OrangePi项目,我们搜集整理了一份最酷的项目清单,向你展示香橙派的超强能力!看了这个
    的头像 发表于 11-01 13:50 670次阅读
    2023年<b class='flag-5'>10</b>个<b class='flag-5'>最酷</b>的Orange Pi 项目,太有想象力了!

    【AI简报20231020期】出自华人之手:DALL-E 3论文公布、上线ChatGPT!超火迷你GPT-4

    1. OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人 原文: https://mp.weixin.qq.com
    的头像 发表于 10-21 16:35 650次阅读
    【AI简报20231020期】出自华人之手:DALL-E 3<b class='flag-5'>论文</b>公布、上线ChatGPT!超火迷你GPT-4

    CVPR 2023 | 完全无监督的视频物体分割 RCF

    TLDR: 视频分割一直是重标注的一个 task,这篇 CVPR 2023 文章研究了完全不需要标注的视频物体分割。仅使用 ResNet,RCF模型在 DAVIS16/STv2/FBMS59 上提升
    的头像 发表于 07-16 20:45 295次阅读
    <b class='flag-5'>CVPR</b> 2023 | 完全无监督的视频物体分割 RCF

    我一直渴望拆开苹果HomePod迷你智能扬声器,多图预警!

    长期以来,我一直渴望拆开苹果HomePod迷你智能扬声器,作为我已经发布的对各种Amazon Echo和Google (Nest) Home设备的多次拆解的后续。   不过,全新的HomePod
    的头像 发表于 07-04 08:44 3114次阅读
    我一直<b class='flag-5'>渴望</b>拆开苹果HomePod迷你智能扬声器,多图预警!

    低亮度人脸检测、附源码——CVPR2021之 Low Light Face Detection【一文读懂】

    声明:作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️   10w+读者 论文基本信息【 CVPR2021 】 HLA-Face: Joint High-Low
    的头像 发表于 07-03 15:43 608次阅读
    低亮度人脸检测、附源码——<b class='flag-5'>CVPR</b>2021之 Low Light Face Detection【一文读懂】

    中国团队包揽CVPR 2021弱光人脸检测挑战赛前三名!高分论文已公开播

    来源:CVPR 2021 UG2+ 编辑:好困 【新智元导读】中国团队包揽CVPR 2021 UG2+挑战赛弱光人脸检测赛道前三,其中TAL-ai更是以74.89的高分夺得第一。 CVPR作为是全球
    的头像 发表于 07-02 15:35 297次阅读
    中国团队包揽<b class='flag-5'>CVPR</b> 2021弱光人脸检测挑战赛前三名!高分<b class='flag-5'>论文</b>已公开播

    深兰团队已连续5年在CVPR挑战赛中斩获冠军

    近日,被誉为 全球计算机视觉三大顶级会议之一的CVPR 2023 在加拿大温哥华隆重举行。本次大会公布了多个研究项目的科研成果及相关参赛队伍的成绩,深兰团队在参赛的六个项目中取得了“一冠三亚二季
    的头像 发表于 06-26 11:11 319次阅读

    创造历史!商汤联合团队斩获CVPR最佳论文,推出首个“感知决策一体化”自动驾驶通用大模型

    一篇最佳论文,一篇最佳论文候选,共计54篇论文被接收 ,商汤科技及联合实验室交出CVPR 2023闪亮的成绩单。 6月18日-22日,全球计算机视觉盛会
    的头像 发表于 06-22 06:15 232次阅读
    创造历史!商汤联合团队斩获<b class='flag-5'>CVPR</b>最佳<b class='flag-5'>论文</b>,推出首个“感知决策一体化”自动驾驶通用大模型

    CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

    「Transformer」和「ViT」的使用率下降并不意味着Transformer模型过时,而是反映了这些模型在2022年的主导地位。2021年,「Transformer」这个词只出现在37篇论文中。2022年,这个数字飙升至201。Transformer不会很快消失。
    的头像 发表于 05-24 15:25 904次阅读
    <b class='flag-5'>CVPR</b> 2023<b class='flag-5'>论文</b>总结!CV最热领域颁给多模态、扩散模型

    7种方法教您怎么进步电感Q值

    的方法来进步电感Q值。 7种方法教您怎么进步电感Q值总得来说,以上7种进步电感Q值的方法,就是经过对电感资料,尺度,绕线方法以及工艺的优化,来尽可能的下降电感损耗,然后
    发表于 05-19 15:08

    CVPR 2023最佳论文候选出炉!

    随后,利用估计的头部姿势作为输入,EgoEgo利用条件扩散,以产生多个可信的全身运动。这种头部和身体姿势的分离消除了对配对自我中心视频和三维人体运动的训练数据集的需要,使研究人员能够分别利用大规模自我中心视频数据集和运动捕捉数据集。
    的头像 发表于 05-19 10:11 833次阅读
    <b class='flag-5'>CVPR</b> 2023最佳<b class='flag-5'>论文</b>候选出炉!

    边缘计算相关论文汇总

    刚读研发现找论文真的很累   给大伙做个论文汇总吧  近三年ccf A  B期刊论文(无会议论文) 资源链接: 边缘计算论文汇总CCFAB
    发表于 05-18 15:45 0次下载
    边缘计算相关<b class='flag-5'>论文</b>汇总

    如何使用ChatGPT在1天内完成毕业论文

    如何使用ChatGPT在1天内完成毕业论文 几天前,亲眼见证了到一位同学花了1天时间用ChatGPT完成了他的毕业论文,世道要变,要学会使用黑科技才能混的下去。废话到此结束,下面说明这么用AI生成
    的头像 发表于 05-17 16:22 683次阅读
    如何使用ChatGPT在1天内完成毕业<b class='flag-5'>论文</b>