0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超越 Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI

MqC7_CAAI_1981 来源:YXQ 2019-04-25 17:58 次阅读

谷歌大脑的Quoc Le团队,用神经网络架构搜索 (NAS) ,发现了一个目标检测模型。长这样:

看不清请把手机横过来

它的准确率速度都超过了大前辈Mask-RCNN;也超过了另外两只行业精英:FPN和SSD

模型叫做NAS-FPN。大佬Quoc Le说,它的长相完全在想象之外,十分前卫:

喜讯发布一日,已收获600颗心

AI的脑洞果然和人类不一样。对比一下,目标检测界的传统方法FPN (特征金字塔网络) 长这样:

谷歌大脑说,虽然网络架构搜索 (NAS) 并不算新颖,但他们用的搜索空间与众不同。

怎么搜出来?

在NAS-FPN出现之前,地球上最强大的目标检测模型,架构都是人类手动设计的。

这是Mask-RCNN的成果

NAS是一种自动调参的方法,调的不是训练超参数,是网络架构超参数:比如网络多少层、每层都是什么算子、卷积层里的过滤器大小等等。

它可以在许多许多不同的架构里,快速找到性能最好的那一个。

所以,要把目标检测的常用架构FPN(特征金字塔网络) 和NAS结合起来,发现那只最厉害的AI。

但问题是搜索空间太大,特征横跨许多不同的尺度。

于是,团队基于RetinaNet框架,设计了一个新的搜索空间:

这里,一个FPN是由许多的“合并单元 (Merging Cells) ”组成的。

是要把输入的不同尺度/分辨率的特征层,合并到RetinaNet的表征里去。

具体怎样合并?这是由一个RNN控制器来决定的,经过四个步骤:

一是,从输入里任选一个特征层;

二是,从输入里再选一个特征层;

三是,选择输出的特征分辨率;

四是,选择一种二进制运算,把两个特征层 (用上一步选定的分辨率) 合并起来。

第四步有两种运算可选,一种是加和 (sum) ,一种是全局池化 (Global Pooling) 。两个都是简单、高效的运算,不会附加任何带训练的参数

一个Cell就这样合并出来了,但这只是中间结果。把它加到刚才的输入列表里,和其他特征层排在一起。

然后,就可以重新选两个特征层,重复上面的步骤一、二、四,保持分辨率不变。

(团队说,如果要避免选到相同分辨率的两个特征层,就不要用步长8。2和4是比较合适的步长。)

就这样,不停地生成新的Cell。

停止搜索的时候,最后生成的5个Cell,会组成“被选中的FPN”出道

那么问题来了,搜索什么时候能停?

不是非要全部搜索完,随时都可以退出。反正分辨率是不变的,FPN是可以随意扩展的。

团队设定了Early Exit (提前退出) 机制,用来权衡速度和准确率。

最终发布NAS-FPN的,是AI跑了8,000步之后,选取最末5个Cell生成的网络。回顾一下:

看不清请把手机横过来

从原始FPN (下图a) 开始,它走过的路大概是这样的:

跑得越久,生成的网络就越蜿蜒。

模型怎么样?

NAS-FPN可以依托于各种骨架:MobileNet,ResNet,AmoebaNet……

团队选择的是AmoebaNet骨架。

那么,用COCO test-dev数据集,和那些强大的前辈比一比高清大图检测效果。

比赛结果发布:

看不清请把手机横过来

NAS-FPN拿到了48.3的AP分,超过了Mask-RCNN,并且用时更短 (右边第二列是时间) 。

另外一场比赛,是移动检测 (320x320) ,NAS-FPN的轻量版本,跑在MobileNet2骨架上:

超过了厉害的前辈SSD轻量版,虽然,还是没有赶上YOLOv3

YOLOv3过往成果展

不过,打败Mask-RCNN已经是值得庆祝的成就了。

One More Thing

NAS既然如此高能,应该已经搜索过很多东西了吧?

谷歌大脑的另一位成员David Ha列出了7种

1) 基于CNN的图像分类器,2)RNN,3) 激活函数,4) SGD优化器,5) 数据扩增,6) Transformer,7) 目标检测。

并发射了直击灵魂的提问:下一个被搜的会是什么?

他的同事摘得了最佳答案:NAS啊

NAS

论文传送门:https://arxiv.org/pdf/1904.07392.pdf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5839

    浏览量

    103229
  • AI
    AI
    +关注

    关注

    87

    文章

    26364

    浏览量

    263957

原文标题:超越Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开发者手机 AI - 目标识别 demo

    功能简介 该应用是在Openharmony 4.0系统上开发的一目标识别的AI应用,旨在从上到下打通Openharmony AI子系统,展示Openharmony系统的
    发表于 04-11 16:14

    谷歌发布Axion新款数据中心AI芯片,性能超越x86及云端

    谷歌预计将通过Google Cloud提供Axion AI芯片给客户。谷歌强调这款基于ARM的CPU产品具有优越的性能表现,甚至超越了传统的x86芯片及云端通用ARM芯片。
    的头像 发表于 04-10 16:32 439次阅读

    【国产FPGA+OMAPL138开发板体验】(原创)5.FPGA的AI加速源代码

    复杂的数据依赖关系等问题。编写FPGA用于AI加速的程序可不是一件简单的事,它涉及到硬件描述语言和并行计算的知识。下面我的目标是加速一简单的全连接神经网络层,现在开始写代码: // 导入必要的库
    发表于 02-12 16:18

    基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

    基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统#2023集创赛#紫光同创#小眼睛科技助力紫光同创高校生态建设@小眼睛科技 获奖作品展示:华南理工大学+CR8_Pro队
    发表于 11-02 17:51

    都2023年了,Faster-RCNN还能用吗?

    在多数深度学习开发者的印象中Faster-RCNNMask-RCNN作为早期的RCNN系列网络现在应该是日薄西山,再也没有什么值得留恋的地方,但是你却会发现Pytorch无论哪个版本的torchvision都一直在支持Fast
    的头像 发表于 10-11 16:44 374次阅读
    都2023年了,Faster-<b class='flag-5'>RCNN</b>还能用吗?

    【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

    本文将介绍如何使用Vitis-AI加速YOLOX模型实现视频中的目标检测,并对相关源码进行解读。由于演示的示例程序源码是Vitis-AI开源项目提供的,本文演示之前会介绍所需要的准备工
    发表于 10-06 23:32

    【KV260视觉入门套件试用体验】基于Vitis AI的ADAS目标识别

    。 三、ADAS目标识别 Vitis AI 提供L了许多实例,其中包括一ADAS目标识别的demo,在Vitis-AI/examples/
    发表于 09-27 23:21

    【KV260视觉入门套件试用体验】六、VITis AI车牌检测&amp;车牌识别

    车牌的图像进行分析,最终截取出只包含车牌的一图块的过程。这个步骤的主要目的是降低在车牌识别过程中的计算量,如果直接对原始的图像进行车牌识别,会非常的慢,因此需要检测的过程。 车牌识别是一种通过计算机
    发表于 09-26 16:28

    【KV260视觉入门套件试用体验】五、VITis AI (人脸检测和人体检测)

    --clean 二、Vitis AI 人脸检测 在边缘平台或数据中心平台上运行Vitis AI Library 示例之前,请下载vitis_ai
    发表于 09-26 16:22

    AI智能呼叫中心

    随着科技的飞速发展,人工智能(AI)已经成为了各行各业的关键技术,其中,AI智能呼叫中心的出现,给传统的呼叫中心带来了巨大的改变与创新,本文将探讨AI智能呼叫中心的优势,包括自动化处理、个性化服务
    发表于 09-20 17:53

    请问在E203内核如何执行AI程序?

    我想问一下去年参赛的同学或者知道的大佬,在蜂鸟平台上执行诸如人脸检测AI应用是需要自己实现一C语言版本的代码吗?我看大部分的程序都是基于python实现的。
    发表于 08-12 06:44

    AI 人工智能的未来在哪?

    人工智能、AI智能大模型已经孵化;繁衍过程将突飞猛进,ChatGPT已经上线。 世界首富马斯克认为AI对人类是一种威胁;谷歌前CEO施密特认为AI和机器学习对人类有很大益处。 每个国家
    发表于 06-27 10:48

    国产生成式AI,不能仅仅看向前方#生成式AI #信息无障碍

    AI
    脑极体
    发布于 :2023年06月15日 19:06:36

    图灵慧眼AI视觉检测 酸奶盒子黑点检测# 视觉检测# #AI

    AI
    jf_06850557
    发布于 :2023年06月15日 16:40:17

    AI视觉检测在工业领域的应用

    随着制造业的智能化、自动化程度越来越高,AI视觉检测系统已经成为一种重要的智能制造设备,它能够大幅提高生产线上的检测能力和效率。 一、AI视觉检测
    发表于 06-15 16:21