超越 Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI-电子发烧友网

谷歌大脑的Quoc Le团队，用神经网络架构搜索 (NAS) ，发现了一个目标检测模型。长这样：

△看不清请把手机横过来

它的准确率和速度都超过了大前辈Mask-RCNN；也超过了另外两只行业精英：FPN和SSD。

模型叫做NAS-FPN。大佬Quoc Le说，它的长相完全在想象之外，十分前卫：

△喜讯发布一日，已收获600颗心

AI的脑洞果然和人类不一样。对比一下，目标检测界的传统方法FPN (特征金字塔网络) 长这样：

谷歌大脑说，虽然网络架构搜索 (NAS) 并不算新颖，但他们用的搜索空间与众不同。

怎么搜出来？

在NAS-FPN出现之前，地球上最强大的目标检测模型，架构都是人类手动设计的。

△这是Mask-RCNN的成果

NAS是一种自动调参的方法，调的不是训练超参数，是网络架构超参数：比如网络多少层、每层都是什么算子、卷积层里的过滤器大小等等。

它可以在许多许多不同的架构里，快速找到性能最好的那一个。

所以，要把目标检测的常用架构FPN(特征金字塔网络) 和NAS结合起来，发现那只最厉害的AI。

但问题是搜索空间太大，特征横跨许多不同的尺度。

于是，团队基于RetinaNet框架，设计了一个新的搜索空间：

这里，一个FPN是由许多的“合并单元 (Merging Cells) ”组成的。

是要把输入的不同尺度/分辨率的特征层，合并到RetinaNet的表征里去。

具体怎样合并？这是由一个RNN控制器来决定的，经过四个步骤：

一是，从输入里任选一个特征层；

二是，从输入里再选一个特征层；

三是，选择输出的特征分辨率；

四是，选择一种二进制运算，把两个特征层 (用上一步选定的分辨率) 合并起来。

第四步有两种运算可选，一种是加和 (sum) ，一种是全局池化 (Global Pooling) 。两个都是简单、高效的运算，不会附加任何带训练的参数。

一个Cell就这样合并出来了，但这只是中间结果。把它加到刚才的输入列表里，和其他特征层排在一起。

然后，就可以重新选两个特征层，重复上面的步骤一、二、四，保持分辨率不变。

(团队说，如果要避免选到相同分辨率的两个特征层，就不要用步长8。2和4是比较合适的步长。)

就这样，不停地生成新的Cell。

停止搜索的时候，最后生成的5个Cell，会组成“被选中的FPN”出道。

那么问题来了，搜索什么时候能停？

不是非要全部搜索完，随时都可以退出。反正分辨率是不变的，FPN是可以随意扩展的。

团队设定了Early Exit (提前退出) 机制，用来权衡速度和准确率。

最终发布NAS-FPN的，是AI跑了8,000步之后，选取最末5个Cell生成的网络。回顾一下：

△看不清请把手机横过来

从原始FPN (下图a) 开始，它走过的路大概是这样的：

跑得越久，生成的网络就越蜿蜒。

模型怎么样？

NAS-FPN可以依托于各种骨架：MobileNet，ResNet，AmoebaNet……

团队选择的是AmoebaNet骨架。

那么，用COCO test-dev数据集，和那些强大的前辈比一比高清大图检测效果。

比赛结果发布：

△看不清请把手机横过来

NAS-FPN拿到了48.3的AP分，超过了Mask-RCNN，并且用时更短 (右边第二列是时间) 。

另外一场比赛，是移动检测 (320x320) ，NAS-FPN的轻量版本，跑在MobileNet2骨架上：

超过了厉害的前辈SSD轻量版，虽然，还是没有赶上YOLOv3。

△YOLOv3过往成果展

不过，打败Mask-RCNN已经是值得庆祝的成就了。

One More Thing

NAS既然如此高能，应该已经搜索过很多东西了吧？

谷歌大脑的另一位成员David Ha列出了7种：

1) 基于CNN的图像分类器，2)RNN，3) 激活函数，4) SGD优化器，5) 数据扩增，6) Transformer，7) 目标检测。

并发射了直击灵魂的提问：下一个被搜的会是什么？

他的同事摘得了最佳答案：NAS啊。

△NAS

论文传送门：https://arxiv.org/pdf/1904.07392.pdf

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5839

浏览量
103229
AI

AI

+关注

关注
87

文章
26364

浏览量
263957

原文标题：超越Mask-RCNN：谷歌大脑的AI，自己写了个目标检测AI

文章出处：【微信号：CAAI-1981，微信公众号：中国人工智能学会】欢迎添加关注！文章转载请注明出处。

开发者手机 AI - 目标识别 demo

功能简介该应用是在Openharmony 4.0系统上开发的一个目标识别的AI应用，旨在从上到下打通Openharmony AI子系统，展示Openharmony系统的

发表于 04-11 16:14

谷歌发布Axion新款数据中心AI芯片，性能超越x86及云端

谷歌预计将通过Google Cloud提供Axion AI芯片给客户。谷歌强调这款基于ARM的CPU产品具有优越的性能表现，甚至超越了传统的x86芯片及云端通用ARM芯片。

发表于 04-10 16:32 •439次阅读

【国产FPGA+OMAPL138开发板体验】（原创）5.FPGA的AI加速源代码

复杂的数据依赖关系等问题。编写FPGA用于AI加速的程序可不是一件简单的事，它涉及到硬件描述语言和并行计算的知识。下面我的目标是加速一个简单的全连接神经网络层，现在开始写代码： // 导入必要的库

发表于 02-12 16:18

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统#2023集创赛#紫光同创#小眼睛科技助力紫光同创高校生态建设@小眼睛科技获奖作品展示：华南理工大学+CR8_Pro队

发表于 11-02 17:51

都2023年了，Faster-RCNN还能用吗？

在多数深度学习开发者的印象中Faster-RCNN与Mask-RCNN作为早期的RCNN系列网络现在应该是日薄西山，再也没有什么值得留恋的地方，但是你却会发现Pytorch无论哪个版本的torchvision都一直在支持Fast

发表于 10-11 16:44 •374次阅读

都2023年了，Faster-<b class='flag-5'>RCNN</b>还能用吗？

【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

本文将介绍如何使用Vitis-AI加速YOLOX模型实现视频中的目标检测，并对相关源码进行解读。由于演示的示例程序源码是Vitis-AI开源项目提供的，本文演示之前会介绍所需要的准备工

发表于 10-06 23:32

【KV260视觉入门套件试用体验】基于Vitis AI的ADAS目标识别

。三、ADAS目标识别 Vitis AI 提供L了许多实例，其中包括一个ADAS目标识别的demo，在Vitis-AI/examples/

发表于 09-27 23:21

【KV260视觉入门套件试用体验】六、VITis AI车牌检测&车牌识别

车牌的图像进行分析，最终截取出只包含车牌的一个图块的过程。这个步骤的主要目的是降低在车牌识别过程中的计算量，如果直接对原始的图像进行车牌识别，会非常的慢，因此需要检测的过程。车牌识别是一种通过计算机

发表于 09-26 16:28

【KV260视觉入门套件试用体验】五、VITis AI (人脸检测和人体检测)

--clean 二、Vitis AI 人脸检测在边缘平台或数据中心平台上运行Vitis AI Library 示例之前，请下载vitis_ai

发表于 09-26 16:22

AI智能呼叫中心

随着科技的飞速发展，人工智能(AI)已经成为了各行各业的关键技术，其中，AI智能呼叫中心的出现，给传统的呼叫中心带来了巨大的改变与创新，本文将探讨AI智能呼叫中心的优势，包括自动化处理、个性化服务

发表于 09-20 17:53

请问在E203内核如何执行AI程序？

我想问一下去年参赛的同学或者知道的大佬，在蜂鸟平台上执行诸如人脸检测等AI应用是需要自己实现一个C语言版本的代码吗？我看大部分的程序都是基于python实现的。

发表于 08-12 06:44

AI 人工智能的未来在哪？

人工智能、AI智能大模型已经孵化；繁衍过程将突飞猛进，ChatGPT已经上线。世界首富马斯克认为AI对人类是一种威胁；谷歌前CEO施密特认为AI和机器学习对人类有很大益处。每个国家

发表于 06-27 10:48

国产生成式AI，不能仅仅看向前方#生成式AI #信息无障碍

脑极体

发布于 :2023年06月15日 19:06:36

图灵慧眼AI视觉检测酸奶盒子黑点检测# 视觉检测# #AI

jf_06850557

发布于 :2023年06月15日 16:40:17

AI视觉检测在工业领域的应用

随着制造业的智能化、自动化程度越来越高，AI视觉检测系统已经成为一种重要的智能制造设备，它能够大幅提高生产线上的检测能力和效率。一、AI视觉检测

发表于 06-15 16:21

搜索历史

超越 Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI

评论

开发者手机 AI - 目标识别 demo

谷歌发布Axion新款数据中心AI芯片，性能超越x86及云端

【国产FPGA+OMAPL138开发板体验】（原创）5.FPGA的AI加速源代码

基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

都2023年了，Faster-RCNN还能用吗？

【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

【KV260视觉入门套件试用体验】基于Vitis AI的ADAS目标识别

【KV260视觉入门套件试用体验】六、VITis AI车牌检测&车牌识别

【KV260视觉入门套件试用体验】五、VITis AI (人脸检测和人体检测)

AI智能呼叫中心

请问在E203内核如何执行AI程序？

AI 人工智能的未来在哪？

国产生成式AI，不能仅仅看向前方#生成式AI #信息无障碍

图灵慧眼AI视觉检测酸奶盒子黑点检测# 视觉检测# #AI

AI视觉检测在工业领域的应用