0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超越 Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI

MqC7_CAAI_1981 来源:YXQ 2019-04-25 17:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌大脑的Quoc Le团队,用神经网络架构搜索 (NAS) ,发现了一个目标检测模型。长这样:

看不清请把手机横过来

它的准确率速度都超过了大前辈Mask-RCNN;也超过了另外两只行业精英:FPN和SSD

模型叫做NAS-FPN。大佬Quoc Le说,它的长相完全在想象之外,十分前卫:

喜讯发布一日,已收获600颗心

AI的脑洞果然和人类不一样。对比一下,目标检测界的传统方法FPN (特征金字塔网络) 长这样:

谷歌大脑说,虽然网络架构搜索 (NAS) 并不算新颖,但他们用的搜索空间与众不同。

怎么搜出来?

在NAS-FPN出现之前,地球上最强大的目标检测模型,架构都是人类手动设计的。

这是Mask-RCNN的成果

NAS是一种自动调参的方法,调的不是训练超参数,是网络架构超参数:比如网络多少层、每层都是什么算子、卷积层里的过滤器大小等等。

它可以在许多许多不同的架构里,快速找到性能最好的那一个。

所以,要把目标检测的常用架构FPN(特征金字塔网络) 和NAS结合起来,发现那只最厉害的AI。

但问题是搜索空间太大,特征横跨许多不同的尺度。

于是,团队基于RetinaNet框架,设计了一个新的搜索空间:

这里,一个FPN是由许多的“合并单元 (Merging Cells) ”组成的。

是要把输入的不同尺度/分辨率的特征层,合并到RetinaNet的表征里去。

具体怎样合并?这是由一个RNN控制器来决定的,经过四个步骤:

一是,从输入里任选一个特征层;

二是,从输入里再选一个特征层;

三是,选择输出的特征分辨率;

四是,选择一种二进制运算,把两个特征层 (用上一步选定的分辨率) 合并起来。

第四步有两种运算可选,一种是加和 (sum) ,一种是全局池化 (Global Pooling) 。两个都是简单、高效的运算,不会附加任何带训练的参数。

一个Cell就这样合并出来了,但这只是中间结果。把它加到刚才的输入列表里,和其他特征层排在一起。

然后,就可以重新选两个特征层,重复上面的步骤一、二、四,保持分辨率不变。

(团队说,如果要避免选到相同分辨率的两个特征层,就不要用步长8。2和4是比较合适的步长。)

就这样,不停地生成新的Cell。

停止搜索的时候,最后生成的5个Cell,会组成“被选中的FPN”出道

那么问题来了,搜索什么时候能停?

不是非要全部搜索完,随时都可以退出。反正分辨率是不变的,FPN是可以随意扩展的。

团队设定了Early Exit (提前退出) 机制,用来权衡速度和准确率。

最终发布NAS-FPN的,是AI跑了8,000步之后,选取最末5个Cell生成的网络。回顾一下:

看不清请把手机横过来

从原始FPN (下图a) 开始,它走过的路大概是这样的:

跑得越久,生成的网络就越蜿蜒。

模型怎么样?

NAS-FPN可以依托于各种骨架:MobileNet,ResNet,AmoebaNet……

团队选择的是AmoebaNet骨架。

那么,用COCO test-dev数据集,和那些强大的前辈比一比高清大图检测效果。

比赛结果发布:

看不清请把手机横过来

NAS-FPN拿到了48.3的AP分,超过了Mask-RCNN,并且用时更短 (右边第二列是时间) 。

另外一场比赛,是移动检测 (320x320) ,NAS-FPN的轻量版本,跑在MobileNet2骨架上:

超过了厉害的前辈SSD轻量版,虽然,还是没有赶上YOLOv3

YOLOv3过往成果展

不过,打败Mask-RCNN已经是值得庆祝的成就了。

One More Thing

NAS既然如此高能,应该已经搜索过很多东西了吧?

谷歌大脑的另一位成员David Ha列出了7种

1) 基于CNN的图像分类器,2)RNN,3) 激活函数,4) SGD优化器,5) 数据扩增,6) Transformer,7) 目标检测。

并发射了直击灵魂的提问:下一个被搜的会是什么?

他的同事摘得了最佳答案:NAS啊

NAS

论文传送门:https://arxiv.org/pdf/1904.07392.pdf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112191
  • AI
    AI
    +关注

    关注

    91

    文章

    42003

    浏览量

    303087

原文标题:超越Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    没有AI大脑,别叫全屋智能

    打破伪智能困境,美的为家装上AI大脑MevoX
    的头像 发表于 03-16 09:13 1257次阅读
    没有<b class='flag-5'>AI</b><b class='flag-5'>大脑</b>,别叫全屋智能

    论马斯克的预言:AI使人类边缘化

    呈指数级爆炸增长,在这种级别的AI面前,人类的智能总和将显得微不足道,从而导致人类被边缘化。 合理性 技术发展趋势角度:从当前技术发展来看,AI确实在不断进步,如科研团队完成的果蝇“数字大脑”嫁接
    发表于 03-14 05:27

    谷歌自己发电,AI 系统会回到基础工程吗?

    2026年,谷歌开始自己发电。这不是能源布局,这是系统焦虑。当全球算力顶端的公司,把注意力转向电力,意味着一信号——AI的瓶颈,正在下沉。 不再只是芯片,不再只是参数。而是系统能否
    的头像 发表于 02-12 15:59 2580次阅读
    当<b class='flag-5'>谷歌</b><b class='flag-5'>自己</b>发电,<b class='flag-5'>AI</b> 系统会回到基础工程吗?

    使用NORDIC AI的好处

    Nordic 的 Edge AI 主要有以下几个好处(基于官方资料总结): 极低功耗、延长电池寿命 在本地运行 AI,减少无线传输次数,而无线收发是最耗电的部分。设备只需上传“结果/事件”,而不是
    发表于 01-31 23:16

    瑞芯微SOC智能视觉AI处理器

    能力。核心升级: 增加了高规格的视频编码能力,支持H.264/H.265格式的4K@60fps编码。目标: 解决了RK1126只能“分析”不能“录制”的短板,成为一集视频采集、AI智能分析、高质量编码录制于一体的完整解决方案。
    发表于 12-19 13:44

    VS680 HDMI AI分析解决方案 #目标识别 #视频翻译 #AI #芯片

    AI
    深蕾半导体
    发布于 :2025年11月12日 10:29:33

    【CPKCOR-RA8D1】AI人脸检测

    在瑞萨 RA8D1 开发板上集成 AI 人脸检测功能 1. 项目概述 该项目是根据官方AI人脸检测代码,在官方显示屏显示代码的基础上进行修改而得。由于本人实力有限,最后的结果并不理想,
    发表于 10-29 17:59

    谷歌AlphaEarth和维智时空AI大模型的核心差异

    谷歌AlphaEarth和维智时空AI大模型在技术理念上存在诸多共性,但两者在目标尺度、数据来源、技术实现和应用模式上存在显著差异。
    的头像 发表于 10-22 14:50 1142次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    解决人类智能无法解决的复杂问题。实现AGI的AI相关研究机构和企业的主要目标。 一、生成式AI点燃AGI之火 CHatGPT就是已经取得成功的生成式AI技术。很多人都充满了信心,相信不
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五范式了,与实验科学、理论科学、计算科学、数据驱
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+化学或生物方法实现AI

    21世纪是生命科学的世纪,生物技术的潜力将比电子技术更深远----- 里卡多-戈蒂尔 半导体实现AI应该没什么疑问了吧?化学、生物怎么实现AI呢? 生物大脑是一由无数神经元通过突触连
    发表于 09-15 17:29

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一由无数神经元通过突触连接而成
    发表于 09-06 19:12

    AI 芯片浪潮下,职场晋升新契机?

    对复杂场景中目标检测与识别的速度和精度。在此过程中,对算法的理解深度、芯片架构与算法的协同能力,都会成为职称评审中的加分项。 除技术能力外,创新能力同样不可或缺。AI 芯片行业发展日新月异,新技术
    发表于 08-19 08:58

    在K230中,如何使用AI Demo中的object_detect_yolov8n,YOLOV8多目标检测模型?

    在K230的AI开发教程文档中,可以看到有源码的AI Demo,其中包括yolov8n模型,在仓库里可以看到源码 我想请问各位大佬,如何使用这个程序?如何更改程序,替换为我自己的数据集和训练后的模型?
    发表于 08-07 06:48

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    创新、应用创新、系统创新五部分,接下来一一解读。 算法创新 在深度学习AI芯片的创新上,书中围绕大模型与Transformer算法的算力需求,提出了一系列架构与方法创新,包括存内计算技术、基于开源
    发表于 07-28 13:54