0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低功耗目标检测系统设计挑战赛:中科院、清华分获GPU与FPGA组冠军

ml8z_IV_Technol 来源:未知 作者:李倩 2018-07-16 10:36 次阅读

2018 年 6 月 28 日,由电子自动化设计顶级会议DAC' 2018主办的「低功耗目标检测系统设计挑战赛」于加州旧金山于落下帷幕。来自中科院计算所的 ICT-CAS 团队和来自清华大学的 TGIIF 团队在全球 114 支参赛队伍中脱颖而出,分获 GPU 组和 FPGA 组的冠军。本届比赛旨在为无人机设计高精度且高能效的物体检测系统,以满足实际复杂场景的需要。比赛任务极具挑战性,参赛设计需要考虑小物体及被遮蔽物体检测,需要区分同场景多个相似目标,也需要考虑检测速度及功耗等多方面因素。参赛队伍来自清华大学、北京大学、中科院、UIUC、CMU、IBM、Cadence 等全球多个优秀科研机构。

转自机器之心

无人机在工业、农业、军事及消费级市场均有如土地测绘、巡检监测、物资配送、灾后救援等重要作用。其中,实现高精度且高能效物体检测是开展所有无人机任务的基本要素,也是本领域急需提高的方向。由于航拍数据集(无人机视角)的缺失,进一步提升无人机物体检测系统变得更加困难。

在这样的背景下,圣母大学的史弋宇教授,匹兹堡大学的胡京通教授,香港城市大学的余备教授和 Cognite Ventures 公司的 CEO Christopher Rowen 发起「低功耗目标检测系统设计挑战赛」,并在 DAC' 2018 成功举办。该比赛由 Nvidia、Xilinx 和 DJI 大疆创新赞助,由圣母大学博士后徐小维和匹兹堡大学博士生张鑫燚进行评测。Nvidia 和 Xilinx 分别为 GPU 和 FPGA 组的参赛队伍提供免费的嵌入式计算设备 TX2 GPU 和 PYNQ Z-1 FPGA。大疆创新为比赛提供了高达 150k 份由无人机在实际环境中采集的数据并提供了准确标注。

比赛中使用到的两种硬件平台: TX2 GPU(左)和 PYNQ Z-1 FPGA(右)

比赛从 2017 年 10 月 16 日正式开始,于 2018 年 5 月 28 日结束,共吸引 114 支来自全球多个科研机构的队伍参加。其中,53 支队伍参与 GPU 组比赛,61 支队伍参与 FPGA 组比赛。最终,两个组别前三名的队伍将被邀请至旧金山,在DAC'2018 上接受颁奖。同时,获奖队伍将能在大会上分享他们的设计并进行现场展示。

挑战 1: 小物体及遮蔽物检测

由于所有图片均在无人机视角下拍摄,大量图片中的待检测物体都非常小,且有很大的概率被树木和建筑物遮挡。这些物体本身的特征在如此小的尺度下会大大提升检测的难度。

小物体检测:绿色框对应行驶中的汽车为检测目标

挑战 2: 同一物体检测

与传统的物体检测不一样,本次比赛需要参赛队伍检测同一个物体。在无人机跟随应用中,无人机需要准确地检测出指定物体(如无人机操控者、车辆、动物等)并进行跟随飞行。当场景出现多个相似物体时,无人机也不能跟丢或跟错对象。此应用给物体检测带来了新的挑战。

特定行人检测:绿色框对应的是正确的检测目标,蓝色和红色狂均对应错误的行人。

挑战 3:高精度 vs 低功耗

比赛采用的评价指标是精度,速度和能耗的结合(评分细则详见 1)。考虑到 GPU 组及 FPGA 组使用了不同的计算能力硬件设备,比赛对检测速度提出了不同的要求。其中 GPU 设计需运行至 20 FPS,FPGA 设计需达到 5 FPS。

GPU 组前三强

GPU 组的前三名分别是中科院计算所的 ICT-CAS 团队,浙江大学的 DeepZ 团队和山东大学的 SDU-Legend 团队。三个队伍均采用了深度学习完成比赛,也都采用 Yolo 神经网络作为他们的基础设计。

GPU 组第一名: ICT-CAS

ICT-CAS 团队使用了 feature extractor, tucker decomposition and precision scaling 相关技术。在每一种具体的方案中尝试了多种技术记忆组合以减少计算和内存消耗。在计算中采用了半精度(16bits)进行计算并使用 TensorRT 来提高计算速度。

GPU 组第二名: DeepZ

DeepZ 团队使用 Yolo-v2 作为骨干网络进行特征提取和检测。为了应对较小物体检测的问题,该团队使用了 Feature Pyramid Network 来获得上下文相关的特征。同时,focal loss function 的引入来缓解单一物体检测与多个候选框的不平衡问题。该团队 对 Yolo-v2 网络进行了一定的改进,改进后的网络结构如下图所示。

GPU 组第三名: SDU-Legend

SDU-Legend 团队基于 Yolo v-2 进行优化。首先,该团队将 Yolo v-2 网络由 32 层删减为 27 层。其次,为了满足检测小目标的要求,该团队降低了下采样率。在体系层次,该团队也做了一些优化:将网络最后两层的计算放在 CPU 上进行。该团队实现了 16bits 的半精度计算来进一步提升计算速度。

FPGA 组前三强

FPGA 组的冠军是来自清华大学的 TGIIF 团队,亚军是苏黎世联邦理工大学的 SystemsETHZ,季军来自 UIUC 的 iSmart2 团队。这三支参赛队伍分别在 FPGA 上部署了 SSD,SqueezeNet 和 MobileNet 神经网络,完成了比赛要求的物体检测任务。

FPGA 组第一名: TGIIF

TGIIF 团队在采用了深鉴科技的硬件加速器架构 DPU、全栈式工具链 DNNDK 和深度压缩技术的基础上,从算法、软件和硬件对整个目标检测系统进行了全栈式的协同优化。通过采用硬件友好的 SSD 网络和多线程优化技术,结合深度压缩和定点训练,在保证识别精度的前提下,满足了低功耗和实时性的要求。

FPGA 组第二名: SystemsETHZ

SystemsETHZ 团队使用低量化网络进行物体检测。特别的该团队采用 squeezenet 为基础进行设计,并将网络层数修改为 18 层。在具体的实现中,该团队采用了 folded computing 的方式来配置多路复用器和多路输出选择器进而实现神经网络不同阶段的计算。该团队使用一个 DMA 引擎实现 CPU 和 FPGA 间的数据传输。

FPGA 组第三名: iSmart2

iSmart2 组采用以 Mobilenet 为基础的轻量化网络设计,共 12 层。网络包含 depth-wise 3x3 卷积层,传统 1x1 卷积层和 max pooling 层,并采用简化的 Yolo 后端进行物体检测。在硬件实现上,该团队采用基于模块(IP)复用的结构,让相同种类的网络层复用同一个模块以节约硬件资源。此外,该团队将每层特征图分割成大小相同的数据块,以数据块为单位进行计算,实现了数据块之间的细粒度流水线结构,以缩短图片的处理延时。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4336

    浏览量

    126296
  • 低功耗
    +关注

    关注

    9

    文章

    2211

    浏览量

    102374
  • 无人机
    +关注

    关注

    224

    文章

    9820

    浏览量

    174536

原文标题:低功耗目标检测系统挑战赛落幕:中科院、清华分获GPU与FPGA组冠军

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    FPGA在深度学习应用中或将取代GPU

    现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题 在过去的十年里,人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅
    发表于 03-21 15:19

    产学研三界顶级大咖分享:RISC-V场景Show暨开源生态高级别论坛定档12/19

    12月19日,RISC-V场景Show暨开源生态高级别论坛即将开幕。本次论坛将邀请来自中科院计算技术研究所副所长包云岗、嘉楠科技AI软件总监张晓晶、阿里巴巴达摩生态总监陈炜、清华大学长聘副教授陈渝
    发表于 12-15 18:36

    FPGA和CPU、GPU有什么区别?为什么越来越重要?

    适应新的变化。此外, FPGA 还可以同时融合工业现场的 PLC、网关、传感器、 马达、 HMI 等设备, 实现不同设备的实时控制和通信。 3.相比GPUFPGA的时延和功耗
    发表于 11-09 14:09

    基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统

    基于紫光同创FPGA的多路视频采集与AI轻量化加速的实时目标检测系统#2023集创#紫光同创#小眼睛科技助力紫光同创高校生态建设@小眼睛科
    发表于 11-02 17:51

    FPGA测试面临哪些挑战?测试方案是什么?

    点击上方 蓝字 关注我们 大容量、高速率和低功耗已成为FPGA的发展重点。 嵌入式逻辑分析工具无法满足通用性要求,外部测试工具可以把FPGA内部信号与实际电路联合起来观察系统真实运行情
    的头像 发表于 10-23 15:20 476次阅读
    <b class='flag-5'>FPGA</b>测试面临哪些<b class='flag-5'>挑战</b>?测试方案是什么?

    《SoC底层软件低功耗系统设计与实现》阅读笔记

    设计。 三种设计相结合,才能达到业界最优的低功耗目标低功耗框架 任何厂家,低功耗的设计都需要分为电路设计和系统软件设计两部分,本书主
    发表于 10-18 03:27

    深兰团队已连续5年在CVPR挑战赛中斩获冠军

    ”的好成绩。自2019年起,深兰团队已经连续5年在CVPR挑战赛中有冠军斩获。 CVPR是计算机视觉领域的一个权威学术会议,由IEEE(Institute of Electrical and Electronics Engineers)主办,有计算机视觉领域“奥斯卡”的美
    的头像 发表于 06-26 11:11 319次阅读

    基于 FPGA目标检测网络加速电路设计

    用的天网系统等都可以应用本项目的设计,加速目 标检测算法的运算速度以及降低系统功耗。 在本次项目的设计开发过程中,我们参考 DAC 2019
    发表于 06-20 19:45

    中科院发布“香山”与“傲来”两项开源处理器芯片

    449个分支(Fork)。 随后,中科院软件研究所副所长、总工程师武延军介绍了“傲来”RISC-V原生操作系统。他表示,作为“先导”专项亮点成果之一,“傲来”集成软件所的最新科研成果,通过构建开源软件
    发表于 05-28 08:43

    莱迪思MachXO5T-NX系列FPGA低功耗解决方案

    莱迪思凭借MachXO系列FPGA在控制功能方面长期处于领先地位。这些FPGA为当今数据中心、通信基础设施和工业系统不断增长的计算需求提供了理想的低功耗解决方案。
    发表于 04-25 14:46 211次阅读
    莱迪思MachXO5T-NX系列<b class='flag-5'>FPGA</b><b class='flag-5'>低功耗</b>解决方案

    全新低功耗莱迪思MachXO5T-NX FPGA性能介绍

    莱迪思发布先进的系统控制FPGA - MachXO5T-NX继续加强低功耗FPGA产品系列
    发表于 04-23 14:22 187次阅读

    莱迪思发布先进的系统控制FPGA——MachXO5T-NX 继续加强低功耗FPGA产品系列

    器件的领先供应商,近日宣布推出先进的系统控制FPGA——莱迪思MachXO5T-NX™系列,旨在帮助客户应对日益复杂的系统管理设计。MachXO5T-NX FPGA是基于莱迪思Nexu
    发表于 04-21 13:42 669次阅读

    【RA4M2设计挑战赛】获奖感言:不忘初心,方得始终!

    上手板子的开发。好在有RT-Thread的加持,使得我能够在很短的时间内,就完成了上云的操作。后面留了一两天,调试了一下基本功能,以及用心地写项目结项文档。我的项目题目是:《【RA4M2设计挑战赛
    发表于 04-03 14:07

    【RA4M2设计挑战赛】获奖感言

    深入的认识,特别是MCU的SDK,设计得非常巧妙,值得学习的地方还有很多,还需要我话很多时间去研究。最后感谢举办方的认可,让我获了奖,感谢各位老师的认可。2 奖品展示RA4M2设计挑战赛的奖品很丰富,有
    发表于 04-02 21:56

    【RA4M2设计挑战赛】获奖感言

    感言有幸参加瑞萨举办的RA4M2网关设计挑战赛,了解了瑞萨RA系列单片机布局,工具链支持等。因为工具链的完美支持,RA4M2作品开发起来事半功倍,用户可以只专注于功能逻辑的开发而不需要了解底层硬件
    发表于 03-31 16:07