电子发烧友网 > 可编程逻辑 > 正文

基于FPGA的深度学习加速器的应用优劣势和发展研究

2020年11月10日 10:50 次阅读

近年来,神经网络在各种领域相比于传统算法有了极大的进步。在图像、视频、语音处理领域,各种各样的网络模型被提出,例如卷积神经网络、循环神经网络。训练较好的CNN模型把ImageNet数据集上5类顶尖图像的分类准确率从73.8%提升到了84.7%,也靠其卓越的特征提取能力进一步提高了目标检测准确率。RNN在语音识别领域取得了最新的词错率记录。总而言之,由于高度适应大量模式识别问题,神经网络已经成为许多人工智能应用的有力备选项。

然而,神经网络模型仍旧存在计算量大、存储复杂问题。同时,神经网络的研究目前还主要聚焦在网络模型规模的提升上。例如,做224x224图像分类的最新CNN模型需要390亿浮点运算(FLOP)以及超过500MB的模型参数。由于计算复杂度直接与输入图像的大小成正比,处理高分辨率图像所需的计算量可能超过1000亿。

因此,为神经网络应用选择适度的计算平台特别重要。一般来说,CPU每秒能够完成10-100的GFLOP运算,但能效通常低于1GOP/J,因此难以满足云应用的高性能需求以及移动app的低能耗需求。相比之下,GPU提供的巅峰性能可达到10TOP/S,因此它是高性能神经网络应用的绝佳选择。此外,Caffe和TensorFlow这样的编程框架也能在GPU平台上提供易用的接口,这使得GPU成为神经网络加速的首选。

除了CPU和GPU,FPGA逐渐成为高能效神经网络处理的备选平台。根据神经网络的计算过程,结合为具体模型设计的硬件,FPGA可以实现高度并行并简化逻辑。一些研究显示,神经网络模型能以硬件友好的方式进行简化,不影响模型的准确率。因此,FPGA能够取得比CPU和GPU更高的能效。

回顾20世纪90年代,那时FPGA刚出现,但不是为了神经网络,而是为了电子硬件原型的快速开发而设计的。由于神经网络的出现,人们开始探索、改进其应用,但无法确定其发展方向。尽管在1994年,DSReay首次使用FPGA实现神经网络加速,但由于神经网络自身发展不够成熟,这一技术并未受到重视。直到2012年ILSVRC挑战赛AlexNet的出现,神经网络的发展渐为明晰,研究社区才开始往更深、更复杂的网络研究发展。后续,出现了VGGNet、GoogleNet、ResNet这样的模型,神经网络越来越复杂的趋势更为明确。当时,研究者开始注意到基于FPGA的神经网络加速器,如下图1所示。直到去年,IEEEeXplore上发表的基于FPGA的神经网络加速器数量已经达到了69个,且还在一直增加。这足以说明该方向的研究趋势。

图1:基于FPGA的神经网络加速器开发历史

论文:ASurveyofFPGABasedDeepLearningAccelerators:ChallengesandOpportuniTIes

随着深度学习的快速发展,神经网络和深度学习算法已经广泛应用于各个领域,如图片、视频和语音处理等。但是,神经网络模型也变得越来越大,这体现在模型参数的计算上。虽然为了提高计算性能,研究者在GPU平台上已经做了大量努力,但专用硬件解决方案仍是必不可少的,而且与纯软件解决方案相比正在形成优势。在这篇论文中,作者系统地探究了基于FPGA的神经网络加速器。具体来讲,他们分别回顾了针对特定问题、特定算法、算法特征、通用模板的加速器,还比较了不同设备和网络模型中基于FPGA加速器的设计和实现,并将其与CPU和GPU的版本进行了比较。最后,作者讨论了FPGA平台上加速器的优势和劣势,并进一步探索了未来研究存在的机会。

图2:不同数据量化方法的比较

表1:不同平台上不同模型的性能比较

机遇和挑战

早在20世纪60年代,GeraldEstrin就提出了可重构计算的概念。但是直到1985年,第一个FPGA芯片才被Xilinx引入。尽管FPGA平台的并行性和功耗非常出色,但由于其重构成本高,编程复杂,该平台没有引起人们的重视。随着深度学习的持续发展,其应用的高并行性使得越来越多的研究人员投入到基于FPGA的深度学习加速器研究中来。这也是时代的潮流。

基于FPGA加速器的优势

1)高性能,低能耗:高能效的优点不容小觑,之前的许多研究已经证明了这一点。从表1中可以看出,GOP/j在FPGA平台上的表现可以达到在CPU平台上的几十倍,它在FPGA平台上表现的最低水平与其在GPU平台上的表现处于一个层级。这足以说明基于FPGA的神经网络加速器的高能效优势。

2)高并行性:高并行性是选择FPGA平台加速深度学习的主要特性。由于FPGA的可编辑逻辑硬件单元,可以使用并行化算法轻松优化硬件,已达到高并行性。

3)灵活性:由于FPGA具有可重构性,它可以适用于复杂的工程环境。例如,在硬件设计和应用设计完成之后,通过实验发现性能未能达到理想状态。可重构性使得基于FPGA的硬件加速器能够很好地处理频繁的设计变更并满足用户不断变化的需求。因此,与ASIC平台相比,这种灵活性也是FPGA平台的亮点。

4)安全性:当今的人工智能时代需要越来越多的数据用于训练。因此,数据的安全性越来越重要。作为数据的载体,计算机的安全性也变得更加显著。目前,一提到计算机安全性,想到的都是各种杀毒软件。但是这些软件只能被动地防御,不能消除安全风险。相比之下,从硬件架构层级着手能够更好地提高安全性。

基于FPGA的加速器的劣势

1)可重构成本:FPGA平台的可重构性是一把双刃剑。尽管它在计算提速方面提供了许多便利,但是不同设计的重构所消耗的时间却不容忽视,通常需要花几十分钟到几个小时。此外,重构过程分为两种类型:静态重构和动态重构。静态重构,又叫编译时重构,是指在任务运行之前配置硬件处理一个或多个系统功能的能力,并且在任务完成前将其锁定。另一个也称为运行时配置。动态重构是在上下文配置模式下进行的。在执行任务期间,硬件模块应该按照需要进行重构。但是它非常容易延迟,从而增加运行时间。

2)编程困难:尽管可重构计算架构的概念被提出很久了,也有很多成熟的工作,但可重构计算之前并未流行起来。主要有两个原因:

从可重构计算的出现到21世纪初的40年时间是摩尔定律的黄金时期,其间技术每一年半更迭一次。所以这种架构更新带来的性能提升不像技术进步那么直接、有力;

对成熟的系统而言,在CPU上传统的编程采用高阶抽象编程语言。但是,可重构计算需要硬件编程,而通常使用的硬件编程语言(Verilog、VHDL)需要程序员花费大量时间才能掌握。

期望

尽管基于FPGA的神经网络加速器仍旧有这样、那样的问题,但其未来发展依然可期。以下几个方向仍然有待研究:

优化计算流程中的其他部分,现在,主流研究聚焦在矩阵运算回路,激活函数的计算少有人涉及。

访问优化。需要进一步研究进行数据访问的其他优化方法。

数据优化。使用能够自然提升平台性能的更低位数据,但大部分的低位数据使得权重和神经元的位宽一样。图2还可以改进与非线性映射的位宽差。所以,应该探索出更好的平衡态。

频率优化。当前,大部分FPGA平台的运算频率在100-300MHz,但FPGA平台理论上的运算频率可以更高。这一频率主要受限于片上SRAMDSP之间的线程。未来研究需要找到是否有方式避免或者解决该问题。

FPGA融合。据参考论文37中提到的表现,如果规划和分配问题能够得到良好解决,多FPGA集群可以取得更好的结果。此外,当前此方向没有太多研究。所以非常值得进一步探索。

自动配置。为了解决FPGA平台上复杂的编程问题,如果做出类似英伟达CUDA这样的用户友好的自动部署框架,应用范围肯定会拓宽。

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

写好状态机--从2019年全国FPGA竞赛谈Verilog编码技巧

理解Verilog编码技巧掌握FPGA中状态机的写法掌握非重叠序列检测代器Verilog代码编写
发烧友学院发表于 2020-04-21 00:00 24251次阅读
写好状态机--从2019年全国FPGA竞赛谈Verilog编码技巧

FPGA选型和设计过程

供应商的软件工具也会影响到上述决策。下载并使用这些软件工具,不需要硬件就能将设计带入仿真阶段。这也是....
发表于 2020-11-10 17:28 27次阅读
FPGA选型和设计过程

利用高速FPGA设计PCB的要点及相关指导原则

任何人在为性能极高的FPGA设计IC封装时,都必须特别注意信号完整性和适于所有用户和应用的多功能性之....
发表于 2020-11-10 17:25 28次阅读
利用高速FPGA设计PCB的要点及相关指导原则

FPGA全球市场规模在2025年有望达到约125...

作为本土领先的FPGA厂商,复旦微的技术水平一直处于行业前列。据了解,复旦微于2018 年Q2率先推....
发表于 2020-11-10 17:19 17次阅读
FPGA全球市场规模在2025年有望达到约125...

ASIC和FPGA的区别是什么

FPGA(现场可编程门阵列)也是一种IC。顾名思义,只要有合适的工具和适当的专业基础,工程师就可以对....
发表于 2020-11-10 16:37 41次阅读
ASIC和FPGA的区别是什么

浅谈AI深度学习之于先进封装的重要性

由中国半导体行业协会封装分会、天水市人民政府主办的第十八届中国半导体封装测试技术与市场年会,于11月....
发表于 2020-11-10 16:02 59次阅读
浅谈AI深度学习之于先进封装的重要性

fpga全球市场_fpga国内外研究现状

 通常来说半导体产业是周期性行业,其周期一般为4到5年。但是随着新技术和应用的快速发展,现今半导体周....
发表于 2020-11-10 15:05 112次阅读
fpga全球市场_fpga国内外研究现状

AMD欲将超越联发科,成为全球第四大IC设计厂商

AMD宣布以350亿美元收购FPGA龙头赛灵思(Xilinx),如果该并购案顺利完成,将全面拓展、提....
发表于 2020-11-10 15:05 230次阅读
AMD欲将超越联发科,成为全球第四大IC设计厂商

fpga开发板推荐初学者

对于一个初学者来说,选择一款适合学习的FPGA是整个FPGA学习生涯的必经之路。我个人建议在选择FP....
发表于 2020-11-10 14:55 55次阅读
fpga开发板推荐初学者

fpga开发一般用什么软件

Xilinx(全球FPGA市场份额最大的公司,其发展动态往往也代表着整个FPGA行业的动态)
发表于 2020-11-10 14:48 60次阅读
fpga开发一般用什么软件

fpga论坛推荐_fpga开发难吗

elecfans论坛的FPGA模块还是比较活跃的,有各种FPGA工具使用问题的一些讨论。
发表于 2020-11-10 14:29 49次阅读
fpga论坛推荐_fpga开发难吗

八大技术让人工智能的梦想照进现实

30年前,在听清华的石纯一老师教授人工智能课时,人工智能还只不过是李彦宏记录在笔记本上的一个梦想。3....
发表于 2020-11-09 17:57 282次阅读
八大技术让人工智能的梦想照进现实

Graph+AI World 2020 中国峰会...

本次中国峰会主题将围绕“智联万物・图改世界”,紧跟全球图技术发展风向,提供了解TigerGraph及....
发表于 2020-11-09 17:07 65次阅读
Graph+AI World 2020 中国峰会...

机器视觉深度学习外观焊点缺陷检测

焊点缺陷检测 系统采用进口高分辨率CCD相机,可以快速获取汽车温度传感器塑料件电阻焊接部分的图像,通....
发表于 2020-11-09 17:03 251次阅读
机器视觉深度学习外观焊点缺陷检测

Vivado中怎么设置状态机安全模式

在ISE中可以设置状态机安全模式 safe impementation模式,但是在Vivado中有没有类似的设置?我现在一段代码中可以...
发表于 2020-11-09 15:25 66次阅读
Vivado中怎么设置状态机安全模式

Xilinx被收购后,FPGA的未来在哪?

2015年6月1日,英特尔与Altera宣布,双方已达成最终协议,根据该协议,英特尔将以167亿美元....
发表于 2020-11-09 14:54 330次阅读
Xilinx被收购后,FPGA的未来在哪?

受蛲虫大脑启发构建AI系统,利用神经元控制车辆

从搜索引擎到自动驾驶汽车,人工智能已经进入到人们的日常生活,这与近年来所实现的巨大计算能力密不可分。....
发表于 2020-11-09 14:28 115次阅读
受蛲虫大脑启发构建AI系统,利用神经元控制车辆

华为云发布研究成功,AI可辅助检测脑动脉瘤

 日前,放射学领域国际顶级期刊Radiology(《放射学》)发表了华为云EI创新孵化Lab、华中科....
发表于 2020-11-09 12:21 179次阅读
华为云发布研究成功,AI可辅助检测脑动脉瘤

基于FPGA芯片XC4005E-4IPQ100实...

移频信号全称为移频键控信号(Frequency-Shift Keying),利用高频信号承载低频信息....
发表于 2020-11-09 10:36 126次阅读
基于FPGA芯片XC4005E-4IPQ100实...

深度学习面临的挑战有哪些

人工智能几乎与计算机本身一样古老,其历史可追溯到上世纪五十年代,但早期的人工智能解决方案与当前的技术....
发表于 2020-11-09 09:42 94次阅读
深度学习面临的挑战有哪些

深度学习的发展历程

深度学习是机器学习的一个分支,它除了可以学习特征和任务之间的关联以外,还能自动从简单特征中提取更加复....
发表于 2020-11-09 09:39 44次阅读
深度学习的发展历程

FPGA_100天之旅_AD设计

发表于 2020-11-08 15:34 0次阅读
FPGA_100天之旅_AD设计

B站UP主开发会写高考作文的AI

前段时间,浙江高考满分作文《生活在树上》因为晦涩难懂的内容,刷爆了各种社交媒体。外行人看热闹,内行人....
发表于 2020-11-08 09:54 319次阅读
B站UP主开发会写高考作文的AI

中国数字化之路:人工智能技术的挑战和机遇

2020年11月3日下午,中国(深圳)综合开发研究院举行“中国数字化之路研讨会”,中科院深圳先进技术....
发表于 2020-11-08 09:46 280次阅读
中国数字化之路:人工智能技术的挑战和机遇

为什么卷积神经网络是深度学习最成功的领域之一?

目前,作为深度学习的代表算法之一,卷积神经网络(Convolutional Neural Netwo....
发表于 2020-11-08 09:29 133次阅读
为什么卷积神经网络是深度学习最成功的领域之一?

FPGA_100天之旅_PS2设计

发表于 2020-11-07 14:09 0次阅读
FPGA_100天之旅_PS2设计

FPGA中实现AGC的算法

大多数接收机必须处理动态范围很大的信号,这需要进行增益调整,以防止过载或某级产生互调,调整解调器的工....
发表于 2020-11-07 10:14 181次阅读
FPGA中实现AGC的算法

FPGA配电结构和功耗分析

通常来说外部电源为 FPGA 或者 CPLD 内部和外部正常工作提供电能源。实施电源方案时,设计人员....
发表于 2020-11-07 10:09 159次阅读
FPGA配电结构和功耗分析

中低密度芯片覆盖汽车应用,高云半导体高密度FPG...

在5G与人工智能的促进下,汽车电子行业虽然在今年早期受到了疫情影响,但下半年再度进入了黄金发展期。针....
发表于 2020-11-06 16:32 1799次阅读
中低密度芯片覆盖汽车应用,高云半导体高密度FPG...

深度学习框架:助燃新工业革命 成为产业的AI基座

十九届五中全会公报提出,要把科技自立自强作为国家发展的战略支撑。 公报更进一步强调了科技的自立自强,....
发表于 2020-11-05 18:05 403次阅读
深度学习框架:助燃新工业革命 成为产业的AI基座

FPGA:状态机简述

本文目录 前言 状态机简介 状态机分类 Mealy 型状态机 Moore 型状态机 状态机描述 一段....
发表于 2020-11-05 17:58 244次阅读
FPGA:状态机简述

《AI概论:来来来,成为AI的良师益友》高焕堂老师带你学AI

简介:AI学习:电脑+AI(让电脑拥有学习能力)基础框架搭建;如何建立人机界面---基于Excel+Python;观察事物...
发表于 2020-11-05 17:55 505次阅读
《AI概论:来来来,成为AI的良师益友》高焕堂老师带你学AI

【AI学习】第3篇--人工神经网络

本篇主要介绍:人工神经网络的起源、简单神经网络模型、更多神经网络模型、机器学习的步骤:训练与预测、训练的两阶段...
发表于 2020-11-05 17:48 556次阅读
【AI学习】第3篇--人工神经网络

基于XCV200/300PQFP240和TMS3...

在移动通信和高速无线数据通信中,多径效应和信道带宽的有限性以及信道特性的不完善性导致数据传输时不可避....
发表于 2020-11-05 17:12 175次阅读
基于XCV200/300PQFP240和TMS3...

【每周FPGA案例】OV7670摄像头显示

第1节 OV7670摄像头显示--作者:小黑同学本文为明德扬原创及录用文章,转载请注明出处! 1.1 总体设计1.1.1 概述O...
发表于 2020-11-05 15:19 101次阅读
【每周FPGA案例】OV7670摄像头显示

Spartan-7的特色

赛灵思在开发 7 系列(Artix-7、Kintex-7 以及 Virtex-7)器件过程中与台积公....
发表于 2020-11-05 14:20 310次阅读
Spartan-7的特色

FPGA之视频图像抓取案例分析

MYD-CZU3EG-ISP 提供4K分辨率的摄像头功能,同时输出4K分辨率的图像显示到图像输出接口....
发表于 2020-11-05 12:37 422次阅读
FPGA之视频图像抓取案例分析

eFPGA的崛起

随着大数据、物联网、AI的发展对于算力的需求增大,开发先进 ASIC 的成本模式在 finFET 领....
发表于 2020-11-05 11:32 323次阅读
eFPGA的崛起

基于深度学习的回归方法YOLO系列简介

YOLO系列是基于深度学习的回归方法。 RCNN, Fast-RCNN,Faster-RCNN是基于....
发表于 2020-11-05 10:13 223次阅读
基于深度学习的回归方法YOLO系列简介

关于机器学习和人工神经网络

在人工神经网络课程之后,有一位同学课下问了一个问题,她这学期也在学习机器学习课程,感觉人工神经网络课....
发表于 2020-11-05 10:02 403次阅读
关于机器学习和人工神经网络

深度学习:多目标跟踪方向调研报告

导读 本文是一篇多目标跟踪方向的调研报告,从相关方向、核心步骤、评价指标和最新进展等维度出发,对MO....
发表于 2020-11-05 10:01 189次阅读
深度学习:多目标跟踪方向调研报告

深度学习:搜索和推荐中的深度匹配问题

本文主要启发来源SIGIR2018的这篇综述性slides《Deep Learning for Ma....
发表于 2020-11-05 09:47 229次阅读
深度学习:搜索和推荐中的深度匹配问题

基于多视图协作学习的人岗匹配研究论文提要

近日,第29届国际计算机学会信息与知识管理大会(CIKM 2020)在线上召开,CIKM是CCF推荐....
发表于 2020-11-05 09:32 370次阅读
基于多视图协作学习的人岗匹配研究论文提要

什么是深度学习,深度学习能解决什么问题

深度学习是机器学习与神经网络、人工智能、图形化建模、优化、模式识别和信号处理等技术融合后产生的一个领....
发表于 2020-11-05 09:31 112次阅读
什么是深度学习,深度学习能解决什么问题

知识图谱:基于实体的层次化概念体系的属性自动获取...

摘要:属性是实体的重要组成部分,因此如何自动获取实体的属性一直为知识图谱领域的研究者所关注。由哈尔滨....
发表于 2020-11-05 09:23 167次阅读
知识图谱:基于实体的层次化概念体系的属性自动获取...

【"小梅哥 AC620V2 FPGA 开发板"免费试用】part4:串口ModelSim仿真

1.介绍 上回说过这次做仿真,所以呢,它真的来了,FPAG仿真是必备的,为啥呢,因为它所有的时许都是自己去编写代...
发表于 2020-11-04 22:03 0次阅读
【"小梅哥 AC620V2 FPGA 开发板"免费试用】part4:串口ModelSim仿真

推荐初学者的TensorFlow延伸阅读

推荐初学者的延伸阅读 除了课程内容外,TensorFlow 官网也为大家提供了学习研究机器学习丰富实....
发表于 2020-11-04 18:31 262次阅读
推荐初学者的TensorFlow延伸阅读

简化FPGA电源系统管理的办法

现场可编程门阵列(FPGA)的起源可以追溯到20世纪80年代,从可编程逻辑器件(PLD)演变而来。自....
发表于 2020-11-04 18:14 412次阅读
简化FPGA电源系统管理的办法

Lattice被收购,FPGA行业又将走向何方?

随着AMD收购Xilinx一锤定音,加上几年前英特尔将FPGA老二Altera收入囊中,FPGA状元....
发表于 2020-11-04 17:44 1052次阅读
Lattice被收购,FPGA行业又将走向何方?

AMD正在就收购FPGA制造商Xilinx进行深...

知情人士称,双方正在讨论一项交易,这项交易最快可能在下周敲定。目前无法保证这项交易能够达成,尤其是考....
发表于 2020-11-04 17:17 644次阅读
AMD正在就收购FPGA制造商Xilinx进行深...

借力人工智能,华云安定义智能化渗透攻防系统

自2018年起,人工智能(AI)就已成为家喻户晓的热词。从热词到技术落地,经过两三年的发展沉淀,AI....
发表于 2020-11-04 16:48 497次阅读
借力人工智能,华云安定义智能化渗透攻防系统

Socionext成功开发了一款集成有量化深度神...

为提高边缘计算处理器AI处理性能并减少系统功耗,Socionext成功开发了一款集成有量化深度神经网....
发表于 2020-11-04 16:27 176次阅读
Socionext成功开发了一款集成有量化深度神...

MIT发明新AI模型,其核心控制系统仅用19个神...

从搜索引擎到自动驾驶汽车,人工智能(AI)已经应用于日常生活的方方面面。这与近年来飞跃式的算力进步有....
发表于 2020-11-04 15:29 308次阅读
MIT发明新AI模型,其核心控制系统仅用19个神...

专家警告:必须阻止AMD收购赛灵思

如果给你2300亿元你会干嘛?是去非洲囤块地当个酋长体验一夫多妻制。还是想跟王多鱼一样用金钱帮别人实....
发表于 2020-11-04 14:27 301次阅读
专家警告:必须阻止AMD收购赛灵思

这种新型AI系统用少量人工神经元控制车辆转向

自动驾驶汽车是当前机器学习研究者和工程师们正在探索的最复杂任务之一。它覆盖很多方面,而且要求必须高度....
发表于 2020-11-04 11:43 257次阅读
这种新型AI系统用少量人工神经元控制车辆转向

一文解析神经网络的发展史

在1943年,科学家WarrenMcCulloch和WalterPitts提出了神经网络作为一个计算....
发表于 2020-11-04 10:19 142次阅读
一文解析神经网络的发展史

用于低内存 IoT 设备的神经网络

新的神经网络。 一位来自俄罗斯的科学家开发了一种新的神经网络架构,并测试了其在识别手写数字上的学习能....
发表于 2020-11-04 10:02 204次阅读
用于低内存 IoT 设备的神经网络

开关量输入输出的三个电路设计问题请教

大家好,我是刚接触电路设计,下面有三个问题想请教各位(分别对应三个附图): 1. 在三极管开关量输出电路中,我一...
发表于 2020-11-03 20:20 83次阅读
开关量输入输出的三个电路设计问题请教

一文详解FPGA的特点及结构

     FPGA是英文FieldProgrammableGateArray的缩写,即现场可编程门阵列,它是在可编程阵...
发表于 2020-11-02 09:21 0次阅读
一文详解FPGA的特点及结构

深度学习推理和计算-通用AI核心

摘要 与深度学习算法的进步超越硬件的进步,你如何确保算法明天是一个很好的适合现有的人工智能芯片下发展?,这些人...
发表于 2020-11-01 09:28 344次阅读
深度学习推理和计算-通用AI核心