电子发烧友网 > 嵌入式技术 > 正文

介绍GPU与FPGA的几个方面和看法

2018年09月15日 09:15 次阅读

从几个方面来介绍一下GPU和FPGA。

从峰值性能来说,GPU(10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的,最新的GPU峰值性能可达10TFlops以上。GPU的架构经过仔细设计(例如使用深度流水线,reTIming等技巧),在电路实现上是基于标准单元库而在criTIcal path上可以用手工定制电路,甚至在必要的情形下可以让半导体fab依据设计需求微调工艺制程,因此可以让许多core同时跑在非常高的频率。相对而言,FPGA首先设计资源受到很大的限制,例如GPU如果想多加几个core只要增加芯片面积就行,但FPGA一旦你型号选定了逻辑资源上限就确定了(浮点运算在FPGA里会占用很多资源)。而且,FPGA里面的逻辑单元是基于SRAM-查找表,其性能会比GPU里面的标准逻辑单元差好多。最后,FPGA的布线资源也受限制(有些线必须要绕很远),不像GPU这样走ASIC flow可以随意布线,这也会限制性能。

除了芯片性能外,GPU相对于FPGA还有一个优势就是内存接口。GPU的内存接口(传统的GDDR,最近更是用上了HBM和HBM2)的带宽远好于FPGA的传统DDR接口,而众所周知服务器端机器学习算法需要频繁访问内存。

介绍GPU与FPGA的几个方面和看法

但是从灵活性来说,FPGA远好于GPU。FPGA可以根据特定的应用去编程硬件(例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器),但是GPU一旦设计完那就没法改动了,没法根据应用去调整硬件资源。目前机器学习大多数适合使用SIMD架构(即只需一条指令可以平行处理大量数据),因此用GPU很适合。但是有些应用是MISD(即单一数据需要用许多条指令平行处理,微软在2014年ISCA paper里面就举了一个MISD用于并行提取feature的例子),这种情况下用FPGA做一个MISD的架构就会比GPU有优势。不过FPGA的编程对于程序员来说并不容易,所以为了能让机器学习程序员能方便地使用FPGA往往还需要在FPGA公司提供的编译器基础上进行二次开发,这些都是只有大公司才能做。

FPGA实现的机器学习加速器在架构上可以根据特定应用优化所以比GPU有优势,但是GPU的运行速度(>1GHz)相比FPGA有优势(~200MHz)。

介绍GPU与FPGA的几个方面和看法

所以,对于平均性能,看的就是FPGA加速器架构上的优势是否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势,那么FPGA在平均性能上会好于GPU。例如,百度在HotChips上发布的paper显示,GPU的平均性能相比FPGA在矩阵运算等标准batch data SIMD bench上远好于FPGA;但是在处理服务器端的少量多次处理请求(即频繁请求但每次请求的数据量和计算量都不大)的场合下,平均性能会比GPU更好。

功耗方面,虽然GPU的功耗(200W)远大于FPGA的功耗(10W),但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能接近一块GPU,那么FPGA方案的总功耗远小于GPU,散热问题可以大大减轻。反之,如果需要二十块FPGA才能实现一块GPU的平均性能,那么FPGA在功耗方面并没有优势。

能效比的比较也是类似,能效指的是完成程序执行消耗的能量,而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗,但是如果FPGA执行相同程序需要的时间比GPU长几十倍,那FPGA在能效比上就没有优势了;反之如果FPGA上实现的硬件架构优化得很适合特定的机器学习应用,执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU,那么FPGA的能效比就会比GPU强。

技术专区

关注电子发烧友微信

有趣有料的资讯及技术干货

下载发烧友APP

打造属于您的人脉电子圈

关注发烧友课堂

锁定最新课程活动及技术直播
收藏 人收藏
分享:

评论

相关推荐

i9-9900K跑分曝光 稳了

Intel将在10月初发布九代酷睿9000系列和配套的Z370主板,核心线程数量达成,第一次为Int...

发表于 2018-09-16 10:51 9次阅读
i9-9900K跑分曝光 稳了

Intel14nm产能缺口接近50%

对于Intel来说,10nm工艺遥遥无期的情况下,14nm产能也出现了问题,这直接导致小伙伴们调低预...

发表于 2018-09-16 09:56 3次阅读
Intel14nm产能缺口接近50%

一文搞懂 CPU、GPU 和 TPU

张量处理单元(TPU)是一种定制化的 ASIC 芯片,它由谷歌从头设计,并专门用于机器学习工作负载。...

发表于 2018-09-15 10:46 432次阅读
一文搞懂 CPU、GPU 和 TPU

学习FPGA最难的地方是什么?

问:本人零基础,想学FPGA,求有经验的人说说,我应该从哪入手,应该看什么教程,应该用什么学习板和开...

发表于 2018-09-15 10:20 146次阅读
学习FPGA最难的地方是什么?

人工智能芯片的应用场景细分市场越来越多,已经不局...

1492年哥伦布从西班牙巴罗斯港出发,一路西行发现了美洲。葡萄牙人达伽马南下非洲,绕过好望角到达了印...

发表于 2018-09-15 10:17 466次阅读
人工智能芯片的应用场景细分市场越来越多,已经不局...

FPGA学习verilog代码的经验总结

既然HDL设计是并行的,那么就只能各个击破了。我的习惯是先抓几个重要端口,比如时钟(CLK)、复...

发表于 2018-09-15 09:59 16次阅读
FPGA学习verilog代码的经验总结

FPGA设计要点大汇总,你都注意到了吗?

FPGA的用处比我们平时想象的用处更广泛,原因在于其中集成的模块种类更多,而不仅仅是原来的简单逻辑单...

发表于 2018-09-15 09:56 121次阅读
FPGA设计要点大汇总,你都注意到了吗?

AGM历经艰险成功逆袭,将成为亚洲出货量最大的非...

2015年国内的半导体行业可谓风生水起,国家意志主导的大基金大开大合,紫光为首的国内大佬在国外并购频...

发表于 2018-09-15 09:50 215次阅读
AGM历经艰险成功逆袭,将成为亚洲出货量最大的非...

浅析FPGA设计中常犯的错误

FPGA的用处比我们平时想象的用处更广泛,原因在于其中集成的模块种类更多,而不仅仅是原来的简单逻辑单...

发表于 2018-09-15 09:37 103次阅读
浅析FPGA设计中常犯的错误

如何学习FPGA?学习FPGA的五大忌有哪些?

学习FPGA五大忌:急于求成(一两天就想着要学习完所有知识)2:没耐心和毅力(遇到不懂不理解就想放弃...

发表于 2018-09-15 09:34 106次阅读
如何学习FPGA?学习FPGA的五大忌有哪些?

FPGA远程更新有什么限制条件如何解决?

FPGA可重配置带来了很高的灵活性,所以基于FPGA的设计/产品往往也会有后期更新/升级的需求。同时...

发表于 2018-09-15 09:30 83次阅读
FPGA远程更新有什么限制条件如何解决?

如何更新FPGA中的镜像?两个概念说明

更新镜像这一概念,会有两个完全不一样的概念,需要先说清楚。 1.更新FPGA的配置2.更新存储FP...

发表于 2018-09-15 09:23 225次阅读
如何更新FPGA中的镜像?两个概念说明

FPGA学习技巧内容分享

在学习一门技术之前我们往往从它的编程语言入手,比如学习单片机时,我们往往从汇编或者C语言入门。

发表于 2018-09-15 09:19 74次阅读
FPGA学习技巧内容分享

什么是树脂塞孔?树脂塞孔的应用,工艺制作方法和品...

树脂塞孔的工艺流程近年来在PCB产业里面的应用越来越广泛,尤其是在一些层数高,板子厚度较大的产品上面...

发表于 2018-09-15 09:15 148次阅读
什么是树脂塞孔?树脂塞孔的应用,工艺制作方法和品...

浅谈神经网络在FPGA平台上的实现方案

深度学习是机器学习的一个领域,都属于人工智能的范畴。

发表于 2018-09-15 09:10 120次阅读
浅谈神经网络在FPGA平台上的实现方案

阿里强力布局芯片领域 国际芯片巨头集体入驻的背后

近日,有网友曝光了多家国际芯片巨头的天猫官方旗舰店截图,截图显示包括赛普拉斯(Cypress)、瑞萨...

发表于 2018-09-15 08:56 242次阅读
阿里强力布局芯片领域 国际芯片巨头集体入驻的背后

用FPGA设计计算器

计算器是设计中经常用到的一个操作软件,设计和学习计算器使我们亲密的联系所学的各模块, 对我们的学习有...

发表于 2018-09-15 08:48 101次阅读
用FPGA设计计算器

FPGA在各行业的应用分析

FPGA(Field Programmable Gate Array)于1985年由xilinx创始...

发表于 2018-09-15 08:34 144次阅读
FPGA在各行业的应用分析

基于LUT的输入处理的FPGA实现-应用笔记

发表于 2018-09-14 21:32 25次阅读
基于LUT的输入处理的FPGA实现-应用笔记

2018苹果秋季发布会如约而至,苹果股价当日跌1...

此次苹果新机发布会上首先将“Apple Watch 4”作为“前菜”端给观众。新Apple Watc...

发表于 2018-09-14 17:24 1875次阅读
2018苹果秋季发布会如约而至,苹果股价当日跌1...

浅析高性能PCB设计

发表于 2018-09-14 16:38 22次阅读
浅析高性能PCB设计

RGB666显示模式和未使用的I/O

发表于 2018-09-14 16:04 12次阅读
RGB666显示模式和未使用的I/O

Cyclone III FPGA技术为设计人员开...

采用新的低成本Cyclone? III FPGA 系列很容易处理这些问题。设计人员可以在Cyclon...

发表于 2018-09-14 15:52 34次阅读
Cyclone III FPGA技术为设计人员开...

美高森美发布了新一代先进的SmartFusion...

美高森美公司(Microsemi) 发布了新一代先进的SmartFusion2 SoC FPGA评...

发表于 2018-09-14 15:41 175次阅读
美高森美发布了新一代先进的SmartFusion...

JNEye链路分析工具支持迅速评估高速Alter...

Altera公司今天发布JNEye链路分析工具,提供验证和电路板级全套设计工具。JNEye支持设计...

发表于 2018-09-14 15:10 90次阅读
JNEye链路分析工具支持迅速评估高速Alter...

华为硬件工程师手册(详细资料免费放送)

发表于 2018-09-14 14:09 426次阅读
华为硬件工程师手册(详细资料免费放送)

verilog中初值定义

发表于 2018-09-14 11:49 107次阅读
verilog中初值定义

FPGA学习系列:内存128M的flash芯片设...

设计背景: FLASH闪存闪存的英文名称是Flash Memory,一般简称为Flash,它属于内存...

发表于 2018-09-14 11:49 775次阅读
FPGA学习系列:内存128M的flash芯片设...

AD7093 SDO输出总为0x8000

发表于 2018-09-14 11:44 42次阅读
AD7093 SDO输出总为0x8000

解决加快开发速度并降低定制仪器的成本方法

人们经常需要开发定制的仪器用于实验或生产测试。早期的方法是通过 GPIB/IEEE-488 接口来连...

发表于 2018-09-14 10:56 434次阅读
解决加快开发速度并降低定制仪器的成本方法

如果你计算然后通过电池12V 6W获得电源。但总功耗在3W的两个电阻中消耗。

发表于 2018-09-14 10:53 124次阅读
如果你计算然后通过电池12V 6W获得电源。但总功耗在3W的两个电阻中消耗。

FPGA至简设计法经典案例

发表于 2018-09-14 10:18 134次阅读
FPGA至简设计法经典案例

【FPGA学习】VHDL 语言函数类预定义属性是如何定义的

发表于 2018-09-14 09:15 47次阅读
【FPGA学习】VHDL 语言函数类预定义属性是如何定义的

【FPGA学习】VHDL 语言值类预定义属性有哪几种

发表于 2018-09-14 09:12 32次阅读
【FPGA学习】VHDL 语言值类预定义属性有哪几种

Virtex UltraScale FPGA发货...

赛灵思公司(Xilinx)今天宣布首批Virtex UltraScale VU095 All Pr...

发表于 2018-09-13 16:52 50次阅读
Virtex UltraScale FPGA发货...

全新区块链架构HPB,跟产业深度结合,促进世界区...

HPB是一种全新的区块链架构,旨在实现分布式应用的性能扩展。定位为易用的高性能区块链平台,跟产业深度...

发表于 2018-09-13 14:56 49次阅读
全新区块链架构HPB,跟产业深度结合,促进世界区...

FPGA学习系列:37. USB2.0的设计

发表于 2018-09-13 12:07 113次阅读
FPGA学习系列:37. USB2.0的设计

国家必须坚决支持自主FPGA技术发展

日前关于京微雅格的风波引起了业内的广泛关注,无论争论结果如何,需要明确的一点是国家必须坚决支持自主F...

发表于 2018-09-12 17:03 137次阅读
国家必须坚决支持自主FPGA技术发展

一种递归神经网络在FPGA平台上的实现方案详解

近十年来,人工智能又到了一个快速发展的阶段。深度学习在其发展中起到了中流砥柱的作用,尽管拥有强大的模...

发表于 2018-09-12 16:53 158次阅读
一种递归神经网络在FPGA平台上的实现方案详解

AGM历经艰险成功逆袭,将成为亚洲出货量最大的非...

2015年国内的半导体行业可谓风生水起,国家意志主导的大基金大开大合,紫光为首的国内大佬在国外并购频...

发表于 2018-09-11 17:42 60次阅读
AGM历经艰险成功逆袭,将成为亚洲出货量最大的非...

Altera宣布启动其设计解决方案网路,加速客户...

Altera宣布启动其设计解决方案网路(DSN),此一全球辅助支援系统将稳健的设计服务网路、IP、电...

发表于 2018-09-11 17:36 97次阅读
Altera宣布启动其设计解决方案网路,加速客户...

数据库为什么有可能喜欢Linux AIO(异步I...

这样的AIO有一个极大的好处在于,IO不会阻塞住CPU的行为,有利于充分利用硬件的资源,有利于让CP...

发表于 2018-09-11 10:42 376次阅读
数据库为什么有可能喜欢Linux AIO(异步I...

国产FPGA面临着重重挑战?国产FPGA该如何突...

进入今年,在中兴事件和中美贸易战的双重影响下,国内对集成电路的关注到达了前所未有的高度。而在过去多...

发表于 2018-09-10 17:43 825次阅读
国产FPGA面临着重重挑战?国产FPGA该如何突...

在一片红海的AI芯片市场中,FPGA凭借独特的优...

“AI芯片”这个新鲜的概念在过去一年间逐渐走过了普及的阶段,越来越被大众所熟知。在行业走过野蛮生长...

发表于 2018-09-10 17:18 415次阅读
在一片红海的AI芯片市场中,FPGA凭借独特的优...

FPGA学习系列:36.实时时钟的设计

发表于 2018-09-10 17:12 132次阅读
FPGA学习系列:36.实时时钟的设计

STM32单片机特性解析

其基于专为要求高性能、 低成本、低功耗的嵌入式应用专门设计的ARM Cortex-M内核,同时具有一...

发表于 2018-09-10 16:55 215次阅读
STM32单片机特性解析

cpu超频注意事项有哪些 浅谈cpu超频设置

通常所说的超频简单来说就是人为提高CPU的外频或倍频,使之运行频率得到大幅提升,即CPU超频。

发表于 2018-09-10 14:40 58次阅读
cpu超频注意事项有哪些 浅谈cpu超频设置

怎么看CPU有没有超频 cpu超频的意义是什么

超频就是超过原来的频率 电脑超频,打个比方就是我们在跑步的时候,如以5米/S的速度跑,但过了一会儿,...

发表于 2018-09-10 11:29 284次阅读
怎么看CPU有没有超频 cpu超频的意义是什么

什么是主频和睿频?cpu主频越高越好吗

CPU的主频,即CPU内核工作的时钟频率(CPU Clock Speed)。通常所说的某某CPU是多...

发表于 2018-09-10 11:17 371次阅读
什么是主频和睿频?cpu主频越高越好吗

主频和睿频的区别 q9000主频怎么样

CPU的生产可以说是非常精密的,以至于生产厂家都无法控制每块CPU到底可以在什么样的频率下工作,厂家...

发表于 2018-09-10 11:08 56次阅读
主频和睿频的区别 q9000主频怎么样

Q9000四核CPU性能测试 浅谈Q9000性能...

从现有的资料来看,Core 2 Extreme QX9650和QX9750处理器的功耗均为130W,...

发表于 2018-09-10 10:55 81次阅读
Q9000四核CPU性能测试 浅谈Q9000性能...

Q9000在T61上的运行效果

 形成这些成绩的缘由有能够是由于我用的漆包线太细了的缘故,由于el-sahef有说过GTLREF和G...

发表于 2018-09-10 10:44 54次阅读
Q9000在T61上的运行效果

一名技术人员的十条精进原则

“以终为始”(Begin With The End In Mind),是史蒂芬·柯维在《高效能人士的...

发表于 2018-09-10 10:05 348次阅读
一名技术人员的十条精进原则

q9000怎么样 q9000和qx9300哪个更...

x9100是至尊版u,至尊版共性就是不锁倍频,如果你的机器可以超倍频,这个u就神了。他的价格比较贵,...

发表于 2018-09-10 09:33 58次阅读
q9000怎么样 q9000和qx9300哪个更...

t9900和q9100哪个好 浅谈t9900和q...

T9900 双核 3.06G 6M二级缓存 35w,Q9100 四核 2.26G 12M二级缓存 4...

发表于 2018-09-10 09:19 181次阅读
t9900和q9100哪个好 浅谈t9900和q...

笔记本选Q9000还是X9100? q9000和...

T6600这块CPU只是P7450的阉割版,而根据官方的要求,T6600(包括其它T6x00、奔腾双...

发表于 2018-09-10 09:07 88次阅读
笔记本选Q9000还是X9100? q9000和...

CPU T9500与Q9000的区别 浅谈CPU...

同等系列条件下看主频和2级缓存,主频差不多,2级缓存就是影响性能的关键因素。比如T6400和P735...

发表于 2018-09-10 08:58 191次阅读
CPU T9500与Q9000的区别 浅谈CPU...

q9000 cpu的参数、性能分析

酷睿2四核Q9000 优点:原生四核心设计,具有不错的游戏性能 缺点:发热量较大。

发表于 2018-09-10 08:47 57次阅读
q9000 cpu的参数、性能分析

超越了数字信号处理器的运算能力

所以简单一句话就是,FPGA处理事情的实时性很高。举个例子,比如你要同时买一瓶水和一袋饼干,ARM的...

发表于 2018-09-10 08:17 839次阅读
超越了数字信号处理器的运算能力

推荐系统是什么?如何构建一个推荐系统?推荐系统与...

推荐系统是信息过滤系统的一个子类,它根据用户的偏好和行为,来向用户呈现他(或她)可能感兴趣的物品。推...

发表于 2018-09-09 11:16 334次阅读
推荐系统是什么?如何构建一个推荐系统?推荐系统与...

实现信号CDMA调制/解调的水声通信系统

任何信息需要借助声、光、电信 号进行传递,由于光信号和电信号在海水中的衰减比较严重,而声波是人类迄今...

发表于 2018-09-09 10:53 73次阅读
实现信号CDMA调制/解调的水声通信系统

浅析STM32之GPIO结构

如果CPU写入的是逻辑1,则编号3的N-MOS管将处于关闭状态,此时IO端口的电平将由外部的上拉电阻...

发表于 2018-09-09 10:16 158次阅读
浅析STM32之GPIO结构

让CPU更接近数据 Serverless成为计算...

OpenIO开发开源软件把对象存储和计算结合起来,通过和计算存储硬件公司合作,把CPU放到存储中。计...

发表于 2018-09-08 10:25 425次阅读
让CPU更接近数据 Serverless成为计算...

莱迪思半导体任命Steve Douglass为公...

FPGA行业高管引领莱迪思全球研发团队推动产品创新 莱迪思半导体公司(NASDAQ:LSCC),客制...

发表于 2018-09-08 08:47 468次阅读
莱迪思半导体任命Steve Douglass为公...

大多数人购买CPU时会踏入的误区

我们在组装电脑时,CPU、主板和显卡往往是我们最关注的三个部件,这也被称为组装电脑的最重要的三个部件...

发表于 2018-09-07 17:33 135次阅读
大多数人购买CPU时会踏入的误区

从技术到品牌,AI如何推动FPGA应用拓展?

近日,全球最大的FPGA厂商赛灵思宣布收购深鉴科技的消息,引发人工智能芯片行业热议,这也是首起中国A...

发表于 2018-09-07 17:03 545次阅读
从技术到品牌,AI如何推动FPGA应用拓展?

FPGA学习系列:35. 红外线遥控系统的设计

发表于 2018-09-07 11:59 219次阅读
FPGA学习系列:35. 红外线遥控系统的设计

PCIe物理层接口定义了物理层中的,媒介层和物理...

随着高速串行技术的发展,各种串行通信技术的物理层逐渐走向了统一,用户甚至可以基于FPGA中的SerD...

发表于 2018-09-07 11:42 270次阅读
PCIe物理层接口定义了物理层中的,媒介层和物理...

FPGA设计需要注意哪些要点

FPGA的用处比我们平时想象的用处更广泛,原因在于其中集成的模块种类更多,而不仅仅是原来的简单逻辑单...

发表于 2018-09-07 09:43 904次阅读
FPGA设计需要注意哪些要点

一文了解CPU、GPU和TPU的区别

很多读者可能分不清楚 CPU、GPU 和 TPU 之间的区别,因此 Google Cloud 将在这...

发表于 2018-09-06 16:53 508次阅读
一文了解CPU、GPU和TPU的区别