电子发烧友网 > 可编程逻辑 > 正文

Altera FPGA硬核浮点DSP模块解决方案提高运算性能

2020年01月14日 16:19 次阅读

1、 FPGA浮点运算推陈出新

以往FPGA在进行浮点运算时,为符合IEEE 754标准,每次运算都需要去归一化和归一化步骤,导致了极大的性能瓶颈。因为这些归一化和去归一化步骤一般通过FPGA中的大规模桶形移位寄存器实现,需要大量的逻辑和布线资源。通常一个单精度浮点加法器需要500个查找表(LUT),单精度浮点要占用30%的LUT,指数和自然对数等更复杂的数学函数需要大约1000个LUT。因此随着DSP算法越来越复杂,FPGA性能会明显劣化,对占用80%~90%逻辑资源的FPGA会造成严重的布线拥塞,阻碍FPGA的快速互联,最终会影响时序收敛。

为解决以上问题, 2010年Altera在DSP Builder高级模块库中引入了融合数据通路设计。它将基本算子组合在一个函数或者数据通路中,通过分析数据通路的位增长,选择最优归一化输入,为数据通路分配足够的精度,尽可能消除归一化和去归一化步骤。这一优化平台将定点DSP模块与可编程软核逻辑相结合,避免了大量使用这类桶形移位寄存器。与使用几种基本IEEE 754算子构成的等价数据通路相比,减少了50%的逻辑,延时减小了50%。并且,这一方法总的数据精度一般高于使用基本IEEE 754浮点算子库的方法。

在Altera Arria 10和Stratix 10器件中的硬核浮点DSP模块开发出来之前,融合数据通路方法的浮点运算性能和效率是业界领先的。表1显示了Cholesky求解器运行在StraTIx V版DSP开发套件上的结果,形式是Ax = B,使用了DSP Builder高级模块库中的融合数据通路设计流程。一般来说Cholesky的输入矩阵函数规模大、延时长,因此很难在FPGA硬件中实现,但具有融合数据通路的DSP Builder模块库的浮点运算占用的逻辑只是基本浮点乘法器的3到4倍,并会在每一时钟周期产生一个结果,从而可实现相应规模的 Cholesky求解。

随着Altera DSP模块体系结构的进步和软件工具的不断优化,目前Altera已可在FPGA中实现高性能浮点运算,Altera的Arria 10和StraTIx 10器件中的硬核浮点DSP模块就是业界领先的浮点解决方案的代表。

2 、硬核浮点DSP提高设计效能,加快上市

在Arria 10和StraTIx 10器件中的硬核浮点DSP模块不仅提高了运算性能,还可加快产品上市时间。在提高运算性能方面,主要体现在三个方面:

一是可节省逻辑资源的使用。采用Arria 10和StraTIx 10器件中的硬核浮点DSP模块,FPGA系统克服了前述提到的限制性能的挑战。在过去,需要使用定点乘法器和FPGA逻辑来实现浮点运算功能,Altera的硬核浮点DSP几乎不使用现有FPGA浮点计算所需要的逻辑资源,并且,桶形移位寄存器可在硬核DSP模块中实现,就避免了使用宝贵的FPGA资源运行归一化和归一化函数。采用硬核浮点DSP模块内置这一创新体系结构,不仅节省了很多的逻辑资源,时序收敛或者fMAX要求也不再受限于次优布线,从而保证了使用80%至90%逻辑资源的FPGA仍能保持较高的fMAX性能。

二是提高了数字精度。硬核浮点DSP模块支持很多复数浮点运算,包括累乘法、加减法等,其浮点输出都符合IEEE 754标准,从而保证了在具有高分辨率要求的应用中其数值的一致性。过去FPGA实现浮点运算是在内部数据通路上使用二进制补码表示。在算法输入输出时,这一内部二进制补码表示与IEEE 754格式相互转换。这在解决桶形移位寄存器占用资源方面至关重要,但实际输出值与MATLAB/Simulink模型值相比会有所偏差。但是,在采用了Arria 10和Stratix 10器件中的硬核浮点模块后,实际输出值与Simulink模型显示的高度一致。

Altera FPGA硬核浮点DSP模块解决方案提高运算性能

三是提高了能效。Arria 10和Stratix 10器件还在FPGA业界实现了能效最高的浮点,每瓦分别是50 GFLOP和100 GFLOPS,极大地减少了以前进行浮点运算时所需要的逻辑和布线资源,从而大幅度降低了内核动态功耗。

而在加快产品上市方面,FPGA中集成的硬核浮点DSP支持很多常见的DSP模型和仿真环境,可无缝实现优化浮点运算。在从军事领域的雷达到通信系统等各种应用中,Arria 10和Stratix 10器件为设计人员提供了更高效的设计,平均可将设计时间缩短6-12个月。一方面是因为不需要额外的转换过程。在前几代FPGA中要实现高性能浮点运算,需要进行转换,将浮点转换为定点,在FPGA中实现,在定点实现中分析、转换并验证浮点算法。这种转换过程一般步骤繁琐。此外,这一过程完成后,还需验证转换过程当中的准确率。如果设计方面有任何的修改或变化,都需要重新把这些流程再进行一遍,持续进行转换。另一方面是因为Altera提供了易用的设计工具。Altera优异的DSP设计工具包括为硬件设计人员、基于模型的设计人员提供的DSP Builder,以及为软件编程人员提供的面向OpenCL的软件开发套件(SDK)。利用这些工具,设计人员完全不需要浮点到定点的转换过程,相应地在实现过程中也不需要调试,在几分钟内就可以完成系统定义和仿真,直至系统实现。当使用DSP Builder或者面向OpenCL的SDK设计算法,设计人员能够将开发精力集中在算法定义和迭代上,而不是设计硬件,帮助他们缩短了开发和验证时间。

责任编辑:gt

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

小梅哥FPGA设计思想与验证方法视频教程

刚刚录制了一个fpga开发流程的视频,该视频为投石问路,主要是想听听大家对于小梅哥在录制视频时需要注意的内容以及希望系列
发烧友学院发表于 2016-03-24 00:00 37952次阅读
小梅哥FPGA设计思想与验证方法视频教程

在FPGA硬件平台通过采用DDS技术实现跳频系统...

DDS的原理如图1所示,包含相位累加器、波形存储器(ROM)、数模转换器(DAC)和低通滤波器4个部....
发表于 2020-01-14 16:27 0次阅读
在FPGA硬件平台通过采用DDS技术实现跳频系统...

全球最大FPGA的问世将给IC设计带来便利

英特尔公司在京发布了Stratix 10 GX 10M FPGA,这款拥有1020万个逻辑单元的产品....
发表于 2020-01-14 16:11 5次阅读
全球最大FPGA的问世将给IC设计带来便利

英特尔与赛灵思的竞争使得FPGA进入黄金时代

目前,赛灵思和英特尔的FPGA市场竞逐角力,一来一往、有输有赢。鉴于双方都有不俗的实力,可以预计,未....
发表于 2020-01-14 16:07 2次阅读
英特尔与赛灵思的竞争使得FPGA进入黄金时代

英特尔与赛灵思的竞争将会研制更强大的FPGA器件

FPGA芯片比CPU更快,比GPU功耗更低、延时更短,且比ASIC更加便宜、周期更短,因此在目前人工....
发表于 2020-01-14 16:03 4次阅读
英特尔与赛灵思的竞争将会研制更强大的FPGA器件

如何利用FPAG开发板搭建LEON2 SOC开发...

随着IC制造工艺水平的快速发展,片上系统(SOC)在ASIC设计中得到广泛应用。微处理器IP核是SO....
发表于 2020-01-14 16:00 9次阅读
如何利用FPAG开发板搭建LEON2 SOC开发...

北京微电子技术研究所成功研制出了高可靠多通道混合...

据悉,该产品已形成针对多通道智能传感器信号处理的集成解决方案,实现了单一封装内智能传感器模拟数字信号....
发表于 2020-01-14 11:36 25次阅读
北京微电子技术研究所成功研制出了高可靠多通道混合...

基于fpga的电源设计

我现在没有一个具体的方案 谁能给我个提示一下 比如 fpga从哪入手(fpga一点不会) 具体的电路应该分为哪几个模块 单...
发表于 2020-01-13 23:30 123次阅读
基于fpga的电源设计

【雨的FPGA笔记】基础实践-------IP核中PLL的使用

PLL锁相环,可以对时钟网络进行系统级的时钟管理和偏移控制,具有时钟倍频和分频,相位偏移和可编程占空比的功能。...
发表于 2020-01-13 19:13 43次阅读
【雨的FPGA笔记】基础实践-------IP核中PLL的使用

采用FPGA器件实现GPS数据加密系统中机载模块...

针对GPS测量系统数据传输过程中的安全问题,采用FPGA技术设计了GPS数据加密系统。系统移植MD5....
发表于 2020-01-13 17:00 99次阅读
采用FPGA器件实现GPS数据加密系统中机载模块...

【雨的FPGA笔记】基础实践-------ModelSim手动仿真

基于流水灯的ModelSIm软件仿真为例子                 ...
发表于 2020-01-13 16:34 190次阅读
【雨的FPGA笔记】基础实践-------ModelSim手动仿真

基于TL16C550C实现DSP UART数据通...

由于TMS320C6416不带异步串行收发接口(UART),无法实现DSP系统常用的通串行通信。为此....
发表于 2020-01-13 16:19 139次阅读
基于TL16C550C实现DSP UART数据通...

关于异构计算FPGA基础知识的详细介绍

随着云计算,大数据和人工智能技术应用,单靠 CPU 已经无法满足各行各业的算力需求。
发表于 2020-01-13 15:15 43次阅读
关于异构计算FPGA基础知识的详细介绍

【高手问答】资深工程师为你解答工程与产品设计上的...

本期我们邀请到了资深工程师白纪龙@白老大大,也是许多坛友熟知的白老师,他将为我们解答大家在PCB设计....
发表于 2020-01-13 09:39 0次阅读
【高手问答】资深工程师为你解答工程与产品设计上的...

【雨的FPGA笔记】基础实践-------呼吸灯设计和实现

呼吸灯设计和实现 内容 一个周期为1s的呼吸灯,从熄灭到完全点亮一共需要1s。 将1s分为1000个1ms作为呼吸...
发表于 2020-01-12 19:50 155次阅读
【雨的FPGA笔记】基础实践-------呼吸灯设计和实现

如何简单快速的实现嵌入式FPGA

Achronix Semiconductor 营销副总裁 Steve Mensor 表示,这款被称为....
发表于 2020-01-12 10:56 320次阅读
如何简单快速的实现嵌入式FPGA

如何用FPGA测量数字正弦波的频率?

如何用FPGA测量数字正弦波的频率
发表于 2020-01-11 22:27 177次阅读
如何用FPGA测量数字正弦波的频率?

【雨的FPGA笔记】基础实践-------按键控制LED和BEEP设计和实现

设计内容        按KEY0时点亮最右边的灯,按动按键KEY1时依次往左移动,按下KEY2时关...
发表于 2020-01-11 12:47 72次阅读
【雨的FPGA笔记】基础实践-------按键控制LED和BEEP设计和实现

【雨的FPGA笔记】基础实践-------流水灯设计和实现

设计内容        将4个LED每隔1s从左往右分别依次点亮熄灭,形成流水状。按复位键时进行复...
发表于 2020-01-11 11:07 322次阅读
【雨的FPGA笔记】基础实践-------流水灯设计和实现

FPGA的行业优势以及它与DSP的区别分析

FPGA的优势有三个方面:1)通信高速接口设计。FPGA可以用来做高速信号处理,一般如果AD采样率高....
发表于 2020-01-10 15:46 148次阅读
FPGA的行业优势以及它与DSP的区别分析

hdmi矩阵切换器采用FPGA纯硬件架构方案

hdmi矩阵切换器在众多的领域中有着广泛的运用,对于不同的运用场合和需求,有着许多不同的方案,而dm....
发表于 2020-01-10 15:43 108次阅读
hdmi矩阵切换器采用FPGA纯硬件架构方案

关于Xilinx FPGA内部体系结构的分析

Xilinx的FPGA的基本结构是一样的,主要由6部分组成,分别为可编程输入/输出单元、基本可编程逻....
发表于 2020-01-10 15:39 196次阅读
关于Xilinx FPGA内部体系结构的分析

如何用乘加器(mac)实现150个数平方和?

这个模块是music算法中的协方差矩阵中的一部分。输入的150个数是16位的,得到的结果是32位。 自己也写了代码可是结果...
发表于 2020-01-10 10:57 335次阅读
如何用乘加器(mac)实现150个数平方和?

深维科技荣获北航全球创新创业大赛二等奖

经过初赛、复赛的激烈对决和层层选拔,深维科技参赛项目“超高性能数据中心FPGA异构计算加速解决方案”....
发表于 2020-01-10 09:28 80次阅读
深维科技荣获北航全球创新创业大赛二等奖

【雨的FPGA笔记】基础知识-------构成

经典的岛型结构 FPGA由三个部分构成:实现逻辑电路的逻辑块(LB)、与外部进行信号输入/输出的I/O块(...
发表于 2020-01-09 11:01 1060次阅读
【雨的FPGA笔记】基础知识-------构成

FPGA新手

学了二三个月,但是总是感觉学的不行。请问应该怎么学呢,写代码没有思路...
发表于 2020-01-08 19:37 210次阅读
FPGA新手

LVDS技术的应用优势及基于FPGA实现远端显示...

LVDS接口又称RS-644总线接口,是20世纪90年代出现的一种数据传输和接口技术。LVDS是一种....
发表于 2020-01-08 16:40 545次阅读
LVDS技术的应用优势及基于FPGA实现远端显示...

帧同步系统的工作原理及如何基于FPGA实现其设计

实现帧同步的关键是把同步码从一帧帧数据流中提取出来。本设计的一帧信码由39位码元组成。其中的巴克码为....
发表于 2020-01-08 16:30 1536次阅读
帧同步系统的工作原理及如何基于FPGA实现其设计

英特尔新发布Stratix 10,为可编程四核A...

FPGA在高度并行、大吞吐量数字信号处理(DSP)应用方面享有很好的声誉。过去几代FPGA器件一直稳....
发表于 2020-01-08 15:32 288次阅读
英特尔新发布Stratix 10,为可编程四核A...

FPGA的发展瓶颈有哪些,该如何解决

据Semico统计,FPGA市场正在逐年增长,而复合年均增长率高达38.4%,至2023年将具有55....
发表于 2020-01-07 15:23 171次阅读
FPGA的发展瓶颈有哪些,该如何解决

FPGA和GPU在深度神经网络方面谁更胜一筹

在今天的大数据时代,企业和消费者被各种来源的海量数据淹没,包括商业交易、社交媒体以及传感器或机器对机....
发表于 2020-01-07 15:08 256次阅读
FPGA和GPU在深度神经网络方面谁更胜一筹

FPGA中面积换速度该如何去实现

在FPGA中,如果要将一个采样率为480MHz,中频频率为302.5MHz的信号变频到零中频的基带信....
发表于 2020-01-07 14:45 87次阅读
FPGA中面积换速度该如何去实现

安路科技文余波:站在历史的关口,国产FPGA当自...

安路科技总经理文余波在接受采访时表示,安路科技能在FPGA市场上实现过亿的销售,证明了公司一直以来强....
发表于 2020-01-07 13:59 119次阅读
安路科技文余波:站在历史的关口,国产FPGA当自...

英特尔Stratix 10 GX 10M FPG...

现场可编程门阵列(FPGA)的优势就是能够制造功能强大的芯片,可重复单元设计的性质,能够吸收工艺技术....
发表于 2020-01-06 15:31 86次阅读
英特尔Stratix 10 GX 10M FPG...

FPGA和GPU的市场竞争,谁才是未来的大局所向

一直以来,FPGA 的主要应用领域是电子工程。但当英特尔完成对 Altera(Altera 是最大的....
发表于 2020-01-06 15:26 113次阅读
FPGA和GPU的市场竞争,谁才是未来的大局所向

介绍FPGA中testbench的编写技巧

原来模块中的输入信号,定义成reg 类型,原来模块中的输出信号,定义为wire类型,但这里有个问题,....
发表于 2020-01-06 14:52 93次阅读
介绍FPGA中testbench的编写技巧

高云半导体成功量产Always-On超低功耗GW...

高云半导体基于超低功耗的非易失FPGA GW1NZ-ZV器件现已全面量产,此产品是迄今为止功耗最低的....
发表于 2020-01-06 10:29 171次阅读
高云半导体成功量产Always-On超低功耗GW...