基于FPGA的改进型FIR滤波器的实现

来源: 作者:2018年02月26日 18:44
关键词:fir滤波器fpga

FIR数字滤波器在数字信号处理的过程中有很好的线性相位和稳定性,被广泛应用于音频处理、语音处理、信息系统等各种系统中。随着现代电子技术及EDA技术的发展,特别是可编程逻辑电路的发展,FIR数字滤波器的实现将变得更具有灵活性和实时性。FIR滤波器的实现有多种方法,其中基于分布式算法FIR滤波器的FPGA实现采用硬件结构,此算法的特点是运行速度快,能较好地实现实时处理,特别适合于高速实时的信号处理。本文提出了一种基于分布式算法改进型FIR滤波器的FPGA实现,并设计和实现了改进型FIR滤波器。

1 FIR数字滤波器的直接型结构

FIR数字滤波器的输入与输出可以用下式表示:

式中:N为滤波器的阶数(或抽头数);x(k)为第k时刻的输入样本值;h(k)为第k级抽头系数。FIR因为其单位脉冲响应h(n)是有限长而得名,即h(n)是一个有限长序列,对h(n)做Z变换就得到FIR数字滤波器的系统函数H(z):

由此可以得到FIR数字滤波器直接型的结构图如图1所示。

2 改进型FIR数字滤波器算法

2.1 分布式算法的原理

分布式算法是一种重要的FPGA技术,广泛应用在计算乘积和之中。除了卷积之外,相关、DFT计算和RNS反演映射等都可以转化为乘积和(sum of products)的形式。

(1)无符号分布式算法

假设N项的乘积和表示为:

又设系数h(n)是已知的常系数,x(n)是变量,设x(n)的表达式如下:

其中xb(n)表示x(n)的第b位,x(n)是x的第n次采样,则y又可以表示为:

(2)有符号分布式算法

对于有符号数补码数采用补码的表示方法。需要注意的是,在补码中,最高有效位是用来区别正数和负数的。将采用(B+1)位表达式:

要实现有符号分布式系统,通常采用“带有加/减控制器的累加器”实现此系统,当xb(n)为0时进行加法运算,为1时进行减法运算。

2.2 串行分布式算法

串行分布式算法结构如图2所示。利用一个LUT实现映射,即2N字宽,预先编写好程序的xb=[xb(0),xb(1),…,xb(N-1)]的映射,经查找表查找后输出,N次查询循环后就完成了计算结果。

以三阶四位有符号的数字滤波器为例,令滤波器的系数为{-2,1,3},LUT可采用基于FPGA的逻辑查找表或利用FPGA自带的ROM实现。用case表实现的核心代码如下:

Process (table_ in)

Begin

Case table_ in is

when “000”=》 table_ out=0;

when “001”=》 table_ out=-2;

when “010”=》 table_ out=3;

when “011”=》 table_ out=1;

when “100”=》 table_ out=1;

when “101”=》 table_ out=-1;

when “110”=》 table_ out=4;

when “111”=》 table_ out=2;

when others=》 table_ out=0;

end case;

end process;

2.3 并行分布式算法

并行分布式算法结构如图3所示,图中虚线代表流水线寄存器,输入采用逐次采样(每次一个字)、位并行的形式。将每个数据的相同位递给LUT,对于输入的每一位都需要配置相应单独的表,且表的规模不固定(输入位宽等于滤波器抽头的数量),但表的内容相同。且不同的位对应不同的值,然后将从LUT中读取的数据经过处理后送入加法器中,每级的加法运算都是并行的。

2.4 拆分查找表

并行分布式算法虽然能够有效提高系统运算的速度,但是占用的资源太大。串行分布式算法占用的资源小,但系统的运算速度慢。而且当N很大时,即在FIR滤波器中如果阶数很高时,作为查找表的ROM将很大,例如:假定N=16,输入LUT的位宽为16,则ROM的大小为16&TImes;216 bit,即1 Gbit。N每增加一位,ROM容量就增加一倍,这种以2的幂次递增的资源占用是硬件资源不可接受的。

当系统对速度要求不太高、而滤波器的阶数很高时,可以采用拆分表减少ROM容量并将结果累加。如果再加上流水线寄存器,这个改进并没有降低速度,却可以极大减少LUT的设计规模。

假设长度为LN的内积:

可以用一个DA结构实现。将和分配到L个独立的N阶并行DA的LUT之中,结果如下:

例如:实现一个4N的DA设计需要3个次辅助加法器。而表格的规模从一个4N&TImes;2B的LUT降低到4个N&TImes;2B表。图4是拆分查找表的硬件结构图。

3 基于FPGA实现的改进型FIR滤波器结构性能

3.1 16阶8位FIR滤波器的实现及仿真

本设计采用Altera公司的Cyclone II EP2C35F672C8器件,在Quartus II 5.0下仿真,FIR滤波器为16阶,输入数据为8位(最高位代表符号位)。如果采用单个查找表的面积为28&TImes;16 bit,面积太大。采用拆分查找表的结构能减少面积,在Altera公司的一系列FPGA中LUT查找表采用四输入查找表,因此单个表可以拆分为2个四输入的查找表。因为设计的是线性相位滤波器,这样单个表的面积就得到了最优化。同时单个查找表的连线是LUT查找表的内部连线,减少了互联的资源和连线的延迟。查找表计算方法如表1所示。

设输入序列为{99,0,0,0,70,0,0,0,99,0,0,0,70,0,0,0},滤波器的系数为{-12 -18 13 29 -13 -52 14 162 242 14 -52 -13 29 13 -18}。仿真结果如图5所示。

本设计的时钟主频可达73.49 MHz,占用了236个逻辑单元,占整个LC(Logic cell)的2%。可见拆分查找表的方式实现FIR滤波器速度较快,占用的资源少。

若要实现更高阶的滤波器,拆分查找表法的优势将更加明显。另外,如果是线性相位的滤波器,表的个数将能缩小一倍。本设计即为线性相位滤波器。

3.2 改进型FIR滤波器在FPGA中实现的特点分析

为了分析改进型FIR滤波器在FPGA中实现的特点,利用VHDL语言程序分别设计了16阶的串行、并行及直接型FIR滤波器,并与相应的拆分查找表法FIR滤波器进行比较,其各自的运行速度及占用FPGA资源的情况如表2所示。

从表2可以看出,改进型滤波器与直接型相比存在两大明显的优势。一方面,在滤波器阶数相同时,改进型FIR滤波器在FPGA资源占用上比直接型更少;另一方面,系统运行的速度比直接型更快。而且,随着滤波器阶数的增加,这种优势更加明显。串行滤波器完成一次运算需要8个时钟周期,为了把数据分为8个时钟周期进行计算,采用了移位寄存器,这样单个表的面积相当大,从而占用了大量资源,工作速度也受到了限制。并行分布式滤波器在1个时钟周期完成了累加,提高了工作速度,但所用面积较大。拆分查找表法滤波器大大减少了面积,而且速度并没有降低。

本设计采用了拆分查找表方法,影响系统速度的是加法器组,可以对滤波器进一步改进,如对加法器组利用流水线、编码等技术可以提高工作速度。

通过以上的理论分析和仿真结果表明,基于FPGA器件的拆分查找表FIR算法,占用资源少、运算速度快,在资源允许的条件下可根据实际应用任意确定滤波器的长度和阶数,是一种比较实用可靠的高效设计方法。

关注电子发烧友微信

有趣有料的资讯及技术干货

下载发烧友APP

打造属于您的人脉电子圈

关注发烧友课堂

锁定最新课程活动及技术直播
声明:电子发烧友网转载作品均尽可能注明出处,该作品所有人的一切权利均不因本站而转移。
作者如不同意转载,既请通知本站予以删除或改正。转载的作品可能在标题或内容上或许有所改动。
收藏 人收藏
分享:

相关阅读

发表评论

elecfans网友

分享到:

用户评论(0