0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何用FPGA并行高速运算实现实时的引导滤波算法

8XCt_sim_ol 来源:疯狂的FPGA 作者:Im_CrazyBingo 2021-08-10 14:27 次阅读

前面一篇文章中,已经详细的分析了引导滤波的理论,公式的推导,以及和双边滤波的对比分析,即在边缘的处理上双边滤波会引起人为的黑/白边。我们已经知道何博士引导滤波的优秀之处,那么本篇文章,我带你推演,如何用FPGA并行高速运算,最小的代码实现实时的引导滤波算法

首先,给出上篇中最后的matlab 引导滤波的代码,如下所示。

其中框框中为主要的计算过程,下一图为计算a/b的最后的公式(引导图=本身)。

b50e7686-f82c-11eb-9bcf-12bb97331649.png

b51c9ebe-f82c-11eb-9bcf-12bb97331649.png

双边滤波由于其只是在空间距离及像素相似度上进行权重计算,加权滤波,相对算法不是特别复杂,FPGA也易于实现(某司的USB工业相机2D滤波就是双边滤波),但是确实效果上不如引导滤波,那么引导滤波FPGA计算真有那么难吗?为此我翻阅了一些资料,也从头到尾推到计算了一遍,略有所成,出来和大家分享下。

在Matlab/C的加速中,引导滤波采用了盒式滤波的方式去加速,将运算复杂度从O(MN)的降低到了O(4),其方法就是先计算当前像素到原点像素组成的矩形区域的和/平方和等,对于线程的Matlab/C而言确实有很大的加速作用,相关的文章可以参考如下,对于软件加速而言还是很不错:

https://www.cnblogs.com/lwl2015/p/4460711.html

于是网上就有了一篇所谓的采用FPGA进行引导滤波加速的专利,链接如下:

https://www.doc88.com/p-4377429794731.html?r=1

另附上架构实现图,但我估计这几个小朋友还没有想明白boxfilter是怎么回事,生搬硬套软件boxfilter加速的思维嘛???

b5275160-f82c-11eb-9bcf-12bb97331649.png

图中,计算均值,平方均值,a的均值,b的均值采用了4个boxfilter,也就是说如果输入1280*720的图像,那就需要缓存4个那么大地址空间的区域来存储中间变量,这显然是不适合FPGA加速运算的啊。FPGA的意义在于高速并行技术,尽可能的避免冲入进入缓存,而是以Pipeline的方式流水线完成运算,实现真正低延时+实时处理的目标。

所以为什么不能流水线完成所有的计算操作呢?

不服来战,没有啥难度的……下面开始我的表演。

【第一步】

以3*3的滤波为例(这里的引导图都是原图),按行从传感器或者DDR中读取原图,采用移位寄存后得到3*3的矩阵行,如下所示:

b5a8fec2-f82c-11eb-9bcf-12bb97331649.png

如上图中,以P00-P22为例,这9个像素,我们可以通过计算得均值,以及平方的均值,紧接着继续计算得到a与吧,详见下图,其中相关的参数定义如下:

P原始图像像素集

Pm以当前像素为中心的3*3像素的均值

PPm以当前像素为中心的3*3像素平方的均值

sum1以当前像素为中心的3*3像素的和

sum1以当前像素为中心的3*3像素平方的和

a以当前像素为中心计算的参数a

b以当前像素为中心计算的参数b

am以当前像素为中心的3*3像素的a均值

bm以当前像素为中心的3*3像素的b均值

b5c4d99e-f82c-11eb-9bcf-12bb97331649.png

从上图可知,通过三行组成的矩阵,以流水线方式,最快用了6个时钟得到了参数a与b;

由于全图流水线运行,因此从第6个时钟开始,将持续的输出每一个像素对应的a与b,等同于我们通过这一阶段的实现方式,得到了参数a/b阵列。

另外,上图中可知,除以9的运算我已经默默转换为乘法与移位,clk4中将涉及到的小数点,已经提前扩大了1024倍,同等的b中也做了变更(红/蓝色字体),这就是FPGA定点化的加速的方式。

再者,由于最后的计算还需要P的参与,因此上述步骤中,需要将输入的原始图像进行移位延时,最终能和后续am/bm对齐。

【第二步】

接下来,进一步计算am与bm,这个就简单的多了,类似第一步,直接缓存3行得到3*3的矩阵行,通过加权后得到am与bm。这个过程中am与bm的计算可以完全并行,每个am/bm的计算耗时3个时钟。

详见下图计算流:

b5e7fa0a-f82c-11eb-9bcf-12bb97331649.png

【第三步】

此时我们已经同时得到了am,bm,以及通过移位delay后和am/bm对齐的P,那么直接套用公式,我们就可以计算出每一个像素滤波后的值:

即输出Q=(am*P+bm)》》10

这里还需要右移10bit,是因为前面第一步中,由于涉及到了小数,我们提前进行了1024倍的扩大,来减少计算误差的损失。

至此,流水线操作,没有使用boxfilter,没有将数据回写入DDR,我们采用了若干行line buffer的形式,完成了实时引导滤波的FPGA加速实现。

整体流程再梳理一下,相关的依赖以及流水方式,如下图所示,应该可以看的更明白。其中绿色为第一步计,灰色为第二步计算,红色为最后一步计算。

b6268dec-f82c-11eb-9bcf-12bb97331649.png

所以,这就是FPGA并行加速运算的价值与意义,按照我的实现方式,可以用最小的代码实现实时的引导滤波,甚至连低端的EP4CE6E都不是问题。

同样一个算法,可以有n种实现方式,你甚至可以把算法挪到MPSOC的PS中执行,然后忍受龟速的同时你可能还会抱怨FPGA跑的慢,CPU性能不足之类的,但是永远不要忘记,架构的意义。正如软件的优化,其实很多时候,并不是算法本身不行,而是你对系统底层,对计算优化的能力不行。

为什么我喜欢用FPGA加速,因为每一个门级电路,以何种并行度何种方式进行计算,一切都可以在我的掌控之中。

所以当年我说过一句话:掌握了FPGA,你便掌握了整个世界。

至此,从均值滤波到中值滤波、高斯滤波、双边滤波、引导滤波这些通用的2D降噪算法,我都已经通过公众号/知识星球/博客的方式,从原理到FPGA加速实现阐述明白。

如果在这之间有任何疑问,或者我有什么不到之处的,欢迎以各种方式来跟我讨论(伸手党麻烦出门右转)。

谢谢大家!

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1590

    文章

    21136

    浏览量

    591879
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10301

    浏览量

    206122
  • 滤波
    +关注

    关注

    10

    文章

    621

    浏览量

    56196

原文标题:基于FPGA的引导滤波并行加速实现 推演

文章出处:【微信号:sim_ol,微信公众号:模拟在线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何使用FPGA驱动并行ADC和并行DAC芯片?

    ADC和DAC是FPGA与外部信号的接口,从数据接口类型的角度划分,有低速的串行接口和高速并行接口。
    的头像 发表于 02-22 16:15 1549次阅读
    如何使用<b class='flag-5'>FPGA</b>驱动<b class='flag-5'>并行</b>ADC和<b class='flag-5'>并行</b>DAC芯片?

    浮点LMS算法FPGA实现

    引言 LMS(最小均方)算法因其收敛速度快及算法实现简单等特点在自适应滤波器、自适应天线阵技术等领域得到了十分广泛的应用。为了发挥算法的最佳
    的头像 发表于 12-21 16:40 222次阅读

    详解从均值滤波到非局部均值滤波算法的原理及实现方式

    将再啰嗦一次,详解从均值滤波到非局部均值滤波算法的原理及实现方式。 细数主要的2D降噪算法,如下图所示,从最基本的均值
    的头像 发表于 12-19 16:30 224次阅读

    何用FPGA实现FFT算法

    长度N的平方成正比。当N较大时,因计算量太大,直接用DFT算法进行谱分析和信号的实时处理是不切实际的。快速傅立叶变换(Fast Fourier Transformation,简称FFT)使DFT运算效率
    的头像 发表于 10-09 14:30 428次阅读

    请问如何将C语言算法移植到FPGA上?

    确定算法:首先,你需要确保要移植的C语言算法是合适的。FPGA适合并行计算和高度可定制的应用。因此,你需要选择一个适合FPGA
    发表于 09-12 17:20 878次阅读

    FPGA进行基本运算和特殊函数定点运算

    FPGA以擅长高速并行数据处理而闻名,从有线/无线通信到图像处理中各种DSP算法,再到现今火爆的AI应用,都离不开卷积、滤波、变换等基本的数
    的头像 发表于 09-05 11:45 264次阅读

    怎么用FPGA算法 如何在FPGA实现最大公约数算法

    各种不同的计算和处理任务,例如数字信号处理(DSP)、图像处理、机器学习、通信协议处理等。FPGA的特点使得它非常适合实现需要高度并行计算和低延迟的算法
    的头像 发表于 08-16 14:31 1570次阅读
    怎么用<b class='flag-5'>FPGA</b>做<b class='flag-5'>算法</b> 如何在<b class='flag-5'>FPGA</b>上<b class='flag-5'>实现</b>最大公约数<b class='flag-5'>算法</b>

    利用FPGA进行基本运算及特殊函数定点运算

    点击上方 蓝字 关注我们 一、前言 FPGA以擅长高速并行数据处理而闻名,从有线/无线通信到图像处理中各种DSP算法,再到现今火爆的AI应用,都离不开卷积、
    的头像 发表于 07-19 14:25 775次阅读
    利用<b class='flag-5'>FPGA</b>进行基本<b class='flag-5'>运算</b>及特殊函数定点<b class='flag-5'>运算</b>

    何用FPGA并行高速运算实现实时引导滤波算法

    首先,给出上篇中最后的matlab 引导滤波的代码,如下所示。
    发表于 07-03 14:57 895次阅读
    如<b class='flag-5'>何用</b><b class='flag-5'>FPGA</b><b class='flag-5'>并行</b><b class='flag-5'>高速</b><b class='flag-5'>运算</b><b class='flag-5'>实现实时</b>的<b class='flag-5'>引导</b><b class='flag-5'>滤波</b><b class='flag-5'>算法</b>?

    基于FPGA实时图像边缘检测系统设计(附代码)

    设计(中)基于FPGA实时图像边缘检测系统设计(下) 导读 随着科学技术的高速发展,FPGA在系统结构上为数字图像处理带来了新的契机。图像中的信息
    发表于 06-21 18:47

    荐读:FPGA设计经验之图像处理

    不大。但问题是只有FPGA做这样的运算才是速度最快效率最高的,比如用CPU做一个取边缘的算法根本就达不到实时。另外别小看了这种NxN算子法,它可以有各种组合和玩法,可以
    发表于 06-08 15:55

    并行FIR滤波器MATLAB与FPGA实现

    本文介绍了设计滤波器的FPGA实现步骤,并结合杜勇老师的书籍中的并行FIR滤波器部分进行一步步实现
    的头像 发表于 05-24 10:57 639次阅读
    <b class='flag-5'>并行</b>FIR<b class='flag-5'>滤波</b>器MATLAB与<b class='flag-5'>FPGA</b><b class='flag-5'>实现</b>

    如何在FPGA中进行简单和复杂的数学运算

    由于FPGA可以对算法进行并行化,所以FPGA 非常适合在可编程逻辑中实现数学运算
    发表于 05-15 11:29 2033次阅读
    如何在<b class='flag-5'>FPGA</b>中进行简单和复杂的数学<b class='flag-5'>运算</b>?

    采用FPGA实现FFT算法示例

    差,成本昂贵。随着FPGA发展,其资源丰富,易于组织流水和并行结构,将FFT实时性要求与FPGA器件设计的灵活性相结合,实现
    的头像 发表于 05-11 15:31 1597次阅读
    采用<b class='flag-5'>FPGA</b><b class='flag-5'>实现</b>FFT<b class='flag-5'>算法</b>示例

    基于FPGA的图像处理算子/卷积核实现方法

    FPGA最大的优势体现在其低功耗和并行运算的特点上,数字图像蕴含数据量大,采用FPGA可以在保证低功率运算的情况下,有效提高图像算法
    的头像 发表于 04-07 09:40 2832次阅读