0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

突破FPGA限制:TS-M4i系列数字化仪利用GPU加速实现高效块平均处理

Sophia_wff 来源:Sophia_wff 作者:Sophia_wff 2024-08-19 15:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、应用背景

块或分段内存平均模式常用于在不同应用当中,移除信号中不相干的噪声。不管是哪家的数字化仪制造商,几乎所有基于FPGA实现的块平均模式都会受到块或者段内存大小的限。该限制一般取决于FPGA的容量,最大样品量通常在32k到500k之间。

本白皮书将展示如何使用TS-M4i系列数字化仪的高速PCIe流模式来在软件中实现块平均处理,从而突破FPGA的限制。我们用了TS-M4i.2230(1通道,5 GS/s,8位垂直分辨率,1.5 GHz带宽)作为例子,对比硬件和软件进行块平均处理的效果。

二、什么是块平均?

块平均模式可以用来移除随机噪声成分,提高重复信号的保真度。该模式允许对多次单段采集进行处理、累积和平均。这个过程减少了随机噪声,提高了重复信号的可见性,平均后的信号具有增强的测量分辨率和更高的信噪比(SNR)。

块平均模式可用于改善雷达测试、天文学、质谱学、医学成像、超声波测试、光纤测试和激光测距等各种不同应用中的测量。

下面截图显示了一个较低电平的信号(大约2mV),完全被随机噪声覆盖的情形,以及使用不同平均因子获得的信号质量改进。虽然在原始单次采集中源信号基本无法看到,但10x平均时,能显示出实际上有5个信号峰。执行1000x的块平均可以进一步改善信号质量,揭示出带有二次最大值和最小值峰的完整信号形状。

wKgaombC5imAFW_WAAHroimRuGo166.png

通过块平均改善噪声问题,该示例使用了一个500MS/s采样率(每个采样点2ns)和14位分辨率的数字化仪制作

三、系统配置

为了兼顾更多老旧设备的性能状况,测试系统选用了一台德思特公司内的旧办公电脑,大致配置如下:

●主板:技嘉GA-H77-D3H

CPUIntel i7-3770,4核3.4 GHz

●运行内存:8 GB DDR3

●硬盘:120 GB固态

操作系统:Win 7 64bit

● IDE:Visual Studio 2005标准版

主板上有一个空闲的PCIe Gen2 x8插槽,我们就使用该插槽来插数字化仪板卡。此时,德思特的TS-M4i板卡的流式传输可以达到满速,约3.4 GB/s(不考虑数据处理的情况下)。

四、软件实现

测试软件使用纯C++编写,并基于德思特流式传输示例。数字化仪板卡通过外部触发采集,板卡会自动在每个触发事件后获取一段数据。数据会先存储在板载内存中,然后通过分散聚集式式DMA直接传输到PC的运行内存,并在运行内存中进行累积,进而执行块平均操作。我们针对不同的配置方式和优化策略进行了测试,来看看分别能达到什么样的性能水平。

摘录出来的一小段源代码显示了多线程版本的主求和循环,这正是软件处理的关键部分,也是决定速度的部分。

wKgaombC5k-AUwNyAAEEz4WWJ6k232.png

以下列表提供了具体实现各个方面的一些信息和备注:

●数据段大小:收到触发事件后将获取数据的样本点数量

●平均次数:对于一个数据段,在算法重置前,整个过程中需要执行多少次平均前的累加操作。

●通知大小:硬件生成中断所需的数据量。该参数决定了整个平均循环的速度。如果通知大小大于数据段大小,则会在一次中断中传输多个数据段的内容,这将减少线程通信和中断处理的额外开销。

●缓冲区大小:DMA传输的目标缓冲区整体大小。在我们的实验中,这个缓冲区固定等于通知大小的16倍。

●触发速率:作为外部触发的信号发生器的信号重复频率。在结果表格中,我们给出的是在不填满(溢出)缓冲区的情况下可以达到的最大触发速率。

●线程数:为了加快求和过程,我们对该任务进行并行化优化,将其分割成多个不同的软件线程。如果线程为1,则表示求和过程不使用额外线程,而是直接在主循环中直接执行。

● CPU负载:由于平均过程是用软件完成的,具体来说就是CPU进行了所有的工作。幸好现代CPU往往包含多个内核,我们实际上可以轻松地在它们之间共享工作任务。

● SSE/SSE2指令:乍一看,这些命令似乎非常适合并行化求和过程,并似乎可以在不需要任何线程编程的情况下加快软件的速度。但不幸的是,SSE命令集都是基于相同类型的数据的,而由于获取的数据是8bit宽度,而平均缓冲区是32位宽,因此在本例中无法利用该指令集进行加速。

五、效果和比较

所有的测量都是使用一个采样率高达5GS/s、垂直分辨率为8位,并且带有外部触发通道的数字化仪进行的。我们在表格中还列出了不同的程序配置以对比效果差异。

wKgaombC5maAF01pAAQeKZV7m6E451.png

通过普通(性能偏低的)PC在时域上进行块平均的性能对比

六、新方法:使用CUDA进行平均运算

2018年11月,我们推出了一些使用SCAPP(通过CUDA访问数据和并行处理)选项进行块平均的示例,适用于非常高速的数据处理。其基本概念与前文所述相同,即数据由数字化仪采集并通过PCIe总线连续传输。不同之处在于,平均值的计算操作不是由CPU完成,而是在GPU中完成。GPU解决方案的一个主要优点在于,GPU本身就是为并行计算而设计,这使GPU成为各种类型的块平均运算的理想选择。

在实现上,SCAPP允许用户直接将数据传送到GPU,这使用了RDMA(远程直接内存存取)技术,然后可以在GPU上执行高速时域和频域信号的平均,并突破通常在CPU和FPGA中出现的数据长度或算力限制。

比如,TS-M4i.2220数字化仪可以以2.5 GS/s的速度连续采样信号,我们可以做到在不丢失样品点的情况下,进行长达数秒的平均运算。类似地,我们还有14位垂直分辨率的TS-M4i.4451数字化仪可以以450 MS/s的速度同时对四个通道的信号进行同一功能的采样。数字化仪板卡还提供了灵活的触发、捕获和读出模式设置,从而使它们能够在触发速率极高的情况采回原始信号,进而做平均处理。相比之下,FPGA方案需要最高性能级别的FPGA来同时满足数据拉取和平均运算,而GPU方案则可以轻松跑满数字化仪的全速,即使是使用入门级GPU也不会成为瓶颈。

以下表格展示了使用GPU,并在和之前表格中板卡参数相同的情况下的测试结果:

wKgZombC5oKACl7dAAFaeh2w29c622.png

在时域上使用GPU进行块平均的测试结果

这些结果是在使用一张Quadro P2000 GPU获得的。如表所示,数据段大小和通知大小并未限制性能,我们遇到唯一限制的瓶颈是GPU内存(显存)。

七、使用GPU进行频域平均

在需要进行频域平均的情况下,也建议使用GPU,因为GPU允许比FPGA方案更大的平均块大小。频域的平均运算过程包含两个步骤,一个是针对块数据的FFT运算,另一个是对FFT结果求和(然后取平均)。其中FFT计算在处理能力方面要求非常高,因此对于频率域平均而言,除了FPGA外,GPU是唯一的可行方案,CPU并不适合在高速下进行FFT转换。

以下表格显示了使用最大采样率为500 MS/s的TS-M4i.4451数字化仪(4通道,14位垂直分辨率)的一些测试结果。最终表明该方案能高效地实现无间隙数据采集,将每个块中的原始数据转换为对应电压值,然后再转换至频率域做平均。

wKgaombC5qKAbB6FAAHqegEJdTs560.png

使用GPU进行频率域块平均的测试结果

八、结论

如上述结果所示,只要重复率不算太高,得益于PCIe总线的高速数据传输率,使用基于CPU的软件在进行块平均时,可以实现比FPGA更大的总数据段大小,从而平均更长时间的样本;而使用GPU时,更是可以达到PCIe总线传输所限制的上限速度。对于需要处理更高重复触发率的情况,会对总线传输速度提出更高的要求,此时基于FPGA硬件的块平均仍将是最佳选择。

上述测试程序也可以提供给您,以便您自己进行重复测试,或者作为实现其他软件程序的基础。其中GPU示例是SCAPP软件选项的一部分,在选购后,德思特的客户可按照NDA协议使用。

总的来说,通知大小设为1 MByte时,可获得最佳性能。具体执行的平均次数对测试性能并没有明显的影响。因为复制结果段和清除结果缓冲所需的时间相对于样本求和运算而言微不足道。

由于在同时采集多个通道时,整个的数据处理和求和过程并没有本质区别,因此只需等价成一个把所有数据都合并到一起的新通道即可(等效采样率= 每通道采样率 × 通道数)。以下设置对应的最大触发速率完全相同:

●1通道5 GS/s @ 数据段大小S1

●2通道2.5 GS/s @ 数据段大小S1/2

●4通道1.25 GS/s @ 数据段大小S1/4

将采样速度降低到2.5 GS/s时,可以在理论上使软件针对1个通道执行平均运算的速度最大化。对于1 M样本点的数据段大小,外加死区长度为160个样本点时,理论上的最大触发速率为:(2.5 GS/s) / (1 MS+ 160 S) = 2.38 kHz。

注意,这确实会明显低于单纯采集时的最大触发速率:2.9 kHz @ 5 GS/s。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1655

    文章

    22287

    浏览量

    630325
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134465
  • 数字化仪
    +关注

    关注

    0

    文章

    158

    浏览量

    18477
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业数字化如何促进新质生产力发展

    据等新一代信息技术为引擎,推动技术群体突破与集成应用。例如,制造业数字化转型为这些技术提供了“蓝海”场景,加速其迭代升级: 生产方式变革 :通过数字孪生技术构建虚实映射系统,
    的头像 发表于 10-24 15:47 239次阅读

    电子行业如何通过MES系统实现数字化升级

    对电子行业而言,万界星空MES系统是实现数字化升级的核心运营平台。它通过将人、机、料、法、环等生产要素数字化并互联互通,构建了一个透明、高效、敏捷、可追溯的
    的头像 发表于 09-29 12:09 294次阅读

    数字孪生可视系统构建行业数字化智能管理生态!

    数字孪生可视系统具备丰富的模型组件,包括二维平面组件及3D模型组件,可根据用户需求进行定制。数字孪生可视系统在行业数字化升级、
    的头像 发表于 09-19 11:45 526次阅读
    <b class='flag-5'>数字</b>孪生可视<b class='flag-5'>化</b>系统构建行业<b class='flag-5'>数字化</b>智能管理生态!

    Spectrum推出多通道GHz数字化,最高支持12通道

    Spectrum仪器今日宣布推出全新旗舰数字化产品。该系列设备具备12位分辨率,最高可支持6通道10 GS/s或12通道5 GS/s的高速数据采集。新型DN6.33x数字化
    的头像 发表于 09-17 17:35 624次阅读

    安科瑞智能网关支撑企业能源数字化转型的核心设备​

    ,助力客户平均降低能耗 15%-25%,为企业能源数字化转型提供核心支撑。 ​ 网关技术迭代:从连接到边缘处理​ 安科瑞 ANet 系列网关围绕 “
    的头像 发表于 09-15 11:03 391次阅读
    安科瑞智能网关支撑企业能源<b class='flag-5'>数字化</b>转型的核心设备​

    Brother全新发布两款网络扫描,助力企业加速迈入数字化办公新生态

    ,以高效流畅的使用体验满足办公用户对工作效率的更佳追求,助力企业加速迈入数字化办公新生态。 Brother推出的新款扫描ADS-2750W 与 ADS-3350W
    的头像 发表于 08-25 13:46 318次阅读
    Brother全新发布两款网络扫描<b class='flag-5'>仪</b>,助力企业<b class='flag-5'>加速</b>迈入<b class='flag-5'>数字化</b>办公新生态

    基于FPGA的压缩算法加速实现

    本设计中,计划实现对文件的压缩及解压,同时优化压缩中所涉及的信号处理和计算密集型功能,实现对其的加速处理。本设计的最终目标是证明在充分并行
    的头像 发表于 07-10 11:09 2085次阅读
    基于<b class='flag-5'>FPGA</b>的压缩算法<b class='flag-5'>加速</b><b class='flag-5'>实现</b>

    进群免费领FPGA学习资料!数字信号处理、傅里叶变换与FPGA开发等

    ~ 01、数字信号处理FPGA实现 旨在讲解前端数字信号处理算法的
    发表于 04-07 16:41

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    FPGA的硬件加速能力处理传感器数据。• 低功耗设计:针对边缘设备和物联网应用,开发低功耗的FPGA解决方案,以满足严格的功耗限制
    发表于 03-03 11:21

    从图形处理到AI加速,一文看懂Imagination D系列GPU

    Imagination的D系列于2022年首次发布,见证了生成式AI从云端到智能手机等消费设备中普及。在云端,由于GPU的可编程性、可扩展性和快速处理AI工作负载的能力,GPU已成为
    的头像 发表于 02-27 08:33 827次阅读
    从图形<b class='flag-5'>处理</b>到AI<b class='flag-5'>加速</b>,一文看懂Imagination D<b class='flag-5'>系列</b><b class='flag-5'>GPU</b>

    GPU 加速计算:突破传统算力瓶颈的利刃

    数字化时代,数据呈爆炸式增长,传统的算力已难以满足复杂计算任务的需求。无论是人工智能的深度学习、大数据的分析处理,还是科学研究中的模拟计算,都对算力提出了极高的要求。而云 GPU 加速
    的头像 发表于 02-17 10:36 517次阅读

    高精度#信号捕获 的终极利器:高速#数字化

    数字化
    虹科卫星与无线电通信
    发布于 :2025年02月14日 18:04:51

    数字化的工作方式有哪些

    数字化,作为一种将图像(胶片或像片)和图形(包括各种地图)的连续模拟量转换为离散的数字量的装置,是专业应用领域中一种用途非常广泛的图形输入设备。本文将深入探讨数字化
    的头像 发表于 01-30 15:27 1572次阅读

    数字化转型对企业带来的价值是什么?

    在整个数字化实施过程中,需要借助一些工具及系统,将我们的数字化应用通过ERP、万界星空科技MES系统软件作为载体运作,打破思想与信息的孤岛,每个环节、每个部门、每个员工都将在标准运作,环环相扣
    的头像 发表于 12-31 09:49 725次阅读
    <b class='flag-5'>数字化</b>转型对企业带来的价值是什么?

    《CST Studio Suite 2024 GPU加速计算指南》

    许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟:通过加速对话框启用,打开求解器对话框,点击“
    发表于 12-16 14:25