0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DSP处理器上并行实现ATR算法

454398 来源:罗姆半导体社区 作者:罗姆半导体社区 2022-12-20 18:37 次阅读

来源:罗姆半导体社区

自动目标识别(ATR)算法通常包括自动地对目标进行检测、跟踪、识别和选择攻击点等算法。战场环境的复杂性和目标类型的不断增长使ATR算法的运算量越来越大,因此ATR算法对微处理器的处理能力提出了更高的要求。由于通用数字信号处理芯片能够通过编程实现各种复杂的运算,处理精度高,具有较大的灵活性,而且尺寸小、功耗低、速度快,所以一般选择DSP芯片作为微处理器来实现ATR算法的工程化和实用化。

为了保证在DSP处理器上实时地实现ATR算法,用算法并行化技术。算法并行化处理的三要素是:①并行体系结构;②并行软件系统;③并行算法。并行体系结构是算法并行化的硬件基础,并行算法都是针对特定的并行体系结构开发的并行程序。根据DSP处理器的数目,ATR算法的并行实现可以分为处理器间并行和处理器内并行。处理器间并行是指多个DSP处理器以某种方式连接起来的多处理器并行系统,ATR算法在多个处理器上并行招待。

根据处理器使用存储器的情况,多处理器并行系统又可分为共享存储器多处理器并行系统和分布式多处理器并行系统。处理器内并行是指在单个DSP处理器内通过多个功能单元的指令级并行(ILP)来实现ATR算法的并行化。本文分别对在共享存储器多处理器并行系统、分布式多处理器并行系统和指令级并行DSP处理器上并行实现ATR算法进行了探讨。

1 在共享存储器多处理并行系统上实现ATR算法

在共享存储器多处理器并行系统中,各个处理器通过共享总线对所有的存储器进行操作,实现各个处理器之间的数据通信。而在任一时刻,只允许一个处理器对共享总线进行操作。所以处理器对存储器进行读/写操作时就必须先获得对共享总线的控制权,这通过总线仲裁电路实现。然而,由于所有的处理器只能通过一条共享总线对存储器进行访问,这在处理器数目比较多或者处理器之间频繁交换数据的情况下容易引起总线冲突和等待而降低整个并行系统的运行速度。共享存储器多处理器并行系统的优点是结构简单,当处理器的数目较少时,可以达到较高的加速比。 ADSP2106x处理器支持最为常用的共享存储器多处理器并行系统,组成多处理器系统的每一片ADSP2106x的片内存储器统一编址,任一ADSP2106x可以访问其它任何一片ADSP2106x的片内存储器。由于片内SRAM为双口存储器,因而这种访问并不中断被访问处理器的正常工作。每个处理器片内SRAM既是该处理器的局部存储器,又是共享存储器的部分。在不增加辅助电容的情况下,通过外部总线接口直接相连的处理器数量最多为6个。由于每个处理器的工作程序放在其片内的双口SRAM中,因此各个处理器可以实现并行处理,这是ADSP2106x的存储器结构所决定的。 ATR算法在共享存储器多处理器并行系统中实现时,在编写并行算法程序方面应当重点考虑的问题包括: (1)均衡地把任务分配给各个处理器 ATR算法在共享存储器多处理器并行系统中实现任务级并行,因此必须把ATR算法划分为计算量均衡的多个任务,把各个任务分配给多个处理器,才能发挥多处理器并行系统的最大并行效率。 (2)尽量减少多处理器之间数据通信 由于多处理器只能通过一条共享总线对存储器进行访问,这在多处理器之间频繁交换数据的情况下容易引起总线竞争而降低整个并行系统的运行速度。 (3)利用单个处理器的并行编程特性 充分应用单个处理器的并行编程特性,有利于缩短各个处理器上任务的运行时间。例如,ADSP2106x的32位浮点运算单元包含一个乘法器、一个加法器和移位逻辑电路,它们并行工作;比特倒转寻址在傅立叶变换运算时非常有用;循环寻址在作卷积、数字滤波运算时经常用到等。

2 在分布式多处理器并行系统上实现ATR算法

在分布式多处理器并行系统中,多处理器有各自独立的存储器,多个处理器通过通信口相连构成分布式多处理器并行系统。分布式多处理器并行系统的加速比和处理器的数目呈线性关系,所以只要增加处理器的数目,分布式多处理器并行系统的处理能力就能够成比例地增加。分布式多处理器比较适合于构成大规模并行系统。

目前,计算量过大仍然是制约许多有效的ATR算法实时实现的个主要因素。ATR算法在分布式多处理器并行系统上实时实现是一个很有潜力的研究领域,特别在地基和天基雷达信号处理系统中有广阔的应用前景。分布式多处理器并行系统的连接方式有线形、树形、星形、网孔和超立方体结构等。树形和星形网络的优点是网络管理容易、数据通信进寻径简单;缺点是树形网络的根节点处理器和星形网络的中央节点处理器的输入/输出吞吐量大,易造成通信瓶颈。所以树形和星形网络不适合ATR算法各个任务数据通信量较大的应用场合。

在分布式多处理器并行系统中并行实现ATR算法目前还处于研究的初始阶段,在编写并行算法程序应当重点考虑两个方面: (1)各处理器任务的均衡分配 在分布式多处理器并行系统中处理器的数目通常较多,只有合理地对众多的处理器均衡地分配任务,才能最大地发挥并行系统的总体性能,提高并行系统的加速比。 (2)处理器节点间的高效通信 在分布式多处理器并行系统中数据通信都是点对点通信。即两个相邻的处理器之间通过通信口通信。因此需要合理安排各个处理器节点在网络结构中的位置,尽可能地缩短处理器节点间的通信路径长度,从而实现处理器节点间的高效数据通信。

3 在指令级并行DSP处理器上实现ATR算法

在单片DSP处理器内通过多个功能单元的指令级并行(ILP)实现ATR算法的并行化处理,目前适合ATR算法实时处理的指令级并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP处理器是第一个使用超长指令字(VLIW)体系结构的数字信号处理芯片。下面以TMS320C62x定点系列DSP为例说明指令级并行的原理和ATR并行算法软件开发方法。内核中的8个功能单元可以完全并行运行,功能单元执行逻辑、位移、乘法、加法和数据寻址等操作。内核采用VLIW体系结构,单指令字长32位,取指令、指令分配和指令译码单元每周期可以从程序存储器传递8条指令到功能单元。这8条指令组成一个指令包,总字长为256位。芯片内部设置了专门的指令分配模块,可以将每个256位的指令分配到8个功能单元中,并由8个功能单元并行运行。TMS320C62x芯片的最高时钟频率可以达到200MHz。当8个功能单元同时运行时,该芯片的处理能力高达1600MIPS。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18293

    浏览量

    222203
  • dsp
    dsp
    +关注

    关注

    544

    文章

    7687

    浏览量

    344388
  • atr
    atr
    +关注

    关注

    0

    文章

    2

    浏览量

    1203
收藏 人收藏

    评论

    相关推荐

    dsp和嵌入式微处理器的区别和联系 嵌入式微处理器应用领域分析

    、性能特点和软硬件支持等方面存在一些区别和联系。 一、嵌入式微处理器DSP的区别和联系 1.定义和设计思路的区别: 嵌入式微处理器是一种集成了CPU、内存、外设接口等基本组件的微处理器
    的头像 发表于 04-21 09:50 195次阅读

    dsp与单片机,嵌入式微处理器的区别

    DSP(数字信号处理器)、单片机和嵌入式微处理器是在不同应用领域中使用的处理器。尽管它们在某些方面存在重叠,但它们在结构、功能和应用方面具有一些明显的区别。 一、
    的头像 发表于 04-21 09:48 167次阅读

    dsp和嵌入式微处理器的区别和联系

    是一种专门用于数字信号处理(Digital Signal Processing)的处理器。数字信号处理是一种通过对数字信号进行算法运算来处理
    的头像 发表于 04-21 09:35 133次阅读

    融合MCU与DSP功能以实现块和流处理

    许多处理器核心增加了一两个乘法指令,就宣称自己具有DSP功能,其实它还要有其它专门用于信号处理处理器。但不是每个具有DSP功能的
    的头像 发表于 01-15 15:15 374次阅读
    融合MCU与<b class='flag-5'>DSP</b>功能以<b class='flag-5'>实现</b>块和流<b class='flag-5'>处理</b>

    DSP通用算法介绍

    数字信号处理DSP )自 1965 年由 Cooley 和 Tukey 提出 DFT(离散傅里叶变换)的高效快速算法( Fourier Transform, 简称 FFT)以来,已有近 40 年
    发表于 09-20 07:23

    数字信号处理的FPGA实现

    FPGA正在掀起一场数字信号处理的变革。本书旨在讲解前端数字信号处理算法的高效实现。首先概述了当前的FPGA技术、器件以及用于设计最先进DSP系统的工具。第1章的案例研究是40多个设计
    发表于 09-19 06:38

    DSP处理器中断系统分为几种 dsp有哪些特点

    处理器DSP系统的核心部分,负责执行各种数据处理算法运算。它通常具有高性能、高速运算能力和专门的数字信号处理指令集,以支持实时数据
    的头像 发表于 08-30 17:32 1280次阅读

    Arm Cortex-M55处理器数据集

    能力的Cortex-M处理器,提供增强的、高能效的数字信号处理(DSP)和机器学习(ML)性能。 Cortex-M55处理器实现了标量和向量
    发表于 08-25 07:46

    DSP和ML功能融合到低功耗通用处理器

    本文中,我们将研究采用氦技术的ARM Cortex-M55处理器与传统DSP的功能进行比较的情况,以及VLIW(超长指令字)体系结构和氦方法在处理器流水线设计中的一些根本区别。 我们
    发表于 08-23 06:51

    基于FPGA协处理器算法及总线连接

    当今的设计工程师受到面积、功率和成本的约束,不能采用GHz级的计算机实现嵌入式设计。在嵌入式系统中,通常是由相对数量较少的算法决定最大的运算需求。使用设计自动化工具可以将这些算法快速转换到硬件
    的头像 发表于 08-22 18:50 509次阅读

    一个典型DSP系统的组成 dsp处理器的特点有哪些

    DSP处理器以其高性能运算能力、并行计算能力、专用指令集和架构设计、高速数据存储和传输能力、低功耗设计和实时性等特点,成为执行数字信号处理任务的重要工具和设备。它们广泛应用于音频、视频
    的头像 发表于 08-21 15:27 2379次阅读

    怎么用FPGA做算法 如何在FPGA上实现最大公约数算法

    各种不同的计算和处理任务,例如数字信号处理DSP)、图像处理、机器学习、通信协议处理等。FPGA的特点使得它非常适合
    的头像 发表于 08-16 14:31 1835次阅读
    怎么用FPGA做<b class='flag-5'>算法</b> 如何在FPGA上<b class='flag-5'>实现</b>最大公约数<b class='flag-5'>算法</b>

    ARM Cortex-M85处理器技术参考手册

    功能。 设计的重点是计算机应用,如数字信号处理(DSP)和机器学习。Cortex®-M85处理器能效高,在标量和向量运算中实现高计算性能,同时保持低功耗。
    发表于 08-09 07:28

    dsp处理器是专门用于什么方面的处理器

    DSP处理器(Digital Signal Processor)是一种专门用于数字信号处理处理器。与通用用途的微处理器(如普通的中央
    发表于 07-27 17:21 3067次阅读

    数字信号处理:在硬件平台上实现算法

    到目前为止,我们已经描述了DSP处理器的物理架构,解释了DSP如何提供与传统模拟电路相比的一些优势,并研究了数字滤波,展示了DSP的可编程特性如何适用于此类
    的头像 发表于 06-17 11:49 980次阅读
    数字信号<b class='flag-5'>处理</b>:在硬件平台上<b class='flag-5'>实现</b><b class='flag-5'>算法</b>