0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TMS320C6678存储器访问性能 (下)

电子工程师 来源:网络整理 2018-02-19 01:11 次阅读

1. DMA访问存储器的性能

EDMA3架构支持很多功能,可以实现高效的并行数据传输。本节讨论影响它性能的很多因素,如存储器类型,地址偏移等。

1.1 DMA传输的额外开销

一般的传输时延被定义为EDMA被触发到真正的数据传输开始的时间。由于数据传输开始的时间无法用简单的方法测量,所以我们用最小数据单元的传输完成时间来代表DMA传输的时延或额外开销。根据不同源/目的地址的组合,这个值会有所不同。表4列出了在1GHz C6678 EVM(64-bit 1333MTS DDR)上测得的从EDMA触发(写ESR)最小数据传输(1 word)到EDMA 传输结束(读到IPR=1) 的平均的时钟周期数。

表4 EDMA CC0传输的额外开销

表5 EDMA CC1和EDMA CC2传输的额外开销

由于EDMA CC0 连接到离SL2 和DDR 比较近的内部总线交换网络,因此它访问SL2 和DDR 额外开销比较小。而EDMA CC1 和CC2 连接到离DSP 核的L1 和LL2 比较近的内部总线交换网络,所以它们访问L1 和LL2 的额外开销比较小。

IDMA 一般用来在LL2 内部拷贝数据,测试得到的IDMA 的平均额外开销是61 个时钟周期。

传输的额外开销是小数据量传输要考虑的重要因素。单个数据单元的传输时间完全由DMA 的额外开销决定。所以,对于小数据量的拷贝,我们需要在用DMA 和用DSP 核之间做权衡选择。

1.2 EDMA 10 个传输引擎的区别

C6678 上包含10 个EDMA3 TC (Transfer Controller) 。这10 个传输引擎并不完全相同。Table 6 总结了它们之间的区别。

表6 EDMA 传输引擎之间的区别

表7 比较了在1GHz C6678 EVM(64-bit 1333MTS DDR)上测得的各个EDMA TC 的最大吞吐量。测试的参数ACNT=1024,BCNT=128,AB_Sync(一次传完ACNTxBCNT)。

表7 1GHz C6678 上EDMA TC 吞吐量比较

对SL2 和DDR 之间的传输,TC0_0 和TC0_1 能达到的吞吐量是其它TC 的两倍。在本文其它部分,如果没有特殊说明,EDMA 性能数据都是在TC0_0 上测得的。

1.3 EDMA 带宽和传输灵活性的权衡

EDMA3 支持很多灵活的传输参数配置。多数配置情况下EDMA 可以充分利用存储器带宽;但在某些情况下,传输性能可能会有所下降。为了设计高效的系统,我们需要理解什么样的配置能够实现高效的传输,而某些情况下必须在灵活性和效率之间做权衡。

1.3.1 第一维大小 (ACNT) 的考虑(突发数据块大小)

为了充分利用传输引擎的带宽,传输尽量大的数据块是非常重要的。

为了充分利用128-bit 或256-bit 的总线,ACNT 应该是16 bytes 的整数倍;为了充分利用EDMA的突发数据块,ACNT 需要是64 bytes 的整数倍;为了充分利用EDMA FIFO,ACNT 应该至少是512 bytes。

图7 画出了在1GHz C6678 EVM(64-bit 1333MTS DDR)上,从SL2 到DDR 传输1~24K bytes 数据时测得的吞吐量。

图7 ACNT 对EDMA 效率的影响

从测试结果可以看出,ACNT 越大,带宽的利用率越高。

1.3.2 二维传输的考虑(传输优化)

如果2D 传输 (AB_Sync)是线性的 (BIDX=ACNT),并且ACNT 是2 的幂次方,EDMA 会把这个2D 传输优化为1D 传输。我们在1GHz C6678 EVM(64-bit 1333MTS DDR)上测试了不同的ACNT 和BCNT 的组合;图 8是线性2D 传输的测试结果,它说明,不管BCNT 是多少,带宽由ACNTxBCNT 的乘积决定。

图8 线性 2D 传输

如果2D 传输不是线性的,带宽的利用率完全有ACNT 决定(参见图 7)。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    38

    文章

    7141

    浏览量

    161969
  • TMS320C6678
    +关注

    关注

    3

    文章

    37

    浏览量

    18000
收藏 人收藏

    评论

    相关推荐

    想建立一个TMS320C6678的工程,但是DEVICE选择的时候没有TMS320C6678的选项,能指点一吗?

    本帖最后由 一只耳朵怪 于 2018-6-19 14:37 编辑 我想建立一个TMS320C6678的工程,但是DEVICE选择的时候没有TMS320C6678的选项,能指点一吗?如下图:?
    发表于 06-19 00:31

    TMS320C6678系统设计中PCIECLK问题

    请问在设计基于TMS320C6678系统板时,如果不用PCIE模块,是不是可以悬空PCIECLKP和PCIECLKN引脚,还是是分别接高电平和低电平。
    发表于 06-21 04:10

    TMS320C6678电源方案

    您好!           TI对于TMS320C6678这个多核DSP推荐的电源方案是什么?除了Hardware Design guide上面说的UCD9222和UCD7242外还有其他
    发表于 06-21 07:15

    请问SM320C6678TMS320C6678的区别有哪些?

    出温度范围外,请问SM320C6678TMS320C6678的区别有哪些?谢谢。
    发表于 07-24 06:42

    TMS320C6678 连接CMOS摄像头的接口,请问是将摄像头连接到TMS320C6678的哪个端口?

    您好!我们项目中需要使用TMS320C6678连接摄像头进行图像数据采集,请问是将摄像头连接到TMS320C6678的哪个端口?是将CMOS摄像头直接连上吗?还是中间需要转换
    发表于 08-03 08:33

    请问tms320c6678在CPCI板卡上如何设计

    我想用tms320c6678作为处理设计一款CPCI的板卡,可是6678上只有PCIE,没有PCI,我应该怎么做才能实现6678与上位机之间通信,谢谢!!!
    发表于 12-28 11:05

    TMS320C6678处理的VLFFT该怎么演示?

    本白皮书探讨了TMS320C6678处理的VLFFT演示。通过内置8个固定和浮点DSP内核的TMS320C6678处理来执行16K-1024K的一维单精度浮点FFT算法样本,检测其
    发表于 09-29 10:05

    TMS320C6678处理性能怎么样?

    TMS320C6678处理性能怎么样?怎么探讨TMS320C6678处理的VLFFT演示?
    发表于 04-19 10:53

    TI TMS320C6678是什么?有何功能

    CPU处理TI TMS320C6678是一款TI KeyStone C66x多核定点/浮点DSP处理,集成了8个C66x核,每核心主频高
    发表于 12-30 06:08

    TMS320C6678的相关资料推荐

    CPU处理TI TMS320C6678是一款TI KeyStone C66x多核定点/浮点DSP处理,集成了8个C66x核,每核心主频高
    发表于 01-03 06:07

    TMS320C6678处理器的VLFFT演示探讨与研究

    1,2,4或8核时各自的运行时间。演示的结果证明了C66X DSP内核的优异性能,以及TMS320C6678处理器跨多核平行化执行性能与内核数量成正比的特性。 本文的演示采用FFT算法,该算法在诸如医学成像、通信、军事和商业雷达
    发表于 01-31 22:58 4002次阅读
    <b class='flag-5'>TMS320C6678</b>处理器的VLFFT演示探讨与研究

    TMS320C6678存储器访问性能详细中文资料

    TMS320C6678 有8 个C66x 核,典型速度是1GHz,每个核有 32KB L1D SRAM,32KBL1P SRAM 和512KB LL2 SRAM;所有DSP 核共享4MB SL2 SRAM。一个64-bit1333MTS DDR3 SDRAM接口可以支持8GB 外部扩展
    发表于 04-26 17:46 13次下载
    <b class='flag-5'>TMS320C6678</b><b class='flag-5'>存储器</b><b class='flag-5'>访问</b><b class='flag-5'>性能</b>详细中文资料

    TMS320C6678 多核定点和浮点数字信号处理器

    电子发烧友网为你提供TI(ti)TMS320C6678相关产品参数、数据手册,更有TMS320C6678的引脚图、接线图、封装手册、中文资料、英文资料,TMS320C6678真值表,TMS32
    发表于 11-02 19:35
    <b class='flag-5'>TMS320C6678</b> 多核定点和浮点数字信号处理器

    TMS320C6678的ZYNQ PS PL异构多核案例开发

    导读 创龙科技TL6678ZH-EVM是一款基于TI KeyStone架构C6000系列TMS320C6678八核C66x定点/浮点DSP,以及Xilinx Zynq-7000系列XC7Z045
    发表于 09-14 14:09 15次下载

    基于TMS320C6678的八核DSP雷达信号分选电路

    电子发烧友网站提供《基于TMS320C6678的八核DSP雷达信号分选电路.pdf》资料免费下载
    发表于 11-06 10:28 0次下载
    基于<b class='flag-5'>TMS320C6678</b>的八核DSP雷达信号分选电路