0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

提高SoC设计中的内存性能

星星科技指导员 来源:嵌入式计算设计 作者:Gregg Recupero 2022-06-09 16:32 次阅读

无论电子设备被吹捧为多么新、多么快速或高性能,在用户的请求和设备的响应之间总是存在轻微的、几乎无法察觉的延迟。那就是内存以 80% 或更低的效率工作。当然,用户仍然认为该设备速度极快,但工程组知道驱动该设备的片上系统 (SoC) 设计的性能可能会更好——实际上要好得多。

处理器和内存之间的高效、流线型通信是每个工程团队的梦想。这一梦想被当今 SoC 的高度集成特性所阻挠,它由许多不同的客户端组成,每个客户端都向内存子系统生成不同类型的请求流,可能需要数百个时钟周期的延迟才能访问。即使是具有多线程能力的单个客户端运行用于链表处理的指针追踪代码,也会产生随机的客户端请求流,并且似乎几乎没有引用位置。这使得无法从内存子系统或与处理器的有效通信中获得最佳性能。

所需要的是一种简化的方式来收集和处理这些明显随机的请求信息,以创建一个虚拟的参考位置,以实现更好的决策和更高的效率。一项新技术——实际上是嵌入在 SoC 中的知识产权 (IP) 块——已准备好做到这一点。它管理广泛不同的请求流,以创建一个虚拟的参考位置,使请求看起来更线性。实施此类技术可提高内存带宽,并让 SoC 从其内存子系统中提取最佳性能。

不要与内存调度程序混淆,IP 是一个内存预取引擎,它通过将相似的请求组合在一起来与内存调度程序一起工作。它分析来自客户端的多个并发请求流,并确定哪些请求应该优化或预取,哪些不应该。结果是高命中率和超低错误获取率。

一旦客户端请求被优化,它就会存储在请求优化缓冲区(一个保存优化客户端请求的小型微缓存)中,直到客户端需要它为止。缓冲区为多个客户端接口中的任何一个提供非阻塞接口,以使峰值响应带宽超过内存子系统的带宽并减少平均内存延迟。

支持 AXI 和 OCP 协议的多客户端接口可以管理多达 16 个客户端,由设计人员在配置技术时指定。配置工具将自动构建指定数量的客户端接口,每个接口独立运行并能够支持并发操作。这允许 IP 为从请求优化缓冲区发出的任何响应发出多个并发客户端请求。因此,IP 提供的峰值突发带宽比底层内存子系统提供的更高。基准测试显示,IP 将读取延迟从 71% 降低到 78%。

每个工程组的梦想是减少内存的延迟,以提高 SoC 中实现的每个系统组件的性能,从而在不增加功耗的情况下实现更快的设计。所有电子设备都可以从改进的内存子系统中受益,现在有一种使用 IP 块的有效方法。不再落后!

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18275

    浏览量

    222158
  • soc
    soc
    +关注

    关注

    38

    文章

    3745

    浏览量

    215678
收藏 人收藏

    评论

    相关推荐

    如何提高处理器的性能

    提高处理器主频可以提高处理器的性能,但是到一定程度就不能再提高了,我们需要通过双核,或者多核来提高处理器的
    的头像 发表于 01-24 09:59 694次阅读
    如何<b class='flag-5'>提高</b>处理器的<b class='flag-5'>性能</b>

    如何使用TCM提高CPU性能

    和 CM7_1)。2。启用 iCache 时使用 ITCM 会带来任何 CPU 性能优势吗?3.如何以最佳方式设计时钟频率以优化 CPU 性能? 我们是否为 CPU 和内存使用允许的最大时钟频率?
    发表于 01-18 07:01

    内存大涨价!DDR5正迈向主流规格之路

    为满足对高效内存性能日益增长的需求,DDR5相比其前身DDR4实现了性能的大幅提升,具体为传输速度更快、能耗更低、稳定性提高内存密度更大和
    发表于 12-05 10:50 279次阅读
    <b class='flag-5'>内存</b>大涨价!DDR5正迈向主流规格之路

    值得关注的SoC趋势

    SoC 是这一进步的顶峰,它不仅集成了晶体管,还集成了整个功能系统,包括处理器 (CPU)、内存、输入/输出系统,有时甚至将完整的网络接口集成到单个芯片上。这种集成类似于将整个计算机系统压缩到缩略图大小的芯片上。这个想法不仅涉及小型化,还涉及
    的头像 发表于 11-15 17:52 503次阅读

    如何实现一个高性能内存

    写在前面 本文的内存池代码是改编自Nginx的内存池源码,思路几乎一样。由于Nginx源码的变量命名我不喜欢,又没有注释,看得我很难受。想自己写一版容易理解的代码。 应用场景 写内存池的原理之前
    的头像 发表于 11-10 11:11 249次阅读
    如何实现一个高<b class='flag-5'>性能</b><b class='flag-5'>内存</b>池

    SoC模式如何对cv::Mat的内存进行操作?

    SoC模式对cv::Mat的内存进行操作
    发表于 09-19 08:15

    BM1684各种内存的概念

    和系统内存具有不同的含义: SoC模式(SE5) Host Memory是芯片上主控Cortex A53的内存 Device Memory是划分给TPU/VPP/VPU的设备内存
    发表于 09-19 07:47

    SoC如何查看内存使用情况

    /ion/bm_vpp_heap_dump/summary | head -2 如上,通常会有3个ION heap(即三块预留的内存区域),如名字所示,分别供TPU、VPU、VPP使用。以上示例
    发表于 09-19 07:23

    SoC内存映射分区表分享

    SoC各个计算模块内存分区映射
    发表于 09-19 07:16

    PrimeCell静态内存控制器(PL350系列)循环模型9.1.0版用户指南

    提供内存映射寄存器的可见性。 事务监视器探头可以连接到任何可视化事务的AXI连接。 此外,SoC设计器配置界面用于收集事务事件信息。 本节总结了周期模型的功能与硬件的功能,以及周期模型的性能和准确性。
    发表于 08-16 06:41

    Cortex-M如何最大限度地提高SoC设计的能效端点

    随着现代微控制器和SoC变得越来越复杂,设计者面临着最大化能源效率,同时实现更高水平的集成。最大限度地提高能量在低功耗SoC市场,多个功率域的使用被广泛采用。在 同时,为了解决更高级
    发表于 08-02 06:34

    再见瓶颈 – 自动SoC性能验证就在这里

    SoC 性能是市场上的关键竞争优势,协议 IP 和互连的选择和配置旨在最大限度地提高所述性能。一个典型的例子是使用 HBM(高带宽内存)技术
    的头像 发表于 05-26 11:40 475次阅读
    再见瓶颈 – 自动<b class='flag-5'>SoC</b><b class='flag-5'>性能</b>验证就在这里

    HBM性能验证变得简单

    HBM2E(高带宽内存)是一种高性能 3D 堆叠 DRAM,用于高性能计算和图形加速器。它使用更少的功率,但比依赖DDR4或GDDR5内存的显卡提供更高的带宽。由于
    的头像 发表于 05-26 10:24 505次阅读
    HBM<b class='flag-5'>性能</b>验证变得简单

    使用Synopsys智能监视器提高Arm SoC的系统性能

    在使用 AXI 总线移动大量数据的 SoC 中,AXI 总线的性能可能会成为整体系统性能的瓶颈。SoC 中日益增加的复杂性和软件内容,因此需要使用实际数据有效载荷在硅前进行左移
    的头像 发表于 05-25 15:37 598次阅读
    使用Synopsys智能监视器<b class='flag-5'>提高</b>Arm <b class='flag-5'>SoC</b>的系统<b class='flag-5'>性能</b>

    手机处理器叫soc还是cpu soc包含哪些模块 中端芯soc和中端soc区别

    CPU核和内存子系统:SoC芯片需要内置处理器和内存子系统。处理器主要负责计算和控制各种运算和任务,内存则用于存储数据和程序代码。
    发表于 05-03 08:23 3793次阅读