0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何处理cache miss问题以提高加速器效率呢?

FPGA之家 来源:AI加速 2023-11-16 16:36 次阅读

引言

带宽是影响FPGA加速器的重要因素,因为大量的并行计算对数据量要求很大。如果加速器对数据的访问是不规则的,那么cache miss就会大大影响加速器性能。这篇来自FPGA2019会议的报告,向我们展示了如何来更好的处理cache miss问题,提高对缓存的利用率以及提高加速器效率。

01

Cache miss的问题

假设DDR可以提供12.8GB/s的带宽,FPGA上的并行加速器的数据输入带宽为0.8GB/s,可以并列16个这种加速器。这些加速器通过arbiter来直接访问DDR。如果它们访问的数据是连续规则的,那么DDR的带宽可以被充分利用。但是这些加速器需要的数据在DDR中并不是规则排列的,如图1.1。这样就会造成频繁的访问DDR,这样DDR的带宽就不够用,造成的结果就是加速器会受到延迟,效率无法得到提升。就如同图1.1所示,实际上有效利用的DDR带宽只有0.8GB/s。

90b92460-8458-11ee-939d-92fbcf53809c.jpg

图1.1 不规则数据需要造成频繁访问DDR

一种解决问题的方法是使用blocking cache,将还没有用到的数据缓存起来以便之后使用。然而这样存在两个问题:一个是如果缓存中没有需要的数据,那么就需要从DDR中获取数据,这就会有很大延迟,因为对DDR的数据进行随机访问是非常耗时的;另一个是缓存的使用效率很低,内部大部分数据都不能被及时消耗,以便等待被利用到。

90cfb086-8458-11ee-939d-92fbcf53809c.jpg

图1.2 blocking cache的使用

另外一种解决的办法是non-blocking cache,这正是本文提出的方法。这种方法的关键是加速器可以允许一定数量的cache miss。Cache miss不会阻塞对后面数据的获取。这就要求前后的数据没有依赖关系,而且允许的cache miss数量足够多,能够允许在这些时间可以从DDR中获取miss的数据,否则一样会造成加速器等待喂数。

90e2e890-8458-11ee-939d-92fbcf53809c.jpg

图1.3 non-blocking cache

02

传统的Non-blocking cache结构

图2.1是一个基本的non-blocking cache结构,它主要由cache array以及MSHR组成。Cache array中含有tag和数据,tag用来表示加速器请求的数据的在外存中的地址。通过tag可以判定请求的数据在cache中是否存在。MSHR首先被Kroft使用,它含有数据未被命中需要去外存获取的具体信息:包括外存地址,用于判定加速器是否会再次命中相同的数据。还有cache的地址,用于决定从外存获取的数据存储到cache的位置,给哪个加速器使用。还有输入请求确认标志,表示这个缺失的数据是否从外存读取到。

基本操作是:当加速器第一次从cache中获取数据没有命中,那么就在MSHR中记录下相应的信息和状态,当第二次相同数据miss发生,除了在MSHR中记录信息外,则启动从外部存储器获取数据,并更新到cache中。取回来的数据会根据MSHR中的信息将需要的数据发送给加速器。所以一个包含n个表项的MSHR有n个比较器用于比较数据地址,是否属于同一个miss的数据等。使用non-blocking cache能够提高运算效率,减少等待时间,提高带宽利用率。但是这种传统的MSHR消耗很多逻辑资源,不利于规模扩展。

90f5d09a-8458-11ee-939d-92fbcf53809c.jpg

图2.1 non-blocking cache的基本结构和操作

90fe45fe-8458-11ee-939d-92fbcf53809c.jpg

图2.2 更新cache

91156c52-8458-11ee-939d-92fbcf53809c.png

图2.3 MSHR逻辑结构

03

对non-blocking cache的改进

为了能够有效扩展MSHR,可以使用多个MSHR,每个MSHR有n个表项,这样相比于使用一个MSHR能节省逻辑资源。但是这涉及到一个问题,如果一个配置MSHR的请求在多个MSHR表都有冲突,那么就造成配置MSHR表的等待。这样就导致了加速器运算的等待,不能够执行下一条指令。

912163ea-8458-11ee-939d-92fbcf53809c.png

图3.1 两个MSHR被请求表项都被占用

解决办法就是Cuckoo hashing算法。假设有两个MSHR表,T1和T2。每个r个表项。每个元素通过函数h1和h2来确定表项位置,即:T1[h1(x)],T2[h2(x)]。为了插入表项内容x,检查T1对应位置是否空,如果空,就插入。如果非空就检查T2,如果T2也非空,这就是冲突的情况,那么就插入到T2中,将原来的内容z替换。然后z再去查询T1表,如此循环进行。这样就不会造成阻塞。

9130364a-8458-11ee-939d-92fbcf53809c.png

9145f598-8458-11ee-939d-92fbcf53809c.png

9150e246-8458-11ee-939d-92fbcf53809c.png

图3.2 Cuckoo hashing

还有一个问题是,MSHR中的表项subentries大小是固定的,如果要扩展表项的subentries,那么所有的内容都是同等扩展,这样可能有一些内容并不需要那么大。所以为了能够有效利用存储资源,论文作者提出了动态可扩展subentries内容的方法。将tag和subentries分隔开分别存储,这样如果有更多加速器miss相同的数据,那么就可以在一个subentries表后再扩展需要的subentries。这样就是在需要级联的subentries中增加指针来级联到下一个subentries表。

91643206-8458-11ee-939d-92fbcf53809c.png

图3.3 可扩展subentries

916f1248-8458-11ee-939d-92fbcf53809c.png

图3.4 表项扩展

917711be-8458-11ee-939d-92fbcf53809c.jpg

图3.5 整体结构

结论

本文主要总结了non-blocking cache的设计框架,以及在FPGA上如何使用。介绍比较简略,更详细的资料还需要了解CPU体系中non-blocking cache的具体结构。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    38

    文章

    7148

    浏览量

    161990
  • 加速器
    +关注

    关注

    2

    文章

    743

    浏览量

    36600
  • 比较器
    +关注

    关注

    14

    文章

    1526

    浏览量

    106489
  • DDR
    DDR
    +关注

    关注

    9

    文章

    677

    浏览量

    64244
  • Cache
    +关注

    关注

    0

    文章

    127

    浏览量

    27981

原文标题:一文告诉你怎么解决cache miss的问题

文章出处:【微信号:zhuyandz,微信公众号:FPGA之家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    在FPGA上如何使用non-blocking cache设计框架

    们展示了如何来更好的处理cache miss问题,提高对缓存的利用率以及提高加速器
    的头像 发表于 11-11 17:28 4271次阅读
    在FPGA上如何使用non-blocking <b class='flag-5'>cache</b>设计框架

    #硬声创作季 电子制作:磁性加速器

    加速器DIY
    Mr_haohao
    发布于 :2022年10月19日 00:19:38

    汽车尾气汽油味严重,一种电子加速器是如何处理

    汽车尾气汽油味严重,新产品:汽车发动机升级产品,一种电子加速器主要是专门针对汽油燃烧效应,如果汽车发动机升级产品,一种电子加速器不能减轻汽车尾气汽油味严重,大家可以吐我的口水,更多的介绍,请搜索百度互联网,汽车发动机升级产品,一种电子
    发表于 11-05 09:28

    请问c6670中多核怎样同时正确使用bcp加速器

    不能送入到BCP加速器中进行处理?请问是否有什么好的办法或者机制来处理这种情况?(比如说core 0和core 1都在给bcp加速器持续送
    发表于 06-19 00:42

    采用控制律加速器的Piccolo MCU

    日前,德州仪器 (TI) 宣布推出采用控制律加速器 (CLA) 的新型 TMS320F2803x Piccolo 微处理器 (MCU),可促进具有更高可靠性与效率的嵌入式控制应用的开发。CLA
    发表于 07-26 06:21

    如何充分利用数字信号处理器上的片内FIR和IIR硬件加速器

    上的片内FIR和IIR硬件加速器也分别称为FIRA和IIRA,我们可以利用这些硬件加速器来分担FIR和IIR处理任务,让内核去执行其他处理任务。在本文中,我们将借助不同的使用模型以及实
    发表于 12-28 06:26

    介绍一种多级cache的包含策略(Cache inclusion policy)

    驱逐,如(e)所示。3种策略的比较inclusive policy的优点在于:在每个处理器都具有私有cache 的并行系统中,如果存在cache miss,则检查其他私有
    发表于 07-20 14:46

    基于Fast Model的加速器软件开发

    非常惊艳的加速器,在实际使用中体验却不尽如人意的原因。人工智能加速器为例,其中基本的硬件加速单元就是乘加的组合,但如何让这些乘加
    发表于 07-29 15:38

    在0.13.0这个sdk版本中,如何实现在启动时将代码从flash中加载到ILM提高cache miss时的程序运行速度?

    在0.13.0这个sdk版本中,flash_xip工程模板的ILM只用于存放中断向量表,个人感觉这样是比较浪费的,因此我希望启动时将代码从flash中加载到ILM提高cache miss
    发表于 05-26 08:05

    英特尔媒体加速器参考软件Linux版用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放应用软件,它利用固定功能硬件加速提高媒体流速、改进工作量平衡和资源利用,以及定制的图形
    发表于 08-04 06:34

    Intel媒体加速器参考软件用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放应用软件,它利用固定功能硬件加速提高媒体流速、改进工作量平衡和资源利用,以及定制的图形
    发表于 08-04 07:07

    利用硬件加速器提高处理器的性能

    处理器内部集成的硬件加速器可以实现三种广泛使用的信号处理操作:FIR(有限冲激响应)、IIR(无限冲激响应)和FFT(快速傅里叶变换)。硬件加速器减轻了核
    发表于 12-04 15:22 1080次阅读

    使用协处理加速器的方法介绍

    了解协处理的价值,Zynq-7000加速器一致性端口,使用协处理加速器的方法以及协处理器设计实例的概述。
    的头像 发表于 11-30 06:15 3995次阅读

    基于RISC-V处理器和卷积加速器的SoC系统

    提高卷积神经网络(CNN)的计算效率和能效,以8bit定点数据作为输入,设计一个支持激活、批标准化以及池化等CNN网络中常见计算类型的卷积加速器,优化循环计算顺序并将其与数据复用技术相结合,以
    发表于 06-02 15:08 29次下载

    CPU Cache伪共享问题

    当CPU想要访问主存中的元素时,会先查看Cache中是否存在,如果存在(称为Cache Hit),直接从Cache中获取,如果不存在(称为Cache
    的头像 发表于 12-12 09:17 514次阅读