0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

内存访问的在不同的访问场景下延时究竟是个什么表现

冬至配饺子 来源:开发内功修炼 作者:张彦飞allen 2022-08-30 16:53 次阅读

《内存随机访问也比顺序慢,带你深入理解内存IO过程》一文中,我们理解了内存IO的内部实现过程,知道了内存的随机IO比顺序IO要慢,并对延迟时间进行了大概的估算。那么我们今天来用代码的方式来实践一下,看看在我们的项目工程中,内存访问的在不同的访问场景下延时究竟是个什么表现。

1、先测顺序IO情况

测试原理就是定义一个指定大小的double(8字节)数组,然后以指定的步长去循环。这里面的变量有两个。核心代码如下:

poYBAGMNz2mAZF06AABxRIyCwls569.png

在这个核心代码的基础上,我们有两个可调节变量:

一是数组大小,数组越小,高速缓存命中率越高,平均延时就会越低。

二是循环步长,步长越小,顺序性越好,同样也会增加缓存命中率,平均延时也低。我们在测试的过程中采取的办法是,固定其中一个变量,然后动态调节另外一个变量来查看效果。

另外说明一下,这个代码测试中考虑的几个额外的开销的处理情况。

1.加法开销:由于加法指令简单,一个CPU周期就可完成,CPU周期比内存周期要快,所以暂且忽略它。
2.耗时统计:这涉及到高开销的系统调用,本实验通过跑1000次取一次耗时的方式来降低影响。

场景一:固定数组大小2K,调节步长

pYYBAGMNz3-Ac42ZAAA2xVT2MPg658.png

数组足够小的时候,L1 cache全部都能装的下。内存IO发生较少,大部分都是高效的缓存IO,所以我这里看到的内存延时只有1ns左右,这其实只是虚拟地址转换+L1访问的延时。

场景二:固定步长为8,数组从32K到64M

poYBAGMNz5iACkyjAAA5DK1zPEY968.png

当数组越来越大,Cache装不下,导致穿透高速缓存,到内存实际IO的次数就会变多,平均耗时就增加

场景三:步长为32,数组从32K到64M

poYBAGMNz62ANXyLAABDMDMN_4o231.png

和场景二相比,步长变大以后,局部性变差,穿透的内存IO进一步增加。虽然数据量一样大,但是平均耗时就会继续有所上涨。不过虽然穿透增加,但由于访问地址仍然相对比较连续,所以即使发生内存IO也绝大部分都是行地址不变的顺序IO情况。所以耗时在9ns左右,和之前估算大致相符!

另外注意一个细节,就是随着数组从64M到32M变化的过程中。耗时有几个明显的下降点,分别是8M,256K和32K。这是因为本机的CPU的L1大小是32K,L2是256K,L3是12M。在数据集32K的时候,L1全能装的下,所有基本都是高速缓存IO。256K的时候、8M的时候,虽然L1命中率下降,但是L2、L3访问速度仍然比真正的内存IO快。但是超过12M以后越多,真正的内存IO就越来越多了。

2、再测随机IO情况

在顺序的实验场景里,数组的下标访问都是比较有规律地递增。在随机IO的测试中,我们要彻底打乱这个规律,提前随机好一个下标数组,实验时不停地访问数组的各个随机位置。

pYYBAGMNz72ASSnXAACFkWasV7E580.png

这实际比上面的实验多了一次内存IO,但由于对random_index_arr的访问时顺序的,而且该数组也比较小。我们假设它全部能命中高速缓存,所以暂且忽略它的影响。

随机实验场景:数组从32K到64M

pYYBAGMNz9KAdfHzAAA2C21U8jQ933.png

这次的数组访问就没有步长的概念了,全部打乱,随机访问。当数据集比较小的时候、L1、L2、L3还能抗一抗。但当增加到16M、64M以后,穿透到内存的IO情况会变多,穿透过去以后极大可能行地址也会变。在64M的数据集中,内存的延时竟然下降到了38.4ns,和我们估算的也基本一致。

3、结论

有了实验数据的佐证,进一步证实了《内存随机访问也比顺序慢,带你深入理解内存IO过程》的结论。内存存在随机访问比顺序访问慢的多的情况,大概是4:1的关系。所以不要觉得内存很快,就用起来太随性了!



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10417

    浏览量

    206477
  • 内存
    +关注

    关注

    8

    文章

    2761

    浏览量

    72710
  • 高速缓存
    +关注

    关注

    0

    文章

    29

    浏览量

    10974
收藏 人收藏

    评论

    相关推荐

    STM32擦除后数据究竟是0x00还是0xff ?

    STM32擦除后数据究竟是0x00还是0xff ,百度查了许多发现大多数都是0xff的多,都说SD卡(TF)储存介质是Flash 所以擦除后为0xff,但是我遇到了读出来的数据是0x00的情况,为什么呢
    发表于 04-18 07:59

    吸尘器究竟是如何替你“吃灰”的【其利天下技术】

    如今,吸尘器已成为大多数人居家必备的小家电产品,那么说起吸尘器,你对吸尘器有了解多少呢?不知道大家知不知道它的原理是什么?今天我们就来说一说吸尘器究竟是如何替你“吃灰”的。
    的头像 发表于 03-07 21:17 542次阅读
    吸尘器<b class='flag-5'>究竟是</b>如何替你“吃灰”的【其利天下技术】

    TC377如何访问EMEM内存

    我们正在进行一使用英飞凌 TC377 芯片组的项目。 我们希望就如何访问 EMEM 内存征求意见。 我们正试图复制数据,然后从 EMEM 内存范围内的位置读取数据,但无法实现。 此外
    发表于 03-04 07:10

    CW32L052 DMA直接内存访问

    CW32L052支持DMA(Direct Memory Access),即直接内存访问,无需CPU干预,实现高速数据传输。数据的传输可以发生在: • 外设和内存之间 :例如ADC采集数据到内存
    的头像 发表于 02-28 16:48 537次阅读
    CW32L052 DMA直接<b class='flag-5'>内存</b><b class='flag-5'>访问</b>

    ug内部错误,内存访问违例怎么解决

    ug内部错误,内存访问违例怎么解决 内部错误和内存访问违例是编程中常见的问题,它们可能会导致应用程序崩溃、数据丢失或系统不稳定。在本文中,我将详细解释内部错误和
    的头像 发表于 12-27 16:27 3226次阅读

    同步电机的转数同步究竟是与什么同步啊?

    同步电机的转数同步究竟是与什么同步啊? 所有的同步电机的转数都一样吗?还是与电机的极对数有关系呢?
    发表于 12-19 06:44

    一体成型贴片电感在使用中发热究竟是否会影响运行

    电子发烧友网站提供《一体成型贴片电感在使用中发热究竟是否会影响运行.docx》资料免费下载
    发表于 11-13 16:28 1次下载

    IC设计:常见的ram访问冲突

    ram冲突是几乎每颗芯片都需要关注的问题,部分场景下,ram访问冲突不容易验证到,容易造成芯片bug。ram访问冲突的类型通常有访问接口冲突和访问
    的头像 发表于 11-13 10:44 675次阅读
    IC设计:常见的ram<b class='flag-5'>访问</b>冲突

    MMU原理:CPU是如何访问内存的?

    当CPU访问虚拟地址0的时候,MMU会去查上面页表的第0行,发现第0行没有命中,于是无论以何种形式(R读,W写,X执行)访问,MMU都会给CPU发出page fault,CPU自动跳到fault的代码去处理fault。
    发表于 11-09 12:30 325次阅读
    MMU原理:CPU是如何<b class='flag-5'>访问</b>到<b class='flag-5'>内存</b>的?

    OSPF究竟是如何规避路由环路的呢?

    OSPF究竟是如何规避路由环路的呢? OSPF(开放式最短路径优先)是一种内部网关协议(IGP),用于在一个单一的自治系统(AS)内进行路由选择,它是一种链路状态协议(LSP)。在OSPF中,路由器
    的头像 发表于 11-06 11:10 967次阅读

    STM32L4直接访问内存模块(DMA)介绍

    电子发烧友网站提供《STM32L4直接访问内存模块(DMA)介绍.pdf》资料免费下载
    发表于 08-01 10:15 1次下载
    STM32L4直接<b class='flag-5'>访问</b><b class='flag-5'>内存</b>模块(DMA)介绍

    SVPWM调制波的数学表达究竟是怎样的呢?

    SVPWM可以通过载波比较的方法实现开关控制信号输出。那SVPWM的调制波的数学表达究竟是怎样的呢?答案是SVPWM实质是一种对在三相正弦波中注入了零序分量的调制波进行规则采样的一种变形 SPWM。
    发表于 07-10 17:16 970次阅读
    SVPWM调制波的数学表达<b class='flag-5'>究竟是</b>怎样的呢?

    访问CXL 2.0设备中的内存映射寄存器

    计算快速链接 (CXL) 1.1 和 CXL 2.0 规范在内存映射寄存器的放置和访问方式上有所不同。CXL 1.1 规范将内存映射寄存器放置在 RCRB(根复合寄存器块)中,而 CXL 2.0
    的头像 发表于 05-25 16:56 1200次阅读
    <b class='flag-5'>访问</b>CXL 2.0设备中的<b class='flag-5'>内存</b>映射寄存器

    BDM Nexus2+内存访问不起作用怎么处理?

    我尝试将 MPC5748G(硅版本 1N81M)与 freemaster 版本 3.0.2.6 一起使用,并带有选项“BDM 连接 Nexus2+ 内存访问”。我使用 PE micro
    发表于 05-12 08:19

    请问NTC热敏电阻的B值究竟是什么东西呢?

    请问NTC热敏电阻的B值究竟是什么东西呢?
    发表于 04-23 10:29