CPU Cache伪共享问题-电子发烧友网

先看下这两段代码：

代码段1：

const int row = 10240;
const int col = 10240;
int matrix[row][col];
int TestRow() {
  //按行遍历
  int sum_row = 0;
  for (int r = 0; r < row; r++) {
    for (int c = 0; c < col; c++) {
      sum_row += matrix[r][c];
    }
  }
  return sum_row;
}

代码段2：

int TestCol() {
  //按列遍历
  int sum_col = 0;
  for (int c = 0; c < col; c++) {
    for (int r = 0; r < row; r++) {
      sum_col += matrix[r][c];
    }
  }
  return sum_col;
}

两段代码的目的相同，都是为了计算矩阵中所有元素的总和。

但有些区别：一个是按行遍历元素做计算，一个是按列遍历元素做计算。

它俩的运行速度有什么区别吗？

如图：

图中可以看到，行遍历的代码速度比列遍历的代码速度快很多。

为什么按行遍历的代码比按列遍历的代码速度快？这里就是CPU Cache在起作用。

什么是CPU Cache？

可以先看下这个存储器相关的金字塔图：

从下到上，空间虽然越来越小，但是处理速度越来越快，相应的，设备价格也越来越贵。

图中的寄存器和主存估计大家都知道，那中间的L1 、L2、L3是什么？它们起到了什么作用？

它们就是CPU 的Cache，如下图：

可以理解为CPU Cache就是CPU与主存之间的桥梁。

当CPU想要访问主存中的元素时，会先查看Cache中是否存在，如果存在（称为Cache Hit），直接从Cache中获取，如果不存在（称为Cache Miss），才会从主存中获取。Cache的处理速度比主存快得多。

所以，如果每次访问数据时，都能直接从Cache中获取，整个程序的性能肯定会更高。

那，如何提高CPU Cache的命中率？

但CPU Cache这里还有个小问题，看下这两段代码：

代码段1：

struct Point {
  std::atomic x;
  // char a[128];
  std::atomic y;
};
void Test() {
  Point point;
  std::thread t1(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->x += 1;
        }
      },
      &point);
  std::thread t2(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->y += 1;
        }
      },
      &point);
  t1.join();
  t2.join();
}

代码段2：

struct Point {
  std::atomic x;
  char a[128];
  std::atomic y;
};
void Test() {
  Point point;
  std::thread t1(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->x += 1;
        }
      },
      &point);
  std::thread t2(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->y += 1;
        }
      },
      &point);
  t1.join();
  t2.join();
}

两端代码的核心逻辑都是对Point结构体中的x和y不停+1。只有一点区别就是在中间塞了128字节的数组。

它们的执行速度却相差很大。

带128的比不带128的代码，执行速度快很多。

为什么？

看过我上面文章的同学应该就知道，每个CPU都有自己的L1和L2 Cache，而Cache line的大小一般是64字节，如果x和y之间没有128字节的填充，它俩就会在同一个Cache line上。

代码中开了两个线程，两个线程大概率会运行在不同的CPU上，每个CPU有自己的Cache。

当CPU1操作x时，会把y装载到Cache中，其他CPU对应的的Cache line失效。

然后CPU2加载y，会触发Cache Miss，它后面又把x装载到了自己的Cache中，其他CPU对应的Cache line失效。

然后CPU1操作x时，又触发Cache Miss。

它俩就会是大体这个流程：

频繁的触发Cache Miss，导致程序的性能相当差。

而如果x和y中间加了128字节的填充，x和y不在同一个Cache line上，不同CPU之前不会影响，它俩都会频繁的命中自己的Cache，整个程序性能就会很高，这就是传说中的False Sharing问题。

所以我们写代码时，可以基于此做深一层思考，如果我们写单线程程序，最好保证访问的数据能够相邻，在一个Cache line上，可以尽可能的命中Cache。

如果写多线程程序，最好保证访问的数据有间隔，让它们不在一个Cache line上，减少False Sharing的频率。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

存储器

存储器

+关注

关注
38

文章
7211

浏览量
162299
cpu

cpu

+关注

关注
68

文章
10509

浏览量
207146

原文标题：CPU Cache伪共享问题

文章出处：【微信号：程序喵大人，微信公众号：程序喵大人】欢迎添加关注！文章转载请注明出处。

CPU Cache是如何保证缓存一致性的？

我们介绍`CPU Cache`的组织架构及其进行**读操作**时的寻址方式，但是缓存不仅仅只有读操作，还有 **写操作** ，这会带来一个新的问题

发表于 12-04 15:05 •653次阅读

<b class='flag-5'>CPU</b> <b class='flag-5'>Cache</b>是如何保证缓存一致性的？

EC SRAM映射到CPU Memory空间的共享内存设计

ShareMemory，顾名思义就是共享内存。这个概念在很多计算机系统中都存在，本文特指 EC SRAM 映射到 CPU Memory 空间的共享内存设计。

发表于 11-18 15:11 •801次阅读

EC SRAM映射到<b class='flag-5'>CPU</b> Memory空间的<b class='flag-5'>共享</b>内存设计

Cache和Write Buffer一般性介绍

Cache是位于CPU与主存储器即DRAM（Dynamic RAM，动态存储器）之间的少量超高速静态存储器SRAM（Static RAM）

发表于 10-31 15:07 •416次阅读

<b class='flag-5'>Cache</b>和Write Buffer一般性介绍

使用Cache的必要性与可行性

使用Cache的必要性所谓Cache即高速缓冲存储器，它位于CPU与主存即DRAM之间，是通常由SRAM构成的规模较小但存取速度很快的存储器。目前计算机主要使用的内存为DRAM，它具有价格

发表于 10-31 11:53 •420次阅读

Cache替换策略和Write-through介绍

Cache和存储器一样具有两种基本操作，即读操作和写操作。当CPU发出读操作命令时，根据它产生的主存地址分为两种情形：一种是需要的数据已在Cache中，那么只需要直接访问Cache，从

发表于 10-31 11:48 •842次阅读

Cache写入方式原理简介

提高高速缓存命中率的最好方法是尽量使Cache存放CPU最近一直在使用的指令与数据，当Cache装满后，可将相对长期不用的数据删除，提高Cache的使用效率。为保持

发表于 10-31 11:43 •718次阅读

Cache工作原理是什么

具有Cache的计算机，当CPU需要进行存储器存取时，首先检查所需数据是否在Cache中。如果存在，则可以直接存取其中的数据而不必插入任何等待状态，这是最佳情况，称为高速命中；当CPU

发表于 10-31 11:34 •566次阅读

Cache内容锁定是什么

“锁定”在cache中的块在常规的cache替换操作中不会被替换，但当通过C7控制cache中特定的块时，比如使某特定的块无效时，这些被“锁定”在cache中的块也将受到相应

发表于 10-31 11:31 •418次阅读

Cache分类与替换算法

根据不同的分类标准可以按以下3种方法对Cache进行分类。 •1）数据cache和指令cache •● 指令cache：指令预取时使用的cache

发表于 10-31 11:26 •534次阅读

Cache的原理和地址映射

在cache存储系统中，把cache和主存储器都划分成相同大小的块。主存地址由块号B和块内地址W两部分组成，cache地址由块号b和块内地址w组成。当CPU访问

发表于 10-31 11:21 •697次阅读

Cache工作原理讲解 Cache写入方式原理简介

Cache是位于CPU与主存储器即DRAM（Dynamic RAM，动态存储器）之间的少量超高速静态存储器SRAM（Static RAM），它是为了解决CPU与主存之间速度匹配问题而设置的，不能由用户直接寻址访问。

发表于 10-17 10:37 •554次阅读

在组相联cache中，用于替换cache line的算法有哪些？

LRU(Least Recently Used)算法：该算法会跟踪每个cache line的age(年龄)情况，并在需要时替换掉近期最少使用的cache line。

发表于 10-08 11:10 •517次阅读

Linux性能优化：Cache对性能的影响

Cache对性能的影响首先我们要知道，CPU访问内存时，不是直接去访问内存的，而是先访问缓存（cache）。当缓存中已经有了我们要的数据时，CPU就会直接从缓存中读数据，而不是从内存

发表于 10-04 15:31 •541次阅读

多个CPU各自的cache同步问题

CACHE 的一致性 Cache的一致性有这么几个层面 1. 一个CPU的icache和dcache的同步问题 2. 多个CPU各自的

发表于 06-17 10:38 •1133次阅读

CPU CACHE策略的初始化

build_mem_type_table()函数的功能是获取当前CPU的CACHE类型，据此初始化mem_type。

发表于 06-05 15:03 •942次阅读