详解计算机缓存Cache以及Cache Line-电子发烧友网

1.计算机存储体系简介

存储器是分层次的，离CPU越近的存储器，速度越快，每字节的成本越高，同时容量也因此越小。寄存器速度最快，离CPU最近，成本最高，所以个数容量有限，其次是高速缓存（缓存也是分级，有L1，L2等缓存），再次是主存（普通内存），再次是本地磁盘。

寄存器的速度最快，可以在一个时钟周期内访问，其次是高速缓存，可以在几个时钟周期内访问，普通内存可以在几十个或几百个时钟周期内访问。

存储器分级，利用的是局部性原理。我们可以以经典的阅读书籍为例。我在读的书，捧在手里（寄存器），我最近频繁阅读的书，放在书桌上（缓存），随时取来读。当然书桌上只能放有限几本书。我更多的书在书架上（内存）。如果书架上没有的书，就去图书馆（磁盘）。我要读的书如果手里没有，那么去书桌上找，如果书桌上没有，去书架上找，如果书架上没有去图书馆去找。可以对应寄存器没有，则从缓存中取，缓存中没有，则从内存中取到缓存，如果内存中没有，则先从磁盘读入内存，再读入缓存，再读入寄存器。

2.计算机缓存 Cache

本系列的文章重点介绍缓存cache。了解如何获取cache的参数，了解缓存的组织结构。

2.1 Cache 概述

cache，中译名高速缓冲存储器，其作用是为了更好的利用局部性原理，减少CPU访问主存的次数。简单地说，CPU正在访问的指令和数据，其可能会被以后多次访问到，或者是该指令和数据附近的内存区域，也可能会被多次访问。因此，第一次访问这一块区域时，将其复制到cache中，以后访问该区域的指令或者数据时，就不用再从主存中取出。

cache分成多个组，每个组分成多个行，linesize是cache的基本单位，从主存向cache迁移数据都是按照linesize为单位替换的。比如linesize为32Byte，那么迁移必须一次迁移32Byte到cache。这个linesize比较容易理解，想想我们前面书的例子，我们从书架往书桌搬书必须以书为单位，肯定不能把书撕了以页为单位。书就是linesize。当然了现实生活中每本书页数不同，但是同个cache的linesize总是相同的。

所谓8路组相连（ 8-way set associative）的含义是指，每个组里面有8个行。

我们知道，cache的容量要远远小于主存，主存和cache肯定不是一一对应的，那么主存中的地址和cache的映射关系是怎样的呢？

拿到一个地址，首先是映射到一个组里面去。如何映射？取内存地址的中间几位来映射。

举例来说，data cache： 32-KB， 8-way set associative， 64-byte line size

Cache总大小为32KB，8路组相连（每组有8个line），每个line的大小linesize为64Byte，OK，我们可以很轻易的算出一共有32K/8/64=64 个组。

对于32位的内存地址，每个line有2^6 = 64Byte，所以地址的【0，5】区分line中的那个字节。一共有64个组。我们取内存地址中间6为来hash查找地址属于那个组。即内存地址的【6，11】位来确定属于64组的哪一个组。组确定了之后，【12，31】的内存地址与组中8个line挨个比对，如果【12，31】为与某个line一致，并且这个line为有效，那么缓存命中。

OK，我们可以将cache分成三类，

直接映射高速缓存，这个简单，即每个组只有一个line，选中组之后不需要和组中的每个line比对，因为只有一个line。

组相联高速缓存，这个就是我们前面介绍的cache。S个组，每个组E个line。

全相联高速缓存，这个简单，只有一个组，就是全相联。不用hash来确定组，直接挨个比对高位地址，来确定是否命中。可以想见这种方式不适合大的缓存。想想看，如果4M 的大缓存linesize为32Byte，采用全相联的话，就意味着4*1024*1024/32 = 128K 个line挨个比较，来确定是否命中，这是多要命的事情。高速缓存立马成了低速缓存了。

描述一个cache需要以下参数：

cache分级，L1 cache， L2 cache， L3 cache，级别越低，离CPU越近

cache的容量

cache的linesize

cache 每组的行个数。

2.2 Cache 结构

假设内存容量为M，内存地址为m位：那么寻址范围为000…00~FFF…F（m位）

倘若把内存地址分为以下三个区间：

tag， set index， block offset三个区间有什么用呢？再来看看Cache的逻辑结构吧：

参数如下：

B = 2^b

S = 2^s

现在来解释一下各个参数的意义：

一个cache被分为S个组，每个组有E个cacheline，而一个cacheline中，有B个存储单元，现代处理器中，这个存储单元一般是以字节（通常8个位）为单位的，也是最小的寻址单元。因此，在一个内存地址中，中间的s位决定了该单元被映射到哪一组，而最低的b位决定了该单元在cacheline中的偏移量。

valid通常是一位，代表该cacheline是否是有效的（当该cacheline不存在内存映射时，当然是无效的）。tag就是内存地址的高t位，因为可能会有多个内存地址映射到同一个cacheline中，所以该位是用来校验该cacheline是否是CPU要访问的内存单元。

当tag和valid校验成功是，我们称为cache命中，这时只要将cache中的单元取出，放入CPU寄存器中即可。

当tag或valid校验失败的时候，就说明要访问的内存单元（也可能是连续的一些单元，如int占4个字节，double占8个字节）并不在cache中，这时就需要去内存中取了，这就是cache不命中的情况（cache miss）。当不命中的情况发生时，系统就会从内存中取得该单元，将其装入cache中，与此同时也放入CPU寄存器中，等待下一步处理。注意，以下这一点对理解linux cache机制非常重要：

3.计算机缓存行 ChaceLine

高速缓存其实就是一组称之为缓存行（cache line）的固定大小的数据块，其大小是以突发读或者突发写周期的大小为基础的。

每个高速缓存行完全是在一个突发读操作周期中进行填充或者下载的。即使处理器只存取一个字节的存储器，高速缓存控制器也启动整个存取器访问周期并请求整个数据块。缓存行第一个字节的地址总是突发周期尺寸的倍数。缓存行的起始位置总是与突发周期的开头保持一致。

当从内存中取单元到cache中时，会一次取一个cacheline大小的内存区域到cache中，然后存进相应的cacheline中。

例如：我们要取地址（t， s， b）内存单元，发生了cache miss，那么系统会取（t， s， 00…000）到（t， s， FF…FFF）的内存单元，将其放入相应的cacheline中。

下面看看cache的映射机制：

当E=1时，每组只有一个cacheline。那么相隔2^（s+b）个单元的2个内存单元，会被映射到同一个cacheline中。（好好想想为什么？）

当1《E《C/B时，每组有E个cacheline，不同的地址，只要中间s位相同，那么就会被映射到同一组中，同一组中被映射到哪个cacheline中是依赖于替换算法的。

当E=C/B，此时S=1，每个内存单元都能映射到任意的cacheline。带有这样cache的处理器几乎没有，因为这种映射机制需要昂贵复杂的硬件来支持。

不管哪种映射，只要发生了cache miss，那么必定会有一个cacheline大小的内存区域，被取到cache中相应的cacheline。

现代处理器，一般将cache分为2~3级，L1， L2， L3。L1一般为CPU专有，不在多个CPU中共享。L2 cache一般是多个CPU共享的，也可能装在主板上。L1 cache还可能分为instruction cache， data cache. 这样CPU能同时取指令和数据。

下面来看看现实中cache的参数，以Intel Pentium处理器为例。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
18257

浏览量
222079
存储器

存储器

+关注

关注
38

文章
7143

浏览量
161975
计算机

计算机

+关注

关注
19

文章
6644

浏览量
84479

原文标题：计算机缓存Cache以及Cache Line详解

文章出处：【微信号：gh_9d9a609c9302，微信公众号：SoC芯片】欢迎添加关注！文章转载请注明出处。

buffer和cache的区别

buffer和cache的区别缓冲区（Buffer）和缓存（Cache）是计算机系统中用于提高数据读写效率的两个关键概念，它们虽然功能有所重叠，但在实际应用中存在一些差异。在下文中，

发表于 12-07 11:00 •414次阅读

CPU Cache是如何保证缓存一致性的？

我们介绍`CPU Cache`的组织架构及其进行**读操作**时的寻址方式，但是缓存不仅仅只有读操作，还有 **写操作** ，这会带来一个新的问题

发表于 12-04 15:05 •562次阅读

CPU <b class='flag-5'>Cache</b>是如何保证<b class='flag-5'>缓存</b>一致性的？

Cache写入方式原理简介

提高高速缓存命中率的最好方法是尽量使Cache存放CPU最近一直在使用的指令与数据，当Cache装满后，可将相对长期不用的数据删除，提高Cache的使用效率。为保持

发表于 10-31 11:43 •618次阅读

Cache工作原理是什么

具有Cache的计算机，当CPU需要进行存储器存取时，首先检查所需数据是否在Cache中。如果存在，则可以直接存取其中的数据而不必插入任何等待状态，这是最佳情况，称为高速命中；当CPU所需信息不在

发表于 10-31 11:34 •494次阅读

Cache内容锁定是什么

“锁定”在cache中的块在常规的cache替换操作中不会被替换，但当通过C7控制cache中特定的块时，比如使某特定的块无效时，这些被“锁定”在cache中的块也将受到相应

发表于 10-31 11:31 •366次阅读

Cache分类与替换算法

根据不同的分类标准可以按以下3种方法对Cache进行分类。 •1）数据cache和指令cache •● 指令cache：指令预取时使用的cache

发表于 10-31 11:26 •464次阅读

Cache的原理和地址映射

在cache存储系统中，把cache和主存储器都划分成相同大小的块。主存地址由块号B和块内地址W两部分组成，cache地址由块号b和块内地址w组成。当CPU访问cache时，CPU

发表于 10-31 11:21 •612次阅读

Cache为什么还要分I-Cache，D-Cache，L2 Cache，作用是什么？

Cache为什么还要分I-Cache，D-Cache，L2 Cache，作用是什么？

发表于 10-25 06:38

在组相联cache中，用于替换cache line的算法有哪些？

LRU(Least Recently Used)算法：该算法会跟踪每个cache line的age(年龄)情况，并在需要时替换掉近期最少使用的cache line。

发表于 10-08 11:10 •469次阅读

Linux性能优化：Cache对性能的影响

Cache对性能的影响首先我们要知道，CPU访问内存时，不是直接去访问内存的，而是先访问缓存（cache）。当缓存中已经有了我们要的数据时，CPU就会直接从

发表于 10-04 15:31 •466次阅读

CPU缓存那些事儿

CPU Cache 在读取内存数据时，每次不会只读一个字或一个字节，而是一块块地读取，这每一小块数据也叫CPU 缓存行（CPU Cache Line）。这也是对局部性原理的运用，当一个

发表于 09-10 10:57 •385次阅读

请问ARMv8如何读取cache line中的MOESI信息呢？

本文以Cortex-A53处理器为例，通过访问处理器中的 **内部存储单元** （tag RAM和dirty RAM），来读取cache line 中的MOESI信息。

发表于 09-08 14:35 •456次阅读

高速缓存Cache介绍

被访问，那么将来它附近的位置也会被访问。比如顺序执行代码，或者使用一个数据结构• 时间局部性：被访问过一次的存储器位置，接下来会被多次引用。比如：循环• 缓存行（cache line)• 逻辑上的一组

发表于 09-07 08:22

深入理解Cache工作原理

按照数据关系划分：Inclusive/exclusive Cache: 下级Cache包含上级的数据叫inclusive Cache。不包含叫exclusive Cache。举个例子，

发表于 05-30 16:02 •462次阅读

使用Spring Cache实现缓存

在学习Spring Cache之前，笔者经常会硬编码的方式使用缓存。

发表于 05-11 17:40 •388次阅读