0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么列存储能够大幅度提高数据的查询性能

马哥Linux运维 来源:马哥Linux运维 2023-07-09 16:11 次阅读

传统的存储数据的方式是逐行存储(Row Store),每一个Page存储多行数据,而列存储(Column Store)把数据表中的每一列单独存储在Page集合中,这意味着,Page集合中存储的是某一列的数据,而不是一行的所有列的数据。

列存储索引适合于数据仓库中,主要执行大容量数据加载和只读查询,与传统面向行的存储方式相比,使用列存储索引存储可最多提高 10 倍查询性能 ,与使用非压缩数据大小相比,可提供多达 7 倍数据压缩率 。列存储索引使用用“批处理执行模式”的模式,这与行存储使用的逐行数据读取模式对比,性能大幅提升。

列存储索引主要在下面三个特性上提升查询的性能:

  • 行存储使用逐行处理模式,每次只处理一行数据;而列存储索引使用批处理模式,每次处理一批数据行。
  • 行存储是逐行存储(Row Store),每一个Page存储多行数据,而列存储(Column Store)把数据表中的每一列单独存储在Page集合中,这意味着,Page集合中存储的是某一列的数据,而不是一行中所有列的数据。在读取数据时,行存储把一行的所有列都加载到内存,即使有些列根本不会用到;而列存储只把需要的列加载到内存中,不需要的列不会被加载到内存中。
  • 列存储索引自动对数据进行压缩处理,由于同一行的数据具有很高的相似性,压缩率很高,数据读取更快速。

一般情况下,数据仓库的查询语句只会查询少数几个列的数据,其他列的数据不需要加载到内存中,这就使得列存储特别适合用于数据仓库中。

01、列存储的特点

为什么列存储能够大幅度提高数据的查询性能呢?要回答这个问题,首先必须明白SQL Server引擎是怎样读取数据的。在读取数据时,SQL Server每次都把所需数据所在的整个Page读取到内存中,Page是数据读取的最小单位。如果采用行存储,每一个Page都存储所有列的数据,每行的Size决定了单个Page能够存储的数据行数量。

我们可以粗略计算一下,如果一个数据行有10列,每列的平均Size是10B,一行的Size是100B,那么单个Page最多存储80行(8060B/100B);如果采用列存储模式,那么单个Page可以存储806行(8060B/10B)。就单个Page存储的数据行数量而言,列存储是行存储的10倍,SQL Server引擎把一个Page读取到内存中,能够获取的数据行数量成10倍增加。

因此,采用列存储模式时,每一个Page能够存储更多的数据行。在加载列存储数据时,SQL Server只需要消耗少量的IO,就能把某一列的全部数据加载到缓存中。当从列很多的大表中读取几个列时,相比传统的行存储(Row Store)模式,列存储(Column Store)能够成千上万倍地提高数据的读取速度和查询性能。

02、列存储的物理实现

数据表(堆,B-Tree)以行存储模式存储数据,而列存储索引以列存储模式存储数据,行存储和列存储的示例图:

a0097d46-1da3-11ee-962d-dac502259ad0.jpg

1,列存储的优点

对于列存储,列C1…C6 存储在不同的Page组中,列存储的优点是:

  • 列存储是把每一列都单独存储在Pages集合中,对于行存储,哪怕只从数据表中选择(select)一列,SQL Server引擎都把整个数据行所在的Page读取到内存中,而使用列存储索引,仅仅需要把select子句指定的列读取到内存,不需要的列不会被读取;因此,如果一个查询请求只需要从少量的几个列中获得数据,列存储能够大幅度提高查询性能;
  • 由于单个数据列的数据冗余度更高,因此同一列的数据更容易被压缩存储,单个Page存储更多的数据;
  • 缓存命中率提高,这是因为同一列的数据被高度压缩,常用的Page被频繁访问而变得异常活跃,Buffer Manager把活跃的数据页缓存到内存中,不常用的Page被换出(Page Out)。
  • 更高级的查询执行技术,列存储模式读取数据使用的是批处理模式(Batch Processing Mode),相对于传统的行处理技术,查询性能更高。

2,列存储模式的物理实现

SQL Server引擎分三步实现列存储:

  • step1,列存储索引先把数据表的所有数据行分组,每个分组也称作行组(Row Groups)。
  • step2,在每个行组中,每列的所有数据行构成一个列段(Column Segment),简称段。
  • step3,对每个段进行压缩处理和编码,每个段都单独存储在列存储索引中。

a02b9a70-1da3-11ee-962d-dac502259ad0.png

3,编码和压缩

列存储使用两种编码类型:基于字典(dictionary based)和基于值(value based),使用Vertipaq压缩数据。

字典编码是把唯一值编入字典,每一个唯一值都匹配一个序号,而序号用于索引字典,通过存储序号来压缩数据。如果数据表中存在大量的重复值,那么使用字典编码压缩率高。

值编码用于整数类型,或小数类型,编码的原理是把Value的范围按照比例缩小或增大,并使用一个指数(exponent)来表示比例。如果整数(integer) 或小数(decimal)的值分布集中,那么使用基于值(value-based)编码方法进行压缩非常高效。

列存储索引的物理存储如下图所示:a03e11dc-1da3-11ee-962d-dac502259ad0.png

03、列存储索引

SQL Server 2012开始引入列存储模式,用户通过创建列存储索引(Column Store Index)来体验列存储模式带来的性能提升。而列存储模式非常适用于星型连接(Star- Join)类型的聚合查询,所谓星型连接(Star-Join)的聚合查询是指对一个大表(Large Table)和多个小表(Little Table)进行连接,并对Large Table 进行聚合查询。在数据库仓库中,是指事实表和维度表的连接。

在大表上创建列存储索引,SQL Server 引擎将充分使用批处理模式(Batch processing mode)来执行星型查询,获取更高的查询性能。

典型的Star- Join的聚合查询类似于下面的示例脚本:

select lt.Grouping_Columns,
        AggregationFunction(bt.Columns)
from dbo.LittleTable lt with(nolock)
inner join dbo.BitTable bt with(nolock)
    on lt.Int_Col1=bt.Int_col1
where ....
group by lt.Grouping_Columns

在SQL Server 2012中,只能创建非聚集的列存储索引,由于列存储索引的每一列都有独立的存储空间(Page Set),因此,列存储索引会包含数据表的所有列,这样,每一个数据列都会被索引到。但是,并不是每一列都能获得相同的性能提升,这是因为,列存储使用的压缩算法对于具有大量重复值的字符或数值的数据,压缩效率更高。对于列存储索引而言,查询性能的提升很大程度上依赖列数据的高度压缩,这会大幅减少存储该列数据所占用的数据页(Data Page),进而大幅减少把数据加载到内存所耗费的内存和时间。

CREATE[NONCLUSTERED]COLUMNSTOREINDEXindex_name
ON schema_name . table_name ( column  [ ,...n ] )
[ WITH ( DROP_EXISTING = { ON | OFF } | MAXDOP = max_degree_of_parallelism ) ]
[ ON  partition_scheme_name ( column_name )  | filegroup_name ]

一旦表上创建了非聚集的列存储索引,基础表就变成只读的(read-only),不能对基础表做任何更新(insert,update,delete 或merge)操作,如果需要修改数据,那么,首先要禁用列存储索引,然后更新数据,最后重建列存储索引:

ALTER INDEX mycolumnstoreindex ON mytable DISABLE;
-- update mytable --
ALTER INDEX mycolumnstoreindex on mytable REBUILD

由于创建或重建列存储索引是IO密集型资源,十分耗费内存资源,因此必须在系统空闲的情况下,更新数据。

04、列存储索引的空间使用

列存储索引首先把数据分组,然后每个行组中的每个列构成一个段(Segment),每段都是单独存储的,列存储索引占用的存储空间的大小是由所有段占用的硬盘空间的加和。

系统视图:sys.column_store_segments 提供每个段的数据信息,每个段都是每个行组中的一列的数据的集合,例如,如果一个列存储索引分为10个行组,每个行组有15个数据列,那么,该视图将返回150个段。

select i.object_id
    ,object_name(i.object_id) as object_name
    ,i.name as index_name
    ,i.type_desc as index_type
    ,col_name(i.object_id,ic.column_id) as index_column_name
    ,sum(s.row_count) as row_count
    ,sum(s.on_disk_size)/1024/1024 as on_disk_size_mb
from sys.column_store_segments s
inner join sys.partitions p 
    on s.partition_id=p.partition_id
inner join sys.indexes i 
    on p.object_id=i.object_id
        and p.index_id=i.index_id
inner join sys.index_columns ic 
    on i.object_id=ic.object_id
        and i.index_id=ic.index_id
        and s.column_id=ic.index_column_id
group by i.object_id
    ,i.index_id
    ,i.name
    ,i.type_desc
    ,ic.column_id
order by i.object_id
    ,i.name
    ,index_column_name

可以看出,列存储索引中每个段占用的硬盘空间是很少的,加载到内存所需要耗费的时间,IO次数和内存资源也是很少的,再配上性能更高的批处理模式,所以,列存储能够大幅度提高数据的查询性能,特别是对星型聚合的查询。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    12

    文章

    3856

    浏览量

    84660
  • 编码
    +关注

    关注

    6

    文章

    835

    浏览量

    54457
  • 数据表
    +关注

    关注

    0

    文章

    294

    浏览量

    11264

原文标题:为什么列存储能够大幅度提高数据的查询性能

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    C2183大幅度降低高功率应用设计的系统成本

    英商康桥半导体宣布全新的一次侧感应 (PSS) 返驰式控制晶片系列,可以大幅度降低高功率应用设计的系统成本及零组件数量,同时也提供绝佳的轻载及待机效率性能
    发表于 09-11 09:26 1885次阅读

    MCU可以正常工作但是端口输入脉冲信号后,读值不准确大幅度变化是为什么?

    MCU还可以正常工作但是端口输入脉冲信号后,读值不准确大幅度变化,之前是好的,这是为啥呢,是MCU坏了吗
    发表于 02-20 07:09

    反对法大幅度反对

    反对法多福多寿发的发大幅度反对法大幅度
    发表于 09-13 23:18

    的发生的发生大幅度

    发发大幅度发大厦
    发表于 11-28 11:22

    请问ADF4351输出频率如何能将高次谐波大幅度减小?

    采用ADF4351输出频率,发现设置输出频率时,其3、5、7、2、4、6等倍频的位置幅值很大,特别是基波600M频率以下时,3倍频谐波输出幅度超过了基波,请教如何能将高次谐波大幅度减小?
    发表于 09-25 11:29

    如何大幅度减少实施时间?

    CPU内核。如何大幅度减少实施时间?我有什么选择可以改变以加快它吗?以上来自于谷歌翻译以下为原文The implementation process is a time-consuming
    发表于 10-17 11:59

    平衡小车保持一段时平衡后突然大幅度来回走动

    能保持静止,然后过一会儿突然一下就大幅度的来回走动,然后重新启动后就直接大幅度来回走动了。设定的movement=0;if(Turn_Off(Angle_Balance,Voltage)==1
    发表于 05-19 21:36

    有什么方法可以大幅度提升发电机的发电量呢?

    蒸汽轮机或水轮机的发电原理是什么?有什么方法可以大幅度提升发电机的发电量呢?
    发表于 06-30 06:49

    光纤接入组网方案让网速大幅度提高

    光纤接入组网方案让网速大幅度提高 随着网吧行业的发展,竞争也越来越激烈,要在激烈的竞争中立于不败之地,设计和组建一个稳
    发表于 04-14 13:51 1909次阅读

    能够把特定信号大幅度衰减并有衰减极点的低通滤波器

    能够把特定信号大幅度衰减并有衰减极点的低通滤波器 电路的功能
    发表于 05-13 15:34 2056次阅读
    <b class='flag-5'>能够</b>把特定信号<b class='flag-5'>大幅度</b>衰减并有衰减极点的低通滤波器

    Altera的FPGA OpenCL计划大幅度缩短了早期试用客户的开发时间

      2012年4月11号,北京——Altera公司(Nasdaq: ALTR)今天宣布,goHDR作为FPGA OpenCL计划的早期试用客户,通过Altera的FPGA OpenCL计划,大幅度缩短了开发时间,显著提高性能
    发表于 04-12 08:58 716次阅读

    荣耀将在6月份带来黑科技:大幅度提升图形性能

    那么这项很吓人的技术到底是什么,现在似乎也有了些眉目。根据内部人士的爆料,这项“很吓人的技术”就是借助黑科技使得图形图像的性能,以及玩游戏的性能得到极大幅度的提升,据说速度快到不可思议。当然,这里所说的黑科技借助对系统底层的优化
    的头像 发表于 05-28 12:32 4531次阅读

    谷歌和阿尔法狗为大幅度提高创新能力而采用的5个原则

    接下来,本文将介绍谷歌和阿尔法狗为大幅度提高创新能力而采用的5个原则。在这个VUCA(volatile, uncertain, complex, ambiguous的首字母缩写,即易变、不确定、复杂、模糊)时代,所有公司都可以用这些原则展开竞争。
    的头像 发表于 09-29 10:14 5779次阅读

    特斯拉大幅度降价 为何

    特斯拉大幅度降价 为何
    发表于 03-04 14:48 697次阅读

    5G技术的普及将大幅度推动车联网的发展

    谈到5G的推动作用,田大新认为之前的车联网受车载通信终端渗透率的影响,往往都只能用于试验场或少部分车。5G普及后,数据传输速率及质量都有较大提高,车辆只需安装低成本的信号接收器就可完成V2X通信,这将大幅度
    发表于 10-09 14:16 810次阅读