从内存分配的角度来分析下string的实现机制-电子发烧友网

大家好！对于C++开发人员来说，string大概是使用最多的标准库数据结构之一，一直以来也就仅限于使用，对于底层实现似懂非懂。所以，最近抽出点时间，大致研究了下string的底层实现。今天，就从内存分配的角度来分析下string的实现机制。

直接分配

大概在08年的时候，手动实现过string，没有考虑性能，所以单纯是从功能的角度进行实现，下面摘抄了部分代码，如下：

string::string(constchar*s){
size_=strlen(s);
buffer_=newchar[size_+1];
strcpy(buffer_,s);
}

string&string::string(conststring&str){
size_+=str.size_;
char*data=newchar[size_+1];
strcpy(data,buffer_);
strcat(data,str.buffer_);

delete[]buffer_;
buffer_=data;
return*this;
}

上述代码为string的部分成员函数，从上述实现可以看出，无论是构造还是拷贝，都是重新在堆上(使用new关键字)分配一块内存。这样做的优点是实现简单，而缺点呢，因为每次都在堆上进行分配，而堆上内存的分配效率非常差(当然是相对栈来说的)，所以有没有更好的实现方式呢？下面我们看先STL中的基本实现。

SSO

记得之前在看Redis源码的时候，对整数集合(intset)有个优化:根据新元素的类型，扩展整数集合底层数组的空间大小，并未新元素分配空间，也就是说，假设在初始的时候，集合中最大的数为3，那么这个时候集合的类型为INT_16，如果此时新增一个元素为65536，那么就将集合的类型更改为INT_32，并重新为集合分配空间，将之前的数据进行类型扩展。

那么string有没有类似Redis整数集合的功能，进行类型升级呢？

带着这个疑问，研究了string源码，发现里面使用了一个名为SSO的优化策略~~~

SSO为Small String Optimization的简写，中文译为小字符串优化，基本原理是：当分配大小小于16个字节时候，从栈上进行分配，而如果大于等于16个字节，则在堆上进行内存分配。PS：需要注意的是，此优化自GCC5.1生效，也就是说对于GCC版本小于5的，无论长度为多少，都从堆上进行分配。

为了证实上述结论，测试代码如下：

#include
#include
#include

void*operatornew(std::size_tn){
std::cout<< "[Allocating " << n << " bytes]";
  return malloc(n);
}
void operator delete(void* p) throw() {
  free(p);
}

int main() {
  for (size_t i = 0; i < 24; ++i) {
    std::cout << i << ": " << std::string(i, '=') << std::endl;
  }
  return 0;
}

在上述代码中，我们重载了operator new，以替换string中的new实现，这样做的好处是，可以通过输出来发现是否调用了new进行动态分配。

G++ 4.9.4版本输出如下：

0:
[Allocating26bytes]1:=
[Allocating27bytes]2:==
[Allocating28bytes]3:===
[Allocating29bytes]4:====
[Allocating30bytes]5:=====
[Allocating31bytes]6:======
[Allocating32bytes]7:=======
[Allocating33bytes]8:========
[Allocating34bytes]9:=========
[Allocating35bytes]10:==========
[Allocating36bytes]11:===========
[Allocating37bytes]12:============
[Allocating38bytes]13:=============
[Allocating39bytes]14:==============
[Allocating40bytes]15:===============
[Allocating41bytes]16:================
[Allocating42bytes]17:=================
[Allocating43bytes]18:==================
[Allocating44bytes]19:===================
[Allocating45bytes]20:====================
[Allocating46bytes]21:=====================
[Allocating47bytes]22:======================
[Allocating48bytes]23:=======================

GCC5.1 输出如下：

0:
1:=
2:==
3:===
4:====
5:=====
6:======
7:=======
8:========
9:=========
10:==========
11:===========
12:============
13:=============
14:==============
15:===============
16:[Allocating17bytes]================
17:[Allocating18bytes]=================
18:[Allocating19bytes]==================
19:[Allocating20bytes]===================
20:[Allocating21bytes]====================
21:[Allocating22bytes]=====================
22:[Allocating23bytes]======================
23:[Allocating24bytes]=======================

从GCC5.1的输出内容可以看出，当字符串长度小于16的时候，没有调用我们的operator new函数，这就从侧面证明了前面的结论当分配大小小于16个字节时候，从栈上进行分配，而如果大于等于16个字节，则在堆上进行内存分配。(PS:GCC4.9.4版本的输出，分配字节数大于实际的字节数，这个是string的又一个优化策略，即预分配策略，在后面的内容中将会讲到)。

直奔主题

不妨闭上眼睛，仔细想下，如果让我们自己来实现该功能，你会怎么做？

可能大部分人的思路是：定义一个固定长度的char数组，在进行构造的时候，判断字符串的长度，如果长度小于某个定值，则使用该数组，否则在堆上进行分配~~~

好了，为了验证上述思路与具体实现是否一致，结合源码一起来分析~~

首先，摘抄了部分string的源码，如下：string源码

template
classbasic_string
{
private:
//Useempty-baseoptimization:http://www.cantrip.org/emptyopt.html
struct_Alloc_hider:allocator_type//TODOcheck__is_final
{
_Alloc_hider(pointer__dat,const_Alloc&__a=_Alloc())
:allocator_type(__a),_M_p(__dat){}

pointer_M_p;//Theactualdata.
};

_Alloc_hider_M_dataplus;
size_type_M_string_length;

enum{_S_local_capacity=15/sizeof(_CharT)};

union
{
_CharT_M_local_buf[_S_local_capacity+1];
size_type_M_allocated_capacity;
};
};

上面抽出了我们需要关注的部分代码，只需要关注以下几个点：

•_M_string_length已分配字节数

•_M_dataplus实际数据存放的位置

• union字段：两个字段中较大的一个_M_local_buf为 16 字节

•_M_local_buf这是一个用以实现SSO功能的字段，大小为16（15 + 1其中1为结束符）个字节

•_M_allocated_capacity是一种size_t类型，功能类似于vector中的预分配，其与_M_local_buf不能共存

从上述源码中，我们看到有个变量_M_local_buf，从字面意思看就是一个本地或者局部buffer，猜测是用来存储大小不足16字节的内容，为了证实我们的猜测，下面结合GDB一起再分析下SSO的实现机制，示例代码如下：

#include

intmain(){
std::stringstr("hello");
return0;
}

gdb调试代码如下：

(gdb)s
Singlesteppinguntilexitfromfunctionmain,
whichhasnolinenumberinformation.
std::basic_string,std::allocator>::basic_string(charconst*,std::allocatorconst&)()
at/root/gcc-5.4.0/build/x86_64-unknown-linux-gnu/libstdc++-v3/include/bits/basic_string.h:454
454basic_string(const_CharT*__s,const_Alloc&__a=_Alloc())
(gdb)s
141returnstd::pointer_traits::pointer_to(*_M_local_buf);
(gdb)n
454basic_string(const_CharT*__s,const_Alloc&__a=_Alloc())
(gdb)
456{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}
(gdb)
141returnstd::pointer_traits::pointer_to(*_M_local_buf);
(gdb)
456{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}
(gdb)
267{return__builtin_strlen(__s);}
(gdb)
456{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}
(gdb)
195_M_construct(__beg,__end,_Tag());
(gdb)
456{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}

单从上述信息不能很明确的了解整个构造过程，我们留意到构造的过程在basic_string.h:454，所以就通过源码进行分析，如下：

basic_string(const_CharT*__s,const_Alloc&__a=_Alloc())
:_M_dataplus(_M_local_data(),__a)
{_M_construct(__s,__s?__s+traits_type::length(__s):__s+npos);}

_M_construct从函数字面看出是用来构造该对象，在后面进行分析，下面先分析下M_dataplus函数实现，

_M_local_data()const
{
#if__cplusplus>=201103L
returnstd::pointer_traits::pointer_to(*_M_local_buf);
#else
returnconst_pointer(_M_local_buf);
#endif
}

在前面内容中，提到过_M_dataplus用来指向实际存储数据的地址，在basic_string()函数的构造中，首先将__M_dataplus指向local_buf，然后调用__M_construct进行实际构造，而M_construct最终会调用如下代码：

template
template
void
basic_string<_CharT, _Traits, _Alloc>::
_M_construct(_InIterator__beg,_InIterator__end,
std::forward_iterator_tag)
{
//NB:Notrequired,butconsideredbestpractice.
if(__gnu_cxx::__is_null_pointer(__beg)&&__beg!=__end)
std::__throw_logic_error(__N("basic_string::"
"_M_constructnullnotvalid"));

size_type__dnew=static_cast(std::distance(__beg,__end));

if(__dnew>size_type(_S_local_capacity))
{
_M_data(_M_create(__dnew,size_type(0)));
_M_capacity(__dnew);
}

//Checkforout_of_rangeandlength_errorexceptions.
__try
{this->_S_copy_chars(_M_data(),__beg,__end);}
__catch(...)
{
_M_dispose();
__throw_exception_again;
}

_M_set_length(__dnew);
}

在上述代码中，首先计算当前字符串的实际长度，如果长度大于_S_local_capacity即15，那么则通过_M_create在堆上创建一块内存，最后通过_S_copy_chars函数进行内容拷贝。

结语

本文中的测试环境基于Centos6.8 & GCC5.4，也就是说在本环境中，string中如果实际数据小于16个字节，则在本地局部存储，而大于15字节，则存储在堆上，这也就是string的一个优化特性SSO(Small String Optimization)。在查阅了相关资料，发现15字节的限制取决于编译器和操作系统，在fedora和red-hat中，字符串总是存储在堆中（来自于网络，由于手边缺少相关环境，所以未能验证，抱歉）。

好了，今天的文章就到这，我们下期见！

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

GCC

GCC

+关注

关注
0

文章
104

浏览量
24717
gdb

gdb

+关注

关注
0

文章
60

浏览量
13162
string

string

+关注

关注
0

文章
40

浏览量
4649

原文标题：string 性能优化之存储：栈或者堆

文章出处：【微信号：C语言与CPP编程，微信公众号：C语言与CPP编程】欢迎添加关注！文章转载请注明出处。

Linux内核内存管理之内核非连续物理内存分配

我们已经知道，最好将虚拟地址映射到连续页帧，从而更好地利用缓存并实现更低的平均内存访问时间。然而，如果对内存区域的请求并不频繁，那么考虑基于通过连续线性地址访问非连续页帧的分配方案是有

发表于 02-23 09:44 •387次阅读

Linux内核<b class='flag-5'>内存</b>管理之内核非连续物理<b class='flag-5'>内存</b><b class='flag-5'>分配</b>

Linux内核内存管理之ZONE内存分配器

内核中使用ZONE分配器满足内存分配请求。该分配器必须具有足够的空闲页帧，以便满足各种内存大小请求。

发表于 02-21 09:29 •422次阅读

FreeRTOS内存机制详解

FreeRTOS是一种实时操作系统，它提供了多种内存分配方式，包括动态内存分配和静态内存分配。

发表于 12-31 16:49 •1113次阅读

FreeRTOS<b class='flag-5'>内存</b><b class='flag-5'>机制</b>详解

mtrace分析内存泄露

一、mtrace分析内存泄露 mtrace（memory trace），是 GNU Glibc 自带的内存问题检测工具，它可以用来协助定位内存泄露问题。它的

发表于 11-13 10:55 •947次阅读

mtrace<b class='flag-5'>分析</b><b class='flag-5'>内存</b>泄露

高并发内存池项目实现

本项目实现了一个高并发内存池，参考了Google的开源项目tcmalloc实现的简易版；其功能就是实现高效的多线程内存管理。由功能可知，高并

发表于 11-09 11:16 •284次阅读

高并发<b class='flag-5'>内存</b>池项目<b class='flag-5'>实现</b>

从软件角度看看内存

关于内存，从软件的角度去查看，其实作为一个软件程序员，大多数对这个维度的接触还是蛮多的。linux中有个free命令，其就是查看系统内存的情况。 free命令的选项也比较简单，常用的参数命令如下

发表于 10-30 17:41 •442次阅读

从软件<b class='flag-5'>角度</b>看看<b class='flag-5'>内存</b>

如何高效管理MCU内存? 多种分配算法对比？

发表于 10-17 18:21 •711次阅读

如何高效管理MCU<b class='flag-5'>内存</b>? 多种<b class='flag-5'>分配</b>算法对比？

C语言程序设计中动态内存分配如何实现

C语言程序设计中，动态内存分配如何实现，需要注意哪些问题？

发表于 09-28 16:53 •852次阅读

heap_4内存分配方法介绍

heap_4 内存分配方法 heap_4 提供了一个最优的匹配算法，不像 heap_2，heap_4 会将内存碎片合并成一个大的可用内存块，它提供了

发表于 07-30 10:42 •503次阅读

heap_2内存的特性与分配方法

heap_2 内存分配方法 heap_2 提供了一个更好的分配算法，不像 heap_1那样，heap_2 提供了内存释放函数。heap_2 不会把释放的

发表于 07-30 10:36 •375次阅读

heap_1内存分配方法

heap_1 内存分配方法动态内存分配需要一个内存堆， FreeRTOS 中的内存堆为 ucHeap

发表于 07-30 10:33 •378次阅读

使用C语言实现简单动态内存分配

首先要明白为何需要动态内存分配，熟悉C语言的读者应该对这个比较熟悉，需要一段内存时会使用malloc函数来申请所需要大小的内存，函数返回一段内存

发表于 07-28 16:26 •391次阅读

jemalloc分配机制的介绍及其优化实践

C/C++通过libc做内存分配。glibc中默认的分配机制是ptmalloc。除此之外，还有众多的不同侧重的优化，例如tcmalloc，jemalloc。

发表于 05-30 09:12 •662次阅读

can总线的可靠通信是依靠什么机制来实现的？

can总线的可靠通信是依靠什么机制来实现的？

发表于 05-09 10:35

如何使用String从flash复制char数组？

我知道一定有我遗漏的东西，但是以下链接中描述的代码如何使用 String 从 flash 复制 char 数组？

发表于 05-08 06:17

搜索历史

从内存分配的角度来分析下string的实现机制

评论

Linux内核内存管理之内核非连续物理内存分配

Linux内核内存管理之ZONE内存分配器

FreeRTOS内存机制详解

mtrace分析内存泄露

高并发内存池项目实现

从软件角度看看内存

如何高效管理MCU内存? 多种分配算法对比？

C语言程序设计中动态内存分配如何实现

heap_4内存分配方法介绍

heap_2内存的特性与分配方法

heap_1内存分配方法

使用C语言实现简单动态内存分配

jemalloc分配机制的介绍及其优化实践

can总线的可靠通信是依靠什么机制来实现的？

如何使用String从flash复制char数组？