1、capacity()作用
在std::string中,capacity()为当前string占用内存字符的长度,表示当前string的容量,可以理解为一个预分配制度,如果当前的string不断进行扩展操作,则不需要每次都进行内存上的分配,提高程序的运行效率。所以capacity的值会大于等于size,而不是代表当前string的实际大小。
2、Gcc分配策略
查看Gcc关于string的capacity的代码,大致如下:
分配通过_M_mutate实现,_M_mutate再调用_M_create,调用实际的分配策略。
_M_mutate():
_M_create():
_M_max_size()如下:
可以看到,当所要扩容后的capacity如果大于_M_max_size,会抛出异常。这里不展开关注,只需要关注在正常可以扩容的情况下的capacity的变化。如果所要扩容后的capacity大于老的capacity,则进行二倍的的扩展。这就是Gcc的分配策略。
3、MSVC分配策略
MSVC通过_Calculate_growth()完成capacity的扩容处理。代码如下:
_ALLOC_MASK,为15,这个值是在编译期确定的值。
每次capacity分配都会将需要将string的请求长度_Requested与_Alloc_Mask进行或运算,得到一个_Requested加上一个<=15的值_Masked,如果该值大于_Max,则最大分配为_Max,不会像Gcc先抛出异常。
然后将该值与旧值大小的1/2增长进行比较,取两者的较大的值为新的capacity。
4、代码验证
测试思路,先定义一个空的string,查看初始的capacity值,然后做10次扩容测试,查看每次扩容后的capacity情况。
测试代码如下:
#include <iostream>
#include <string>
using namespace std;
int main()
{
std::string str;
std::cout<<"origin capacity: "<<str.capacity() << " size: "<<str.size()<<std::endl;
for (int i = 0; i < 10; i++)
{
auto cap = str.capacity();
while(str.size() <= cap)
{
str.append("1");
}
std::cout<<"capacity: "<<str.capacity() << " size: "<<str.size()<<std::endl;
}
return 0;
}
4.1 Windows下capacity变化情况
可以看出,一个空的string的capacity初始值系统分配为15,然后再扩容后,后面每次capacity的大小为size/2 + size
4.2 Linux下capacity变化情况
Linux下为一个空的string分配的初始capacity也是15,后面每次进行扩容,都是当前(size/2)*2。
5、横向比对Gcc和MSVC的分配策略
MSVC的扩容要小于Gcc下的扩容大小,这决定了在Linux下string进行不断进行增大时,效率要优于Windows,分配的频率会小于Windows。但是Linux下分配会占用的内存大于Windwos环境,这也可以理解,因为Linux本身运行的程序多为企业级多并发的大程序,利用Linux高资源的特点,可以用空间换时间,获得更快的运行效率。而Windows下运行的多为单机程序,运行的程序不像Linux环境下那么庞大,也不需要极致的空间置换时间,且Wndows的系统资源比较有限,这样可以在保证程序高效运行的情况下,兼顾系统资源在多程序之间的合理分配。
6、capacity扩容后的元素内存地址的变化
我们vector内部的内存结构也是一块连续的内存,当容量进行扩展后,需要重新分配内存,然后进行内容的迁移,string是不是也是如此,进行代码验证。
每次都监视首个元素的地址,当元素插入超过15时,看是否发生首个元素地址的变化。
测试代码如下:
int main()
{
string str;
for (int index = 0; index < 20; ++index)
{
str.push_back('1');
std::cout << "size: " << str.size() << " capacity: " << str.capacity() << " str address: " << &str << " data address: " << (const void*)(&str[0]) << endl;
}
return 0;
}
测试结果如下:
可以看到扩容后首个元素的内存地址也是发生了变化,和vector一样。