一、c语言字符串的本质
1、char类型数组
c语言没有专门用来存储字符串的变量类型,字符串都是存储在char类型的数组中,char类型的连续空间中每个存储单元存储一个字符,数组末尾以’\0’结束,标志字符串的结束。'\0’是空字符,对应ASCII码值是0。
c语言字符串一定是以’\0’结束的,所以在定义数组时,至少要预留一个位置用来存储’\0’,也就是说,如果定义一个10个空间的char数组,最多可以用来存储9个字节的字符串。
// 10个空间的char数组,最能只能存储9个字符,要留一个空间存储'\0'结束符
char str[10] = "abcd";
在定义字符串的时候,并不需要认为的添加’\0’,编译器会自动为我们做这一步。
2、字符串和字符
字符串常量"A"和字符常量’A’是不一样的,字符常量’A’的数据类型是char,而字符串常量"A"是一个char类型的数组。另外,字符常量’A’仅由字符’A’组成,而字符串常量"A"是由’A’和’\0’两个字节构成的。
3、strlen()和sizeof
sizeof 是运算符,它以字节为单位给出对象的大小,strlen()是函数,它给出字符串中的字符长度。
#define NAME "Tom"
char str[10] = "abcd";
printf("sizeof(str) = %zd\n", sizeof(str)); // 10
printf("strlen(str) = %zd\n", strlen(str)); // 4
printf("sizeof(NAME) = %zd\n", sizeof(NAME)); // 4
printf("strlen(NAME) = %zd\n", strlen(NAME)); // 3
上面代码定义的NAME是一个字面量的字符串,实际上编辑器给这个字符串自动加上了’\0’标识。sizeof计算的str结果为10,表示的是char数组实际定义的大小,strlen(str)计算的数值为4,strlen(str)表示的是字符串真实的字符数量,它并不会包含’\0’这个标识符。sizeof(NAME)计算的空间大小为4,实际上是’T’、‘o’、‘m’、‘\0’共四个字符,strlen(NAME)只是计算字符串实际的字符数量,它遇到’\0’,则认为字符串结束了。
二、定义字符串
1、字符串字面量
在程序中,用双引号括起来的内容称为字符串字面量,也叫作字符串常量。它在内存中存储的内容包括双引号中的字符和编译器自动加入末尾的’\0’标识符。
#define NAME "Tom"
char words[10] = "abcde";
const char * pt = "123456789";
printf("a1b2c3");
“Tom”、“abcde”、“123456789”、"a1b2c3"都是字符串常量。
字符串常量属于静态存储类别,这说明如果在函数中使用字符串常量,该字符串只会被储存一次,在整个程序的生命期内存在,即使函数被调用多次。用双引号括起来的内容被视为指向该字符串储存位置的指针,类似于把数组名作为指向该数组位置的指针。
printf("%s, %p, %c\n", "ab", "cd", *"efgh");//ab, 000000013FE3AE88, e
printf()根据%s 打印出字符串 ab,根据%p 打印出一个地址000000013FE3AE88,"cd"代表字符串首字符的地址。最后,*"efgh"表示该字符串所指向地址上储存的值,应该是字符串*"efgh"的第一个字符。
2、字符串数组和初始化
定义字符串数组时,必须让编译器知道需要多少空间,一种方法是用足够空间的数组储存字符串。
const char str[40] = "I like apple."; // const修饰,不能修改这个字符串
相较于标准的数组初始化形式简单了许多。
const char str[40] = {'I', ' ', 'l', 'i', 'k', 'e', ' ', 'a', 'p', 'p', 'l', 'e', '.', '\0'};
注意最后的空字符。没有这个空字符,这就不是一个字符串,而是一个字符数组。在指定数组大小时,要确保数组的元素个数至少比字符串长度多1(为了容纳空字符)。所有未被使用的元素都被自动初始化为0(这里的0指的是
char形式的空字符,不是数字字符0)。
省略数组初始化声明中的大小,编译器会自动计算数组的大小:
char str[] = "I like apple."; // const修饰,不能修改这个字符串
printf("sizeof(str):%zd\n", sizeof(str)); // 14
printf("strlen(str):%zd\n", strlen(str)); // 13
字符数组名和其他数组名一样,是该数组首元素的地址。str == &str[0]、*str == ‘I’、*(car+3) == car[3] == ‘i’。
3、数组和指针
初始化数组是把静态存储区的字符串拷贝到数组中,而初始化指针只把字符串的地址拷贝给指针。
先对两种形式进行声明:
const char ar[] = "I like apple."; // 数组方式声明
const char * pt = "I like apple."; // 指针方式声明
两个声明都表明pt和ar都是该字符串的地址,带双引号的字符串决定了预留给字符串的存储空间。但是这两种声明形式并不完全相同。
以上面的声明为例,数组形式的ar在计算机的内存中分配为一个内含14个元素的数组(共13个字符+末尾的空字符’\0’),每个元素被初始化为字符串字面量对应的字符。字符串储存在静态存储区中,当程序在开始运行时才会为该数组分配内存。这个时候才将字符串拷贝到数组中。需要明确,此时字符串有两个副本,一个是存储在静态内存中的字符串字面量,另一个是储存在ar数组中的字符串。编译器会把数组名ar识别为该数组首元素地址(&ar[0])的别名。要注意,在数组形式中,ar是地址常量,不能更改ar,如果改变了ar,则意味着改变了数组的存储位置,允许ar+1这样的操作,标识数组的下一个元素,但是不允许进行++ar这样的操作。
指针形式pt也使得编译器为字符串在静态存储区预留14个元素的空间。在程序开始执行时,字符串的地址储存到该指针变量中。指针变量pt最初指向该字符串的首字符,它的值可以改变。也可以使用递增运算符。比如++pt将指向字符串的第2 个字符。字符串字面量被视为const数据,由于pt指向这个const数据,因此不能用pt改变它所指向的数据,所以在以指针形式声明字符串的时候要用const修饰,代表不能修改指针所指向的值。
4、数组和指针的区别
先对两种形式进行声明:
char ar[] = "I like apple."; // 数组方式声明
const char ar[] = "I like apple."; // 数组方式声明 const修饰
const char * pt = "I like apple."; // 指针方式声明必须使用const
数组名ar是常量,因此不可以改变ar的指向,如++ar操作是不合法的。数组声明方式可以用const修饰,也可以不使用const修饰,使用const则代表数组里面的字符串数组是不可以修改内容的,只可读,不可写。
指针名pt是变量,因此可以改变pt的指向,如++pt操作是可以使用的。指针方式声明必须使用const,因为指针指向的是静态存储区的字符串字面量,内容不可修改。
看接下来的操作:
pt = ar; // 合法操作,pt指向数组ar
ar = pt; // 非法操作,ar地址不可以修改
pt = ar;不会导致pt指向的字符串消失,这样做只是改变了储存在pt中的地址。除非已经保存了"I like apple."的地址,否则当pt指向别处时,就无法再访问该字符串。
为什么不能按照如下定义:
char * pt = "I like apple."; // 不推荐的定义方式,且VS2019报错
"I like apple."是字符串字面量,是一段不可修改的数据,char*定义的pt,从语法上讲是可以修改指针指向数据的,二者是矛盾的,编译器大概率会报错(VS2019会报错),因此推荐使用const。当想要修改字符串的时候,可以使用非const数组初始化为字符串字面量,因为数组获得的是原始字符串的副本,因此不会导致类似的问题。
5、字符串数组
定义字符串数组的两种方式:
const char *arr1[4] = {
"I like apple.",
"Hello!",
"Yes.",
"This is a string."
};
char arr2[4][20] = {
"I like apple.",
"Hello!",
"Yes.",
"This is a string."
};
arr1和arr2实现的功能是相似的,两者的初始化方式相同,它们都初始化了4个字符串,arr1[0]和arr2[0]可以得到相同的字符串,双下标都可以得到相应的字符。
它们也有区别,arr1数组是一个内含4个指针的数组,共占用36字节(64位系统,一个指针占8个字节),而arr2是一个内含4个数组的数组,每个数组内含20个char类型的值,共占用80字节。虽然arr1[0]和arr2[0]都分别表示一个字符串,但arr1和arr2的类型并不相同,arr1中的指针指向初始化时所用的字符串字面量的位置,这些字符串字面量被储存在静态内存中,而arr2 中的数组则储存着字符串字面量的副本,所以每个字符串都被储存了两次。此外,arr2分配内存的使用率较低,arr2中的每个元素的大小必须相同,而且必须是能储存最长字符串的大小。
arr1数组的指针元素所指向的字符串不一定储存在连续的内存中,而arr2数组中的数据一定存储在一段连续的内存中。arr1中的指针指向的字符串字面量不能更改,而arr2中的内容可以更改。
三、字符串中sizeof的思考
下列代码:
char str[] = "I like apple.";
printf("sizeof(str) = %zd\n", sizeof(str)); // 字符串占用字节数 14
printf("sizeof(&str[0]) = %zd\n", sizeof(&str[0])); // 指针占用字节数 8
这是因为str是内含14个char类型的值,每个值占1字节,所以整个str的大小是14字节。而&str[0])是指向字符串第一个字符的指针,64位系统指针类型占8个字节。