在 c 语言中,结构体的大小并不是结构体每个成员的大小之和,结构体的大小往往比结构体的成员大小之和要大。如下结构体,每个成员的大小分别是 1、4、1,但是结构体的大小却不是 6,而是 8。
struct Test {
char a;
int b;
char c;
};
自然对齐:
如果一个数据的内存地址正好是这个数据大小的整数倍,那么说这个数据是自然对齐的。比在 64 位机器上,一个 int 类型的数据地址是 4 的整数倍,一个 long 类型的数据地址是 8 的整数倍,那么说这两个数据是自然对齐的。
有些处理器要求访问的数据是自然对齐的。gcc 编译器编译之后,默认情况下数据也是对齐的。
(1)数组
按照数组元素自然对齐,而不是按照数组整体的大小进行对齐
(2)union
长度最大的元素对齐
(3)结构体
结构体中每个元素对齐即可,结构体有填补机制。
本文主要讨论结构体中的对齐。
1 结构体对齐
(1)结构体中每个成员都是自然对齐的
(2)结构体最后存在补偿,以结构体对齐的长度进行补偿
(3)结构体中如果有结构体成员,那么并不是以结构体成员的长度进行对齐的,而是结构体成员里边的最大的成员进行对齐的,最终还是以最长的基本数据类型对齐的
(4)结构体中包含数组,并不是以数组的整体大小进行对齐的,而是以数组的元素进行对齐的
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
struct A {
char a; // 1 --> 8, 后边的 b 是 long 类型,8 个字节,所以 a 后边空出了 7 个字节没用
long b; // 8
int c; // 4
char d; // 1 --> 4,结构体是 8 字节对齐的,后边要补偿 3 字节
}; // 24
struct B {
char a; // 1 --> 4 // 后边 b 是 int 类型的,b 要求其,a 后边空出 3 个字节
int b; // 4
char c; // 1 --> 4 // 结构体是 4 字节对其的,所以 c 后边补偿 3 个字节
}; // 12
struct C {
char a; // 1 --> 8
struct A b; // 24
char c; // 8
}; // 40
struct D {
char a; // 1 --> 4
struct B b; // 12
char c; // 1 --> 4, 结构体里边包括另一个结构体,大小为 12,但是 struct D 并不是按照 12 对齐的,仍然是按照基本数据类型的最大值进行对齐的
}; // 20
struct E {
char a; // 1
char b[13]; // 13,数组不是以数组整体的大小对齐的,而是以数据的元素进行对齐的
char c; // 1
}; // 15
union F { // union 不同的成员共享一块内存地址,以最长的成员进行对齐
char a; // 1
long b; // 8
int c; // 4
}; // 8
union G {
char a; // 1
struct A b; // 24
}; // 24
struct H {
long a; // 8
char b; // 1 --> 8
union F c; // 8
}; // 24
int main() {
printf("sizeof(struct A) = %lu\n", sizeof(struct A));
printf("sizeof(struct B) = %lu\n", sizeof(struct B));
printf("sizeof(struct C) = %lu\n", sizeof(struct C));
printf("sizeof(struct D) = %lu\n", sizeof(struct D));
printf("sizeof(struct E) = %lu\n", sizeof(struct E));
printf("sizeof(union F) = %lu\n", sizeof(union F));
printf("sizeof(union G) = %lu\n", sizeof(union G));
printf("sizeof(struct H) = %lu\n", sizeof(struct H));
return 0;
}
运行结果如下:
2 函数中的形参和局部变量
如下代码中,test 函数中的入参和局部变量,也是自然对齐的。
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
void test(char a, long b, int c) {
long la = 100;
char lb = 'a';
int lc = 200;
printf("&a = %p, &b = %p, &c = %p\n", &a, &b, &c);
printf("&la = %p, &lb = %p, &lc = %p\n", &la, &lb, &lc);
}
int main() {
test(10, 20, 30);
return 0;
}
运行结果如下,从地址来看,为了节省空间,编译器还对入参和局部变量进行了重新排序。入参在内存中的地址并不是完全按照 a、b、c 的正序或者反序进行排列的,而是按照 b、c、a 的顺序进行排列的;局部变量也存在这样的规律。
结构体中的变量,编译器并不会进行重新排序,这是 ANSI C 中明确规定的,不允许编译器改变结构体成员的次序。
运行结果如下: