一、究竟什么是函数栈帧
C语言的使用是面向过程的, 面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依次调用就可以了。所以C语言的程序都是以函数作为基本单位的,如果能够深入理解函数,无疑对于c语言会有更深刻地理解,修炼自己的内功,那么函数是如何调用的?函数返回值是如何返回的?函数的形参是如何传递的…………等等的问题,其实都和函数栈帧有关系!
函数栈帧(stack frame):就是函数调用过程中在程序的调用栈(call stack)所开辟的空间,这些空间是用来存放:
1、函数参数和函数返回值
2、临时变量(包括函数的非静态的局部变量以及编译器自动生产的其他临时变量)
3、保存上下文信息(包括在函数调用前后需要保持不变的寄存器)。
二、理解函数栈帧能解决什么问题呢?
函数栈帧的创建和销毁,是函数调用的底层逻辑,通过学习这方面的内容可以解决以下问题:
1、局部变量是如何创建的?
2、为什么局部变量不初始化内容是随机的?
3、函数调用时形参是如何传递的,传递和调用的顺序又是怎样的?
4、为什么说形参是实参的一份临时拷贝,改变形参的值不会影响实参?
5、函数的返回值是如何带回去的?
三、函数栈帧的创建和销毁
3.1 什么是栈?
栈(stack)是现代计算机程序里最为重要的概念之一,几乎每一个程序都使用了栈,没有栈就没有函数,没有局部变量,也就没有我们如今看到的所有的计算机语言。
在经典的计算机科学中,栈被定义为一种特殊的容器,用户可以将数据压入栈中(入栈,push),也可 以将已经压入栈中的数据弹出(出栈,pop),但是栈这个容器必须遵守一条规则:先入栈的数据后出 栈(First In Last Out, FIFO)。就像叠成一叠的术,先叠上去的书在最下面,因此要最后才能取出。
在计算机系统中,栈则是一个具有以上属性的动态内存区域。程序可以将数据压入栈中,也可以将数据 从栈顶弹出。压栈操作使得栈增大,而弹出操作使得栈减小。
在经典的操作系统中,栈总是向下增长(由高地址向低地址)的。
在我们常见的i386或者x86-64下,栈顶由成为 esp 的寄存器进行定位的。 栈底有ebp的寄存器进行定位,而这次主要会在x86环境下进行演示。
值得注意的是:在不同的编译器中,函数调用过程中栈帧的创建是略有差异的,具体细节取决于编译器的实现,这次主要会在vs2022编译器上进行演示。
3.2 认识相关的寄存器和汇编指令
相关寄存器:
eax:通用寄存器,保留临时数据,常用于返回值
ebx:通用寄存器,保留临时数据
ebp:栈底寄存器
esp:栈顶寄存器
eip:指令寄存器,保存当前指令的下一条指令的地址
相关汇编命令:
mov:数据转移指令
push:数据入栈,同时esp栈顶寄存器也要发生改变
pop:数据弹出至指定位置,同时esp栈顶寄存器也要发生改变
sub:减法命令
add:加法命令
call:函数调用,1. 压入返回地址 2. 转入目标函数 jump:通过修改eip,转入目标函数,进行调用
ret:恢复返回地址,压入eip,类似pop eip命令
3.3 函数栈帧的创建与销毁解析
3.3.1 预备知识
1、每一次函数调用,都需要为本次函数调用开辟空间,就是函数栈帧的空间。
2、这块空间的维护是使用了两个寄存器:esp和ebp(也可以理解成两个指针),ebp记录的是栈底的地址,esp记录的是栈顶的地址,而这两个地址就是用来维护函数栈帧的。
3、栈区的使用一般都是从高地址到低地址。
3.3.2 函数调用堆栈
以下是本次演示的全部代码
#include <stdio.h>
int Add(int x, int y)
{
int z = 0;
z = x + y;
return z;
}
int main()
{
int a = 10;
int b = 20;
int ret = 0;
ret = Add(a, b);
printf("%d\n", ret);
return 0;
}
这段代码,如果我们在VS2019编译器上调试,打开调用堆栈(调试->窗口->调用堆栈)
调试进入Add函数后,我们就可以观察到函数的调用堆栈 (右击勾选【显示外部代码】),如下图:
函数调用堆栈是用来反馈函数调用逻辑的,我们可以通过上图发现,Add函数是由main函数调用的,而在main函数之前,是由invoke_main函数来调用main函数的!!
这样我们可以确定,invoke_main函数也有自己的栈帧,main函数和add函数也有自己的栈帧,每个栈帧都有自己的edp和esp来维护栈帧空间!
3.3.3 准备环境
为了让我们研究函数栈帧的过程足够清晰,不要太多干扰,我们可以关闭下面的选项(将支持仅我的代码调试 设为 “否”),让汇编代码中排除一些编译器附加的代码。
3.3.4 转到反汇编
调试到main函数的第一行,右击鼠标转到反汇编。
注:VS编译器每次调试都会为程序重新分配内存,每次调试略有差异。
3.3.5 函数栈帧的创建
3.3.5.1main函数栈帧的开辟
我们从main函数转换的反汇编代码进行演示,一行行拆解代码
这一块内容为main函数创建变量之前的代码,该代码的实现的就是main()函数的栈帧创建
1、push ebp
在main函数创建之前,esp和ebp维护的是invoke_main函数,第一步,就是将ebp(栈底寄存器)的值进行压栈(esp-4),此时的ebp存放的是invoke_main函数栈帧的ebp。
2.mov ebp,esp
move指令会把esp的值存放带ebp中,相当于产生了main函数的ebp,这个值就是invoke_main函数栈帧的esp。
3.sub esp,0E4h
sub指令会让esp的地址减去一个16进制的0xe4,产生新的esp,此时的esp是main函数栈帧的esp,此时结合上一条指令的ebp和当前的esp,他们之间维护了一块新的栈空间,就是为main函数开辟的,将利用这一段空间存储main函数的局部变量、临时数据等等。
4. push ebx 将寄存器ebx的值压栈,esp-4
push esi 将寄存器ebx的值压栈,esp-4
push edi 将寄存器ebx的值压栈,esp-4
这三个指令保存了三个寄存器的值在栈区,这三个寄存器的函数随后执行中可能会被修改,所以于谦保存寄存器原有的值,以便于在退出函数能及时恢复。
5. lea edi,[ebp-24h] 先把ebp-24h的地址,放在edi中
mov ecx,9 把9放在ecx中
mov eax,0CCCCCCCCh 把0xCCCCCCCC放在eax中
rep stos dword ptr es:[edi] 将从edp-0x2h到ebp这一段的内存的每个字节都初始化为0xCC
这四个指令是用来对新开辟的main函数的栈帧进行初始化。
总结:我们可以发现,1-3步骤完成了main函数的栈帧空间开辟,4步骤完成了在使用寄存器之前对原先寄存器的值进行存储,5步骤完成了对main函数栈帧的初始化
3.5.5.2 main函数中局部变量变量的创建
这块内容为main函数中局部变量的创建
move dword ptr [ebp-8],0Ah 将10存储到ebp-8的地址处, ebp-8的位置其实就是a变量
move dword ptr [ebp-14h],14h 将20存储到ebp-14h的地址处,ebp-14h的位置 其实是b变量
move dword ptr [ebp-20h],0 将0存储到ebp-20h的地址处, ebp-20h的位 置其实是ret变量
3.5.5.3 Add函数的传参以及调用
此图为Add函数传参以及调用的内容
3.5.5.3.1 传参
mov eax,dword ptr [ebp-14h] 将[ebp-14h] 处的b(20)放到eax中
push eax 将eax的值压栈,esp-4
mov ecx,dword ptr [ebp-8] 将[ebp-8h] 处的a(10)放到ecx中
push ecx 将ecx的值压栈,esp-4
此操作我们可以发现,其实参数的传递在Add函数调用之前就已经完成了,实在main函数中开辟了一小段临时空间将实参的值进行存储。
3.5.5.3.2 函数调用开始
00D11912 call 00D110B9 调用00D110B9(编译器计算好开辟Add函数的地址) 处的函数(Add)同时记录call指令的下一个指令的地址00D11917 (为了在Add函数调用结束后可以快速回到main函数)
3.5.5.3.3 函数调用结束后的返回过程以及形参的销毁
00D11917 add esp,8 esp直接+8,相当于跳过了main函数中压栈的 a'和b'(销毁形参)
mov dword ptr [ebp-20h],eax 将eax中值,存档到ebp-0x20的地址处, 其实就是存储到main函数中ret变量中,而此时eax中就是Add函数中计算的x和y的和,可以看出来,本次函数的返回值是由eax寄存器带回来的。程序是在函数调用返回之后,在eax中去读取返回值的。
3.5.5.4Add函数的栈帧开辟
此图为Add函数的栈帧开辟
在Add函数中创建栈帧的方法和在main函数中是相似的,在栈帧空间的大小上略有差异而已。
1. 将main函数的 ebp 压栈
2. 计算新的 ebp 和 esp
3. 将 ebx , esi , edi 寄存器的值保存
4. 计算求和,在计算求和的时候,我们是通过 ebp 中的地址进行偏移访问到了函数调用前压栈进去的 参数,这就是形参访问。
5. 将求出的和放在 eax 寄存器尊准备带回
这里不做过多解释,可以参照main函数的栈帧创建形式去分析!
3.5.5.5Add函数内部的实现
此图为Add函数内部的实现
mov dword ptr [ebp-8],0 将0放在ebp-8的地址处,其实就是创建z
mov eax,dword ptr [ebp+8] 将ebp+8地址处的数字(局部变量‘a’=10)存储到eax寄存器中
add eax,dword ptr [ebp+0Ch] 将ebp+12地址处的数字(局部变量‘b’=20)加到eax寄存器中
movdword ptr [ebp-8],eax 将eax的结果(10+20=30)保存到ebp-8的地址处,其实就是放到z中
mov eax,dword ptr [ebp-8] 将ebp-8地址处的值放在eax中,其实就是 把z的值存储到eax寄存器中,这里是想通过eax寄存器带回计算的结果,做函数的返回值。
通过以上步骤我们可以发现,当形参需要参与计算时,会通过指针偏移量找到传入实参的值(10和20),这是在函数调用之前就存储好的。并且计算过程是由寄存器完成的,同时寄存器也存储了返回值,避免了返回值变量的空间销毁后找不到返回值。
3.5.5.6Add函数的栈帧销毁
此图为Add函数的栈帧销毁
pop edi 在栈顶弹出一个值,存放到edi中,esp+4
pop esi 在栈顶弹出一个值,存放到esi中,esp+4
pop ebx 在栈顶弹出一个值,存放到ebx中,esp+4
mov esp,ebp 再将Add函数的ebp的值赋值给esp,相当于回收了Add函数的栈帧空间
pop ebp 弹出栈顶的值存放到ebp,栈顶此时的值恰好就是main函数的ebp, esp+4,此时恢复了main函数的栈帧维护,esp指向main函数栈帧的栈顶,ebp指向了main函数栈帧的栈 底。
ret ret指令的执行,首先是从栈顶弹出一个值,此时栈顶的值就是call指令下一条指令的地址,此时esp+4,然后直接跳转到call指令下一条指令的地址处,继续往下执行
四、深入理解为什么需要压栈
4.1 为什么在Add函数创建栈帧的时候第一步要在main函数的esp-4的位置压栈压入ebp的值?
因为esp(栈顶寄存器)和ebp(栈底寄存器)用来维护函数的栈帧,他会根据调用函数的不同去向不同的位置,由于栈区的使用习惯时从高地址指向低地址,那么当Add函数执行完后想要回到main函数,此时Add的ebp恰好就可以是main函数的esp,但是main函数的ebp此时已经不知道在哪里了,为了避免这种情况,创建Add函数栈帧的时候,esp和ebp在变化维护的栈帧空间之前,会记录原来空间的栈底地址也就是main函数的ebp地址,这样当Add函数调用完成销毁的过程中,栈顶弹出栈的时候就可以将main函数的ebp弹出来并将Add函数的ebp更新为main函数的ebp。
4.2 为什么main函数在调用一个需要传入参数的函数Add时,需要先将参数的值存储起来?
因为我需要把main函数中的实参传递给Add函数进行计算,那在esp和ebp转移之前,提前将传入参数的值临时拷贝在一小段空间里,这样当Add函数需要时,可以通过指针偏移量去找到这些数,我们叫做形参,形参是实参的一份临时拷贝,所以修改形参不会影响实参。
4.3 main函数在调用Add函数前,为什么在call指令执行时,需要存储call指令的下一个地址?
因为在main函数的执行过程中,main函数是执行到一半的时候调用了Add函数,在调用(call指令)之前记录执行到一半的那个地址,方便Add函数结束之后,能够及时返回到自己main函数的栈帧之前的地方,同时形参的创建也是在函数调用之前实现的,所以回到该地址还同时可以弹出保存形参值的栈。对形参进行及时的销毁。
五、对 二 中的问题进行解释
通过对函数栈帧的创建和销毁学习后,对于这个函数的底层知识有了更深刻的理解。以此们可以解决目录二中提到的问题。
5.1 局部变量是如何创建的
函数开辟栈帧空间,并初始化空间之后,给局部变量分配了一部分内存,两个局部变量之间的空间距离可能离得远也可能离得近,具体要根据编译器来决定。
5.2 为什么局部变量不初始化内容是随机的
因为在函数开辟栈帧空间之后,我们对空间都进行了初始化,每一个字节都被初始化为0xCC,如果直接使用,会给随机值,同时由于0xCCCC的汉字编码就是烫,所以当0xCCCC被当作文本时打印出来的就是烫,这也说明了变量初始化的重要性!
5.3 函数调用时参数是如何传递的?传参的顺序是怎样的?
首先在函数调用之前,会将参数的值进行压栈,当调用的函数需要使用该值的之后,会通过指针偏移量去找到这块空间。传参的顺序是从右到左,调用的顺序是从左到右。
5.4 为什么说形参是实参的一份临时拷贝,改变形参的值不会影响实参?
因为形参是在函数调用之前,就在main函数内部通过压栈的方式保存了形参值,形参值虽然和实参的数值一样,但是并不是一块空间,可以说明改变形参的大小不会影响实参
5.5 函数的返回值是如何带回去的?
函数的返回值会被存储在寄存器中。