本文将讨论IDA中的交叉引用的相关知识。
更多c++逆向知识可以看B站的课程《C++ 反汇编基础教程(IDA Pro Visual Studio)》
交叉引用
IDA 中的交叉引用通常简称为xref 。从名字可以看出,使用快捷键就可以找出某个函数或者数据被引用的地方。
在IDA 中有两类基本的交叉引用:代码交叉引用和数据交叉引用。这两种引用又分别包含几种不同的交叉引用。
文本CODE XREF 表示这是一个代码交叉引用,而非数据交叉引用(DATA XREF )。后面的地址(这里为_main+2A )是交叉引用的源头地址。
交叉引用中使用的地址提供了额外的信息,指出交叉引用是在一个名为_main 的函数中提出的,具体而言是 _main 函数中的第 0x2A(42 )字节。地址后面总是有一个上行或下行箭头,表示引用位置的相对方向。
下行箭头表示 _main+2A 的地址比sub_401000 要高,因此,你需要向下滚动才能到达该地址。同样,上行箭头表示引用地址是一个较低的内存地址,你需要向上滚动才能到达。最后,每个交叉引用注释都包含一个单字符后缀,用以说明交叉引用的类型。
代码交叉引用
代码交叉引用用于表示一条指令将控制权转交给另一条指令。
在 IDA中,指令转交控制权的方式叫做流 (flow )。IDA 中有3 种基本流:普通流 、跳转流 和调用流 。
在接下来的讨论中,我们使用以下例子讲解:
int read_it; //integer variable read in main
int write_it; //integer variable written 3 times in main
int ref_it; //integer variable whose address is taken in main
void callflow() {} //function called twice from main
int main() {
int *p = &ref_it; //results in an "offset" style data reference
*p = read_it; //results in a "read" style data reference
write_it = *p; //results in a "write" style data reference
callflow(); //results in a "call" style code reference
if (read_it == 3) { //results in "jump" style code reference
write_it = 2; //results in a "write" style data reference
}
else { //results in an "jump" style code reference
write_it = 1; //results in a "write" style data reference
}
callflow(); //results in an "call" style code reference
}
其汇编代码如下:
.text:00401010 _main proc near
.text:00401010
.text:00401010 p = dword ptr -4
.text:00401010
.text:00401010 push ebp
.text:00401011 mov ebp, esp
.text:00401013 push ecx
.text:00401014 ➒ mov [ebp+p], offset ref_it
.text:0040101B mov eax, [ebp+p]
.text:0040101E ➐ mov ecx, read_it
.text:00401024 mov [eax], ecx
.text:00401026 mov edx, [ebp+p]
.text:00401029 mov eax, [edx]
.text:0040102B ➑ mov write_it, eax
.text:00401030 ➌ call callflow
.text:00401035 ➐ cmp read_it, 3
.text:0040103C jnz short loc_40104A
.text:0040103E ➑ mov write_it, 2
.text:00401048 ➊ jmp short loc_401054
➎.text:0040104A ; -------------------------------------------------------------
.text:0040104A
.text:0040104A loc_40104A: ➏ ; CODE XREF: _main+2C↑j
.text:0040104A ➑ mov write_it, 1
.text:00401054
.text:00401054 loc_401054: ➏ ; CODE XREF: _main+38↑j
.text:00401054 ➌ call callflow
.text:00401059 xor eax, eax
.text:0040105B mov esp, ebp
.text:0040105D pop ebp
.text:0040105E ➋ retn
.text:0040105E _main endp
普通流 (ordinary flow )是一种最简单的流,它表示由一条指令到另一条指令的顺序流。这是所有非分支指令(如 ADD )的默认执行流。除了指令在反汇编代码清单中的显示顺序外,正常流没有其他特殊的显示标志。如果指令 A 有一个指向指令 B 的普通流,那么,在反汇编代码清单中,指令 B 会紧跟在指令 A 后面显示。在上面的汇编代码中,除➊、➋两处的指令外,其他每一条指令都有一个普通流指向紧跟在它们后面的指令。
➌处的 x86 call 指令,它分配到一个调用流(call flow ),表示控制权被转交给目标函数。多数情况下,call 指令同时也是一个普通流,因为大多数函数会返回到 call 之后的位置。如果IDA 认为某个函数并不返回(在分析阶段确定),那么,在调用该函数时,它就不会为该函数分配普通流。调用流通过在目标函数(流的目的地址)处显示交叉引用来表示。callflow 函数的反汇编代码清单如下所 示:
.text:00401000 callflow proc near ; CODE XREF: _main+20↓p
.text:00401000 ; _main:loc_401054 ↓ p
.text:00401000 push ebp
.text:00401001 mov ebp, esp
.text:00401003 pop ebp
.text:00401004 retn
.text:00401004 callflow endp
在这个例子中,callflow 所在的位置显示了两个交叉引用,表示这个函数被调用了两次。除非调用地址有相应的名称,否则,交叉引用中的地址会以调用函数中的偏移量表示。这里的交叉引用分别用到了上述两种地址。由函数调用导致的交叉引用使用后缀 p (看做是Procedure)。每个无条件分支指令和条件分支指令将分配到一个跳转流 (jump flow)。条件分支还分配到普通流,以在不进入分支时对流进行控制。无条件分支并没有相关的普通流,因为它总会进入分支。➎处的虚线表示相邻的两条指令之间并不存在普通流。跳转流与跳转目标位置显示的跳转式交叉引用有关,如➏处所示。与调用式交叉引用一样,跳转交叉引用显示引用位置(跳转的源头)的地址。跳转交叉引用使用后缀 j(看做是Jump)。
数据交叉引用
IDA 中最常用的3 种数据交叉引用分别用于表示某个位置何时被读取、何时被写入以及何时被引用。
下面是与前一个示例程序有关的全局变量,其中包含几个数据交叉引用:
.data:0040B720 read_it dd ? ; DATA XREF: _main+E ↑ r
.data:0040B720 ; _main+25 ↑ r
.data:0040B724 write_it dd ? ; DATA XREF: _main+1B ↑w
.data:0040B724 ➓ ; _main+2E↑ w ...
.data:0040B728 ref_it db ? ; ; DATA XREF: _main+4 ↑ o
.data:0040B729 db ? ;
.data:0040B72A db ? ;
.data:0040B72B db ? ;
读取交叉引用 (read cross-reference)表示访问的是某个内存位置的内容。读取交叉引用可能仅仅源自于某个指令地址,但也可能引用任何程序位置。
全局变量 read_it 在➐处被读取。根据上面代码中显示的相关交叉引用注释,我们可以知道 main 中有哪些位置引用了read_it 。根据后缀r ,可以确定这是一个读取交叉引用。对read_it 的第一次读取是存到ECX寄存器中,所以 IDA 将read_it 格式化成一个双字。全局变量 write_it 在➑处被引用。写入交叉引用使用后缀 w 。值得注意的是,write_it 位置显示的交 叉引用以省略号➓处结束,表明对write_it 的交叉引用数量超出了当前的交叉引用显示限制。你可以通过Options→General对话框中Cross-references 选项卡中的 Number of displayed xrefs(显示的交叉引用数量)设置修改这个限制。第三类数据交叉引用为偏移量交叉引用 (offset cross-reference ),它表示引用的是某个位置的地址(而非内容)。全局变量ref_it 的地址在➒处被引用,因此,在上面的代码中,ref_it 所在的位置显示了偏移量交叉引用(后缀为 o )的注释。
通常,代码或数据中的指针操作会导致偏移量交叉用。例如,数组访问操作一般通过在数组的起始地址上加上一个偏移量来实现。因此,许多全局数组的第一个地址通常可以由偏移量交叉引用来确定。偏移量交叉引用可能源于指令位置或数据位置。
例如,如果一个指针表(如虚表)从表中的每个位置向的地方生成一个偏移量交叉引用,则这种偏移量交叉引用就属于源于程序数据部分的交叉引用。
分析上一篇中类SubClass 的虚表,就可以发现这一点,它的反汇编代码清单如下所示:
.rdata:00408148 off_408148 dd offset SubClass::vfunc1(void) ; DATA XREF: SubClass::SubClass(void)+12 ↑o
.rdata:0040814C dd offset BaseClass::vfunc2(void)
.rdata:00408150 dd offset SubClass::vfunc3(void)
.rdata:00408154 dd offset BaseClass::vfunc4(void)
.rdata:00408158 dd offset SubClass::vfunc5(void)
可以看到,类构造函数SubClass:: SubClass(void) 使用了虚表的地址。函数SubClass:: vfunc3(void) 的标题行如下所示,显示了连接该函数与虚表的偏移量交叉引用。
.text:00401080 public: virtual void __thiscall SubClass::vfunc3(void) proc near
.text:00401080 ; DATA XREF: .rdata:00408150↓o
这个例子证实了 C++ 虚函数的一个特点,结合偏移量交叉引用来考查,这个特点显得尤为明显,即 C++ 虚函数绝不会被直接引用,也绝不应成为调用交叉引用的目标。所有C++ 虚函数应由至少一个虚表条目引用,并且始终是至少一个偏移量交叉引用的目标。最后,回溯偏移量交叉引用是一种有用的技术,可迅速在程序的数据部分定位 C++ 虚表。