阅读笔记:Virtual Compiler Is All You Need For Assembly Code Search
1. 研究背景
- 逆向工程:逆向工程需要在庞大的二进制文件中快速定位特定功能(例如恶意行为)。传统方法依赖于经验和启发式算法,效率低下。
- 汇编代码搜索:通过自然语言搜索汇编代码功能,能够更高效地处理二进制文件。
- 数据集构建挑战:构建汇编代码搜索数据集困难重重,涉及复杂的编译过程,容易因编译失败而产生大量数据损失。
2. 研究动机
- 虚拟编译器 (ViC):通过将CodeLlama模型继续预训练为虚拟编译器,使其可以虚拟编译任意源代码为汇编代码。这一方式可以扩大数据集规模,提升汇编代码搜索效果。
3. 研究贡献
- 虚拟编译器引入:提出了虚拟编译器ViC,克服了传统编译方法中的障碍,生成了多样性强、规模大的汇编代码数据集。
- 汇编代码搜索性能提升:构建了高质量的汇编代码数据集,模型在汇编代码搜索任务中性能提升了26%。