【论文速读】| 通过大语言模型从协议实现中推断状态机

图片

本次分享论文:Inferring State Machine from the Protocol Implementation via Large Language Model

基本信息

  • 原文作者:Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao

  • 作者单位:南京大学,奇安信集团,东南大学网络科学与工程学院

  • 关键词:大语言模型, 协议逆向工程, 状态机, 代码分析

  • 原文链接:https://arxiv.org/html/2405.00393v1

  • 开源代码:暂无

论文要点

论文简介:本文提出了一种利用大语言模型(LLM)从网络协议实现中推断状态机的方法。此方法通过文本嵌入技术,使LLM能够深入分析协议实现代码的细节,并通过系统的提示工程识别和推断潜在的状态机。实验结果表明,该方法在六种不同的协议实现中的平均准确率超过90%,且在与协议模糊测试工具AFLNet集成时,能显著提高代码覆盖率。

研究目的:针对动态分析可能因测试覆盖不全而遗漏关键状态转换,以及静态分析在处理复杂代码结构时的挑战,本文提出了一种基于大语言模型(LLM)的状态机推断方法。该方法旨在通过文本嵌入技术和提示工程技术,利用大语言模型的深度理解和代码生成能力,从协议实现代码中准确推断出状态机,以提高协议安全性分析的效率和准确性。

研究贡献:

1. 首次将大语言模型应用于从协议实现中推断状态机的问题,展示了LLM在处理复杂协议实现中的潜力;

2. 开发了一种名为PROTOCOLGPT的工具,自动化推断状态机;

3. 通过一系列实验验证了LLM在提取状态机方面的有效性,使用PROTOCOLGPT揭示了不同实现间的状态机差异,并提高了协议模糊测试工具的效果。

引言

本文首先介绍了状态机在网络协议分析中的重要性,并探讨了传统分析方法的局限性。接着,提出采用大语言模型(LLM)来克服这些限制,通过文本嵌入技术深入分析协议实现代码,并系统地通过提示工程技术推断潜在的状态机。该方法的优势在于能够处理复杂的代码结构,并且通过实验验证,显示出其在协议模糊测试中超过90%的准确率和显著提升的代码覆盖率。

研究背景

在网络协议分析领域,准确提取状态机对于验证协议安全性和理解协议功能是至关重要的。传统的状态机推断方法主要依赖动态分析和静态分析:动态分析受限于测试覆盖范围,而静态分析则难以应对复杂的代码结构。近年来,自然语言处理技术已开始应用于从协议规范文档中提取状态机,但RFC文档的模糊性常常导致不同实现之间的差异,从而增加了协议安全分析的难度。因此,开发一种新的状态机推断方法以应对这些挑战变得尤为重要。

研究动机

随着网络协议的复杂性日益增加,传统状态机推断方法面临众多挑战。尤其是由于RFC文档固有的模糊性,不同开发者可能会采用不同的实现方式应对同一协议规范,导致实现间存在显著差异。这些差异不仅妨碍了状态机的准确推断,还可能成为网络安全的潜在风险点。此外,尽管现有的自然语言处理技术能够从文档中提取信息,但在处理源代码时往往显得不足。因此,本研究旨在利用大语言模型(LLM)的强大代码分析能力,改进状态机推断方法,以提高协议实现分析的准确性和安全性。

图片

PROTOCOLGPT

PROTOCOLGPT是一种创新的工具,它利用大语言模型(LLM)从协议实现代码中推断状态机。通过精细的提示工程和文本嵌入技术,PROTOCOLGPT能够指导LLM深入分析复杂的代码结构,并准确推断出状态机。这款工具不仅提高了状态机推断的准确性,而且通过自动化的代码分析过程显著提升了分析效率。此外,PROTOCOLGPT还集成了代码预处理功能,优化了代码段的分析过程,确保从庞大且复杂的协议实现中高效、准确地提取状态机信息。

图片

实验评估

为验证PROTOCOLGPT的效果,本研究对六种不同的协议实现进行了状态机推断实验。通过比较PROTOCOLGPT、传统方法和未使用代码辅助的LLM模型,实验结果显示PROTOCOLGPT在状态机推断的准确率和效率上均有显著提升,平均准确率超过90%。此外,PROTOCOLGPT推断出的状态机被应用于协议模糊测试工具AFLNet,成功提高了代码覆盖率,进一步证明了其在实际应用中的有效性和实用性。这些实验不仅展示了PROTOCOLGPT的技术优势,也突显了大语言模型在网络协议安全分析中的潜力。

图片

论文结论

本研究成功开发了PROTOCOLGPT工具,该工具融合了大语言模型(LLM)的先进能力,从而有效地从协议实现代码中推断状态机。实验结果证明,PROTOCOLGPT能够准确地从复杂的协议代码中提取状态机,其准确性和效率均优于传统方法。

此外,PROTOCOLGPT在提升协议模糊测试工具AFLNet的代码覆盖率方面也取得了显著效果。这表明,利用LLM进行状态机推断不仅能提升网络协议分析的质量,还能增强网络安全防护的能力。本研究为未来网络协议分析与安全领域提供了新的思路和工具。

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/699623.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AIHub导航

4、 AIHub https://www.aihub.cn/tools/llm/

CMake的学习之路

目录 一、基础命令 二、编译选项和设置 三、文件和目录操作 四、控制流命令 五、其他命令 六、CMake构建级别 CMake是一个跨平台的自动化建构系统,它使用一种人类可读的配置文件(CMakeLists.txt)来控制软件编译过程。以下是CMake中的一些…

Python报表需求处理示例

单一文件下,相关主题的共128张字段结构相似的表,对一种需求用Excel手工编辑相当麻烦,下面介绍一种python做自动化报表示例及代码流程。 每张表均有相同的字段结构,因此可对该文件下所有表格同时操作,大大提高了计算效率…

公用nacos,实现只调用本机相应服务,不出现负载均衡到别人机器上

当我们有两个研发同时在调试一个微服务模块时,你和对方本地都会启动服务,这就导致在nacos会同时注册两个实例。默认情况下请求这个服务,具体处理请求的程序会在你和对方之间来回轮询,即一下你的服务一下对方的服务。 其结果就导…

(三十八)Vue之插槽Slots

文章目录 插槽介绍插槽分类默认插槽具名插槽条件插槽动态插槽名 作用域插槽默认作用域插槽具名作用域插槽 上一篇:(三十七)vue 项目中常用的2个Ajax库 插槽介绍 在之前的文章中,我们已经了解到组件能够接收任意类型的值作为 prop…

bmp转jpg怎么转?给你介绍几种将bmp转成jpg的方法

bmp转jpg怎么转?首先,了解BMP和JPG两种格式的特点对于转换过程非常重要。BMP格式以无损方式存储图像数据,这意味着它可以保留图像的每个像素信息,但文件大小较大。而JPG格式则使用有损压缩算法,可以将文件大小大大减小…

ARM32开发--PWM通道输出

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 文章目录 前言 内容 需求 通用定时器多通道 开发流程 多通道配置 占空比更新 完整代码 高级定时器通道输出 开发流程 通道配置 Break配置 完整代码 总结 前言 加强掌握…

【Python】Flask问答系统Demo项目

学习视频 我是跟着知了传课学的Flask,起初了解Flask还是GPT告诉我的,现在可以说用Flask做后端是真的方便! https://www.bilibili.com/video/BV17r4y1y7jJ 项目结构与下载 FlaskOA(项目文件夹) │ app.py │ conf…

性能测试------LoadRunner 详解

性能测试------LoadRunner的使用 一、什么是LoadRunner LoadRunner是一款由Micro Focus(以前是Hewlett-Packard或HP公司)开发的性能测试工具。它用于测试和分析系统在负载下的行为和性能。具体来说,LoadRunner可以模拟数千名用户同时访问应…

r语言数据分析案例26-美元兑换欧元汇率分析与研究

一、研究背景: 汇率是国际贸易和金融中最重要的价格之一,它直接影响着各国的经济利益和国际竞争力。美元兑换欧元汇率是全球最重要的汇率之一,它的波动对全球经济和金融市场都有着深远的影响。因此,对美元兑换欧元汇率的分析和研…

树莓派4B_OpenCv学习笔记5:读取窗口鼠标状态坐标_TrackBar滑动条控件的使用

今日继续学习树莓派4B 4G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 版本是4.5.1: 今日学习:读取窗口鼠标状态坐标_TrackBar滑动条控件的使…

华为机考入门python3--(35)牛客35-蛇形矩阵

分类:蛇形矩阵 知识点: 取出每行中非零的数字 row [str(num) for num in matrix[i] if num ! 0] 题目来自【牛客】 def generate_snake_matrix(n):# 初始化一个NN的矩阵matrix [[0] * n for _ in range(n)] start 1# i为行,&#xf…

国内著名的四个“大模型”

关于您提到的国内四大模型,这里为您详细介绍: 文心大模型:文心大模型是百度自主研发的产业级知识增强大模型。它以创新性的知识增强技术为核心,从单模态大模型发展到跨模态,从通用基础大模型到跨领域、跨行业&#xff…

Flutter打包网络问题解决办法

问题情况":app:compileReleaseJavaWithJavac" 报错的最主要问题其实在下一句 Failed to find Build Tools revision 30.0.3,请查看自己的Android sdk版本,比如我的就是’34.0.0’版本. 解决办法: 在app/build.gradle中的android下添加,即可 buildToolsVersion 3…

理解查准率P、查全率R及Fβ度量怎么得来的

如果得到的是一组样本在两个算法上的一次预测结果,其中每个样本都被赋予了一个为正样本的概率(例如,通过逻辑回归或朴素贝叶斯分类器得到的概率估计),那么可以通过改变不同的阈值点来利用这些预测结果画出PR曲线。 如果…

SpringBoot基础配置文件

在SpringBoot当中, 所有的配置文件都将会被配置在application.preperties当中 一: 配置服务器端口 只需要在相应的properties当中输入, 修改我们的端口号即可 server.port80 二: 修改banner #设置 将我们的Banner不再进行显示, 或者是也可以让其在控制台当中显示, 或者是日…

02 DHCP原理与配置

目录 2.1 DHCP工作原理 1. 了解DHCP服务 2. 使用DHCP的好处 3. DHCP的分配方式 4. DHCP的租约过程 1. 客户机请求IP地址 2. 服务器响应 3. 客户机选择IP地址 4. 服务器确定租约 5. 重新登录 6. 更新租约 2.2 使用DHCP动态配置主机地址 2.2.1 配置DHCP服务器 1. 安装DHCP服务器…

ADS加不上路由的若干可能性与问题查找方法

文章目录 一.查询本机ip地址二. PIN ip地址 一.查询本机ip地址 用鼠标点击开始——运行(或者快捷键winR)、弹出【运行】对话框、在窗口中输入cmd,如下图所示: 输入ipconfig/all查找局域网当中的本机ip地址 在浏览器中打开百度…

Android Studio gradle下载失败

Android Studio下载Gradle插件总是出现网络超时问题。 解决办法: 替换为国内版本的镜像。 推荐使用国内腾讯的镜像: Index of /gradle/ 例如:gradle-8.0镜像: https://mirrors.cloud.tencent.com/gradle/gradle-8.0-bin.zip…

文案策划日常大公开:掌握这些技巧,让你工作效率翻倍

本周的工作和生活安排得满满当当,但这些看似繁重的任务,其实都是我利用碎片化时间高效完成的。 这里和大家分享一下,我是如何在这忙碌的一周中,既完成本职工作又享受生活的。 本周工作日常汇总: 1. 品牌小红薯笔记&…