webshell检测方式深度剖析 --- Pixy系列二(数据流分析)

开篇

书接上文,这次我们来聊聊数据流分析,数据流分析的内容非常广泛,我们力求深入浅出通俗易懂,在简短的篇幅内将这一概念描述清楚。

简单来说,数据流分析是一种用来获取相关数据沿着程序执行路径流动的信息分析技术,分析对象是程序执行路径上的数据流动或数据可能的取值,最早用于编译优化过程中。由于程序数据流的某些特点和性质与程序漏洞紧密相关,比如在SQL注入漏洞中,检测系统需要知道某个变量的取值是否源自某个可信的数据源,比如在缓冲区溢出漏洞中,需要获得内存操作长度的可能取值范围来判断是否存在缓冲区溢出漏洞,所以数据流分析也成为了一种重要的漏洞分析技术。数据流分析技术除了可以直接应用于漏洞分析,对多种程序漏洞或者缺陷进行分析和检测,还可以作为漏洞分析的支撑技术,为其它漏洞分析方法提供重要的数据支持。

如前所述,数据流分析是从程序执行路径上获取相关数据信息,所以它依赖于程序的执行路径,而描述程序执行路径的最有效工具就是控制流图(control flow graph,CFG)。下面我们就先从CFG开始讲起。

控制流图

控制流图是一种有向图G = (N,E,entry,exit)。其中:

  • N是节点集,每个节点对应程序中的一条语句、一个条件判断或一个控制流汇合点;
  • 边集E = {<s1,s2> | s1,s2 ∈ N且s1执行后可能立即执行s2};
  • entry和exit分别是控制流图的唯一入口节点和唯一出口节点;

控制流图是具有单一入口节点和出口节点的有向图。对于非单入口和单出口的程序,可以通过添加统一入口和出口的方法解决。控制流图的节点可以分为如下5类:

  • entry节点:唯一的入口节点,具有0个前驱和1个后继;
  • exit节点:唯一的出口节点,具有1个前驱和0个后继;
  • 顺序节点:对应程序中的顺序执行语句,具有1个前驱和1个后继;
  • 分支节点:对应程序中的条件判断,具有多个后继;
  • 汇合节点:对应程序中的控制流汇合点,具有多个前驱;
    在这里插入图片描述

基本块

控制流分析都是基于控制流图的基本块(BB,basic block)来进行的。基本块是程序顺序执行的语句序列,只有一个入口和一个出口,入口是其中的第一个语句,出口是其中的最后一个语句。具体而言,只有一个入口表示程序中不会有其它任何地方能通过jump跳转类指令进入此基本块,只有一个出口表示只有该基本块的最后一条语句能导致进入其它基本块去执行。只要基本块中的第一条语句被执行了,那么该基本块内的所有语句都会被执行一次。

BB1:
  t:=2 * x
  y:=t + x
  Goto BB2 

如果从 BB1 的最后一条指令是跳转到 BB2,那么从 BB1 到 BB2 就有一条边。
一个函数(或过程)里如果包含多个基本块,可以以基本块为单位表达为一个 CFG。
在这里插入图片描述

数据流分析

很多代码优化的场景都使用了数据流分析技术,比如代数优化、常数折叠、删除不可达的基本块等等。接下来,我们以代码优化中的“活跃性分析”为例,来简要说明数据流分析的一般过程,最后总结出数据流分析的一个统一框架。

活跃性分析

在代码优化中,活跃性分析(Liveness Analysis)是一种静态分析技术,用于确定程序中哪些变量在某个特定点上是“活跃”的,即这些变量在该点之后的代码中仍然会被使用。我们说一个变量是活的,意思是它的值在改变前,会被其他代码读取。

活跃性分析可以帮助编译器进行一些优化,比如死代码删除。如果一个变量在其后的程序中再也不会被使用,那么这个变量就可以被认为是“死的”(dead),编译器可以直接移除这些没有实际用处的变量。
在这里插入图片描述

考虑上面的CFG,我们从最底下的基本块开始,倒着向前计算活跃变量的集合(也就是从基本块 5 倒着向基本块 1 计算)。这里需要注意,对基本块 1 进行计算的时候,它的输入是基本块 2 的输出,也就是{a, b, c},和基本块 3 的输出,也就是{a, c},计算结果是这两个集合的并集{a, b, c}。也就是说,基本块 1 的后序基本块,有可能用到这三个变量。这里在分支相遇时求输出的运算,即应用了之前讲过的格理论。
在这里插入图片描述

本质为计算上述格中两个节点的最小上界。你可能会奇怪,不就是集合运算吗?两个分支相遇,就计算它们的并集,不就可以了吗?事情没那么简单。因为并不是所有的数据流分析,每个语句计算后的结果都是一个集合,就算是集合,相交时的运算也不一定是求并集,而有可能是求交集。
在这里插入图片描述
基于这个分析图,我们马上发现 y 变量可以被删掉(因为它前面的活变量集合{x}不包括 y,也就是不被后面的代码所使用),并且影响到了活跃变量的集合。
在这里插入图片描述

删掉 y 变量以后,从下向上再继续优化一轮,会发现 d 也可以删掉。

在这里插入图片描述

d 删掉以后,2 号基本块里面已经没有代码了,也可以被删掉,最后的 CFG 是下面这样:
在这里插入图片描述

数据流分析框架

首先我们来总结一下上面的活跃性分析过程:

  • 我们首先做一个从下向上的反向扫描,建立活变量的集合;
  • 接着,我们从下向上分析每个活变量集合,识别出死变量,并依据它删除给死变量赋值的代码。
  • 上述优化可能需要做不止一遍,才能得到最后的结果。

我们可以把上面的过程用更加形式化的方式表达出来。无论是活跃性分析,还是其它数据流分析方法,都可以看做是由下面 5个元素构成的:

  • D(方向):是朝前还是朝后遍历。
  • V(值):代码的每一个地方都要计算出一个值。活跃性分析的值是一个集合,也有些分析的值并不是集合,而是具体的取值。
  • F(转换函数,对 V 进行转换):比如,在做活跃性分析的时候,基本块输入的活跃变量集合为{x},基本块内遇到x:=a+b,那么基本块的输出活跃变量集合变为{a,b}。这里遵守的转换规则是:因为变量x被重新赋值了,那么就从集合里,把变量x去掉,并把给x赋值的右侧表达式中用到的变量添加进集合。
  • I(初始值,是算法开始时 V 的取值):在做活跃性分析的时候,初始值是后面代码中还会访问的变量,也就是活变量集合。
  • Λ运算:在遇到分支的情况下,两个或多个分支相遇的时候,要做一个运算,计算他们相交的值。比如活跃性分析的场景下是求并集,其它分析可能是其它的运算。这里需要使用之前讲过的“格”理论进行计算。

总结

将数据流分析作为主要分析技术的漏洞分析系统常常具有分析速度快、精度良好等特点,因此非常适用于对大规模程序代码进行分析。

在使用数据流分析方法对程序继续分析时,我们总是一方面追求精确的分析,另一方面希望分析过程不会耗费大量的空间和时间。怎样在效率和精度上进行折中处理,是自始至终都要考虑的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/286663.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ROS学习笔记(7)进一步深入了解ROS第一步

0.前提 最近在学习宾夕法尼亚大学工程学院的ROS公开课&#xff0c;在尽力的去融入全英语的环境&#xff08;哪怕我的英语水准并不是很高&#xff09;。既然是在学习&#xff0c;笔记也就是必须的了&#xff0c;当然这些笔记都是课程当中提出的问题&#xff0c;我去寻找后得出的…

EDI 项目推进流程

EDI 需求确认 交易伙伴发来EDI对接邀请&#xff0c;企业应该如何应对&#xff1f; 首先需要确认EDI需求&#xff0c;通常包括传输协议和报文标准以及传输的业务单据类型。可以向交易伙伴发送以下内容&#xff1a; &#xff08;中文版&#xff09; 与贵司建立EDI连接需要使用…

案例086:基于微信小程序的影院选座系统

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder X 小程序…

七功能遥控编解码芯片

一、基本概述 TT6/TR6 是一对为遥控玩具车设计的 CMOS LSI 芯片。TT6 为发射编码芯片&#xff0c;TR6 为接收解码芯片。TT6/TR6 提供七个功能按键控制前进、后退、左转、右转、加速、独立功能 F1,独立功能 F2 的动作。除此以外&#xff0c;还有这五种常规小车功能&#xff08;…

Spring MVC - Controller的创建与使用

控制器Controller是处理器&#xff0c;是真正处理请求的组件 1 创建Controller 一般在src/main/java/com/qdu下建立一个controller包用来存放所有控制器。当创建一个控制器时&#xff0c;首先要记得使用Controller标记将该类注册成为一个控制器类。 然后在SpringMVCConfig类…

PostgreSQL数据库的json操作

1.操作符 select json字段::json->key值 from order -- 对象域 select json字段::json->>key值 from order -- 文本 select json字段::json#>{key值} from order -- 对象域 select json字段::json#>>{key值} from order -- 文本对象域表示还能继续操作&#…

《MySQL系列-InnoDB引擎02》InnoDB存储引擎介绍

文章目录 第二章 InnoDB存储引擎1 InnoDB存储引擎概述2 InnoDB存储引擎的版本3 InnoDB体系架构3.1 后台线程3.2 内存 4 Checkpoint技术5 Master Thread 工作方式5.1 InnoDB 1.0.x版本之前的Master Thread5.2 InnoDB 1.2.x版本之前的Master Thread5.3 InnoDB 1.2.x版本的Master …

Windows下使用wireshark抓取usb数据

参考&#xff1a;使用Wireshark获取USB数据&#xff08;https://blog.csdn.net/2301_76293276/article/details/133791136&#xff09; 文章目录 安装wireshark运行wireshark筛选所需连接设备数据 安装wireshark 直接官网下载wireshark&#xff08;https://www.wireshark.org…

关于“Python”的核心知识点整理大全57

目录 3. 模板edit_entry edit_entry.html 4. 链接到页面edit_entry topic.html 19.2 创建用户账户 19.2.1 应用程序 users 1. 将应用程序users添加到settings.py中 settings.py 2. 包含应用程序users的URL urls.py 19.2.2 登录页面 urls.py 1. 模板login.html log…

Git原理与使用(二):分支管理

Git原理与使用[二]:分支管理 一.分支的基本操作1.理解分支2.创建分支3.切换分支4.删除分支5.补充:创建并切换分支 二.合并分支1.合并分支的基础操作2.分支冲突 三.分支管理策略1.Fast-forward模式2.--no--ff(即:禁用Fast-forward模式)3.分支策略 四.创建临时分支修复bug1.git s…

NSSCTF 1zjs

开启环境: 搞就完事了,别玩魔法! 源码打开 点击访问:./dist/index.umd.js" 搜索php,找到23条相关的,注意到有一个特别的信息: PERFORMANCE OF THIS SOFTWARE.Your gift just take it : /fk3f1ag.php 访问: node4.anna.nssctf.cn:28325/fk3f1ag.php 得到这样: ([![]…

【Java 21 新特性】顺序集合(Sequenced Collections)

1 摘要 引入新的接口表示具有定义的遇到顺序的集合。每个这样的集合都有一个明确定义的第一个元素、第二个元素&#xff0c;依此类推&#xff0c;直到最后一个元素。提供统一的API来访问它的第一个和最后一个元素&#xff0c;并以相反的顺序处理它的元素。 "生活只能向后…

【算法与数据结构】968、LeetCode监控二叉树

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引&#xff0c;可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析&#xff1a;本题的一共有两个难点&#xff0c;一个在于如何遍历二叉树&#xff08;前中后遍历&#xff0c;选择什么…

MySQL 时间日期函数,流程控制函数,加密解密函数以及聚合查询函数

注:本文仅作为查找函数和部分理解使用,希望能给大家带来帮助 以下函数均可以使用 SELECT NOW()等函数 FROM DUAL;来测试 //其中dual是一个准们用来测试的测试表 1.时间日期函数 1.1 获取时间的函数 重点记忆前三个红色标注的函数, 第一个函数返回值如2024-01-02的形式 第二个如…

如何使用curl在PHP中同时上传文件和其他数据?

问CHAT&#xff1a;举个例子说明如何使用curl在PHP中同时上传文件和其他数据&#xff1f; CHAT回复&#xff1a;以下例子为&#xff1a; php <?php $url http://www.example.com/path/; $filename path/to/your/file.png; $fields array( fieldParam1 > someValue, …

C++摸版(初阶)----函数模版与类模版

本专栏内容为&#xff1a;C学习专栏&#xff0c;分为初阶和进阶两部分。 通过本专栏的深入学习&#xff0c;你可以了解并掌握C。 &#x1f493;博主csdn个人主页&#xff1a;小小unicorn ⏩专栏分类&#xff1a;C &#x1f69a;代码仓库&#xff1a;小小unicorn的代码仓库&…

Mac环境下反编译apk

Mac环境下反编译apk 安装反编译工具dex2jar&#xff1a;[官网下载](https://sourceforge.net/projects/dex2jar/)JD-GUI&#xff1a;[官网下载](https://jd-gui.apponic.com/) 实操1. 将需要反编译的 .apk 文件放在下载的 dex2jar 文件夹目录下2. 使用 cd /xxx/dex2jar-2.0 命令…

深度生成模型之GAN的评估 ->(个人学习记录笔记)

文章目录 深度生成模型之GAN的评估图像翻译的应用1. 风格迁移2. 数据增强3. 经典图像任务4. 内容创作5. 人脸图像编辑6. 人体图像编辑 图像翻译模型1. 有监督图像翻译模型2. 无监督图像翻译模型3. 多域图像翻译模型 深度生成模型之GAN的评估 图像翻译的应用 1. 风格迁移 各类…

120基于matlab的LMS自适应滤波算法

基于matlab的LMS自适应滤波算法&#xff0c;如、解相关LMS算法&#xff0c;滤波型LMS算法&#xff0c;变换域LMS算法&#xff0c;输出滤波前后及学习曲线图。数据可更换自己的&#xff0c;程序已调通&#xff0c;可直接运行。 120自适应滤波算法变换域LMS算法 (xiaohongshu.com…

k8s的陈述式管理

k8s的陈述式管理&#xff1a; 所谓的陈述式管离也就是命令行工具 优点&#xff1a;90%以上都可以满足 对资源的增删查比较方便&#xff0c;对改不是很友好 缺点&#xff1a;命令比较冗长&#xff0c;复杂&#xff0c;难记 声明式&#xff1a; k8s当中的YAML文件来实现资源管…