【人工智能】—XGBoost算法在构建互联网防火墙异常行为识别模型应用案例

摘要: 近年来,各地党委、政府加快推进新型工业化,部署实施制造强市战略,提出工业企业“智改数转”是推动全市工业经济稳增长的重要引擎,更是稳增长、促发展的重要抓手。今天博主就以互联网防火墙异常行为识别为例给大家介绍一种“智改数转”普遍运用于数字制造新型工业化的强大算法。

关键词: XGBoost, 异常行为识别,互联网安全,机器学习

READY GO!

随着互联网技术的飞速发展,网络攻击手段也日益多样化和隐蔽化。传统的防火墙技术虽然在一定程度上能够防御常见的网络威胁,但对于新型的、复杂的攻击模式,其识别能力往往显得力不从心。为了应对这一挑战,越来越多的研究者开始将目光投向机器学习领域,尤其是那些能够处理高维数据集并具有较强泛化能力的算法,如XGBoost。

XGBoost,即eXtreme Gradient Boosting,是一种基于梯度提升决策树的集成学习算法。它通过构建多个弱预测模型,并将它们组合起来,以提高整体模型的预测准确性。XGBoost在处理分类和回归问题时表现出色,尤其是在需要处理大量特征和复杂数据结构的场景中。

在构建互联网防火墙异常行为识别模型时,XGBoost算法的优势主要体现在以下几个方面:

  • 高效率:XGBoost算法优化了传统梯度提升算法的计算过程,提高了模型训练的速度。
  • 高准确性:通过正则化项的引入,XGBoost能够在保持模型复杂度的同时,减少过拟合的风险。
  • 可扩展性:XGBoost支持并行处理,能够高效地处理大规模数据集。
    灵活性:XGBoost提供了丰富的参数设置,允许用户根据具体问题调整模型性能。

基本组成元素:

  • 决策树:XGBoost的基本组成元素是决策树,这些决策树作为“弱学习器”共同组成了XGBoost模型。每棵决策树都有先后顺序,后一棵树会考虑前一棵树的预测结果,并调整样本分布来训练下一棵决策树。

整体思路:

  • 训练过程:从目标函数出发,通过计算目标函数增益选择特征,再使用加权分位法确定分裂点,建立决策树。不断重复该算法直到所有特征都被使用或达到限定层数。
  • 测试过程:输入特征依次进入每棵决策树,每棵树的节点给出预测权值,最后将所有预测权值相加得到最终结果。

目标函数:

  • 最初的目标函数:设定第t个决策树的目标函数,包括样本损失函数、前t-1棵树的预测值、第t棵树的模型复杂度(正则化项)。
  • 推导:通过泰勒展开公式进行简化,保留一阶和二阶导数信息,去掉常数项,从而得到简化版的目标函数。

特征划分准则:

  • 信息增益:根据目标函数的最优解,确定特征划分准则。通过计算每个特征划分点的信息增益,选择最佳分割点。
  • 加权分位法:为了提高算法效率,采用加权分位法寻找最佳分割点,并对每个特征的重要性进行排序。

优缺点:

  • 优点:XGBoost具有高精度、灵活性强、防止过拟合、处理缺失值和并行化操作等优点。
  • 缺点:尽管XGBoost在许多方面表现出色,但在处理极其大规模数据时可能相对简单,超参数调优也可能需要大量计算资源和时间。

总的来说,XGBoost通过一系列精确的设计和优化措施,显著提升了模型的性能和计算速度。在实际应用中,合理调优XGBoost的各个超参数能够进一步提高模型的精度和泛化能力。

应用领域:

  • 金融行业:XGBoost在金融风控领域被用于信用卡欺诈检测、信贷审批、保险定价等,基于用户特征构建风险预测模型,以识别潜在的风险和欺诈行为。
  • 医疗保健:在医疗领域,XGBoost被用于疾病诊断、疾病发生风险预测、疾病转归与预后评估、合理安全用药指导以及药物研发等,提高决策效率和质量。
  • 推荐系统:在电商、新闻媒体等行业中,XGBoost用于构建推荐系统,预测用户对商品或内容的点击率、购买率或评分,以提供个性化推荐。
  • 生物信息学:XGBoost在基因表达数据分析、疾病基因研究和药物发现中应用,帮助科学家挖掘生物标志物,构建精确的诊断或预后模型。
  • 制造业:在制造业中,XGBoost可以用于产品缺陷检测、质量控制、预测设备维护需求等,优化生产流程和降低成本。
  • 教育:XGBoost在教育领域中用于分析学生数据,预测学生的成绩、辍学率等,帮助教育机构优化教学策略。
  • 广告技术:在广告投放中,XGBoost用于预测广告的点击率,帮助企业优化广告投放策略,提高广告效果。
  • 网络安全:XGBoost也被应用于网络安全领域,用于异常行为检测、入侵检测系统等,提高系统的安全性。
  • 能源行业:在能源领域,XGBoost可以用于预测能源消耗、优化能源分配、预测设备故障等。
  • 汽车行业:在汽车行业中,XGBoost可以用于预测汽车销量、优化供应链管理、车辆故障预测等。
  • 电信行业:XGBoost在电信行业中用于客户流失预测、网络优化、服务质量管理等。

数据集介绍

数据集来源于kaggle,由美国大学防火墙收集的一些互联网流量纪录,数据65532行,12列。

数据特征():
我不想去一个一个翻译打字了,网上搜的数据列名,英文可能会有一点小出入,中文大体应该是对的。

  1. 协议类型 (Protocol Type):网络通信使用的协议类型,例如TCP、UDP等。
  2. 源IP (Source IP):发起网络连接的源头IP地址。
  3. 源端口 (Source Port):发起连接的源头端口号。
  4. 目标IP (Destination IP):网络连接的目标IP地址。
  5. 目标端口 (Destination Port):网络连接的目标端口号。
  6. 攻击状态 (Attack Type):标记当前记录是否为异常攻击行为,通常是分类标签。
  7. 协议 (Protocol):详细描述协议的种类,如http、ftp等。
  8. 服务 (Service):标识所使用服务的类型,如private、ecr_i等。
  9. 登录失败的次数 (Failed Login Attempts):记录在当前会话中登录尝试失败的次数。
  10. 登录尝试 (Login Attempts):记录在当前会话中的总登录尝试次数。
  11. 数据发送量 (Data Sent):从源到目的地发送的数据总量,单位通常为字节。
  12. 数据接收量 (Data Received):从目的地返回到源的数据总量,单位通常为字节。

加载数据

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 
import plotly as py
import plotly.graph_objs as go
from plotly.offline import iplot
import plotly.express as px
from sklearn.cluster import KMeans
import warnings
import os
warnings.filterwarnings("ignore")
plt.rcParams ['font.sans-serif'] ='SimHei'      #显示中文
plt.rcParams ['axes.unicode_minus']=False       #显示负号
df = pd.read_csv('Firewall.csv')
df.head()

显示前五行数据:
在这里插入图片描述简单说明一下数据情况,Action列不是数字类型,该列为目标变量也是就原始结果,等会儿需做特征工程,因为机器学习计算机是不认识数字以外的数值。

开始眼神交流,主要需要描述的东西太多了,实在不想打字。
在这里插入图片描述

在这里插入图片描述在这里插入图片描述上图作个简要说明,原始数据有65532行,经过清洗发现数据有8362行数据为重复值,最后删除后最终数据为57170行。

iplot(px.bar(  
    df['Action'].value_counts(),  
    labels={'value':'数量', 'name':'类型'},  # 设置图表的标签  
    color=df['Action'].value_counts().index,  # 设置每个柱子的颜色为其对应的名称  
    text_auto=True,  # 自动将计数值添加到柱子上  
    title='互联网防火墙行为类型目标变量分布图'  # 设置图表的标题  
))  

在这里插入图片描述
上图为目标变量分布图,也就是是否标记为攻击行为,第一个是允许访问,第二个为拒绝访问,第三是其它,第四个数据太少了忽略。图上的k代表千为单位,比如第一个数量应该为37640.

int_1 = df.drop('Action', axis=1)
fig = plt.figure(figsize=(20,18))
sns.heatmap(int_1.corr(),vmax=1,annot=True,linewidths=0.5,cbar=False,cmap='YlGnBu',annot_kws={'fontsize':18})
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.title('互联网防火墙数据特征相关系数矩阵热图',fontsize=25)
plt.savefig('/Users/c/Desktop/heatmap_correlation_matrix.png', dpi=300)
plt.show()

在这里插入图片描述

特征工程

在这里插入图片描述将英文用数字0、1、2、3替换成分类数据,代表4类值,和柱状图保持一致。

开始机器学习

# 准备用于创建模型的数据
from sklearn.model_selection import train_test_split
X = df.drop('Action', axis=1)
y = df["Action"]
# 划分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)
print('训练集大小:',X_train.shape[0])
print('测试集大小:',X_test.shape[0])

在这里插入图片描述

# 构建逻辑回归模型
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(X_train,y_train)
print('逻辑回归模型准确率:',lr.score(X_test,y_test))

在这里插入图片描述

# 构建KNN模型
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train,y_train)
print('KNN模型准确率:',knn.score(X_test,y_test))

在这里插入图片描述

# 构建xgboost模型
from xgboost import XGBClassifier
xgb = XGBClassifier()
xgb.fit(X_train,y_train)
print('xgboost模型准确率:',xgb.score(X_test,y_test))

在这里插入图片描述可以看到XGBoost模型准确率达到了99.9%,我们就选本文的主角进行模型评估。

模型评估:

from sklearn.metrics import r2_score,confusion_matrix,classification_report,auc,roc_curve
# 模型评估
y_pred = xgb.predict(X_test)
print('模型的R平方值','\n', r2_score(y_test,y_pred))
print('模型混淆矩阵:','\n',confusion_matrix(y_test,y_pred))
print('模型分类报告:','\n',classification_report(y_test,y_pred))

在这里插入图片描述
怎样看上图,下面有解释:

R方值(R-squared, R²):
R方值(也称为决定系数)是回归问题中常用的一个评估指标,它表示模型预测的响应变量与真实响应变量之间的相关性。
R²的值范围在0到1之间,值越接近1表示模型拟合得越好。
如果R²为0,表示模型没有解释任何响应变量的变异;如果R²为1,表示模型完美地解释了响应变量的变异。
混淆矩阵(Confusion Matrix):
混淆矩阵是分类问题中常用的一个评估工具,用于展示模型分类结果的分布情况。
它包括真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)四个指标。
通过混淆矩阵,我们可以计算准确率、精确率、召回率等更具体的评估指标。
分类报告(Classification Report):
分类报告是一个包含了精确率(Precision)、召回率(Recall)、F1分数(F1-score)和支持度(Support)等评估指标的文本报告。
这些指标有助于我们更全面地了解模型在每个类别上的表现。

如何解释评估结果:

对于R方值,您可以直接查看其值来判断模型拟合的好坏。例如,如果R²为0.9964,那么模型解释了响应变量99.6%的变异。
对于混淆矩阵,您需要查看每个类别的真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)的数量。这些数字可以帮助您了解模型在哪些类别上表现较好,哪些类别上表现较差。
对于分类报告,您可以查看每个类别的精确率、召回率和F1分数。精确率表示模型预测为正例的样本中真正为正例的比例;召回率表示真正为正例的样本中被模型预测为正例的比例;F1分数是精确率和召回率的调和平均数,用于综合考虑这两个指标。

# 打印特征重要性评分    
# 获取训练数据X_train的列标签,即特征名称  
feat_labels = X_train.columns[0:]  # feat_labels 是一个包含所有特征名称的列表    
# 获取XGBoost模型的特征重要性评分  
importances = xgb.feature_importances_  # importances 是一个数组,包含了每个特征的重要性评分    
# 对特征重要性评分进行排序,得到排序后的索引  
indices = np.argsort(importances)[::-1]  # np.argsort 返回排序后的索引,[::-1] 将其反转,使得最重要的特征排在前面    
# 初始化两个列表,用于存储排序后的特征名称和重要性评分  
index_list = []  
value_list = []    
# 循环遍历每个特征和其对应的索引  
for f, j in zip(range(X_train.shape[1]), indices):  
    # 将特征名称和重要性评分添加到对应的列表中  
    index_list.append(feat_labels[j])  # 根据排序后的索引j,从feat_labels中获取特征名称  
    value_list.append(importances[j])  # 根据排序后的索引j,从importances中获取重要性评分        
    # 打印当前特征和其重要性评分(索引从1开始,因为通常我们不说第0个特征)  
    print(f + 1, feat_labels[j], importances[j])    
# 创建一个新的图形,并设置其大小  
plt.figure(figsize=(10,6))    
# 使用水平条形图绘制特征重要性评分  
# 注意这里我们对index_list和value_list使用了[::-1],以确保最重要的特征在图的顶部  
plt.barh(index_list[::-1], value_list[::-1])    
# 设置y轴标签的字体大小  
plt.yticks(fontsize=12)    
# 设置图形的标题和字体大小  
plt.title('各特征重要程度排序', fontsize=14)    
# 显示图形  
plt.show()

在这里插入图片描述
从上图可以看出各特征重要程度排名最多的是“尝试登录”,说明Haker也不是一次就能成功的。

模型预测:

# 模型预测
res = pd.DataFrame()
res['真实值'] = y_test
res['预测值'] = y_pred
res.sample(10)

在这里插入图片描述可以看到我构建了一个有数据行数、真实值、预测值的二维表格,随机抽取10条数据,所有数据预测完全准确(上图的0、1、2就是上面特征工程处理的英文类别,可以在上面一一对应)。

小结

在当今的数据驱动时代,XGBoost算法以其卓越的性能和效率,在众多行业中发挥着重要作用。从金融风控到医疗诊断,从个性化推荐到网络安全,XGBoost的应用案例证明了其解决复杂预测问题的非凡能力。随着技术的不断进步,我们可以预见XGBoost将继续扩展其应用边界,为更多行业带来深远的变革。对于数据科学家和行业从业者而言,深入理解XGBoost的原理和应用,将有助于他们在未来的工作中更好地利用这一强大的工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/735882.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

js实现canvas截图功能

关键代码 使用canvas的导出功能和drawImage函数 class CropShape{cropShape(shape){let {x,y,w,h} shapeconsole.log(x,y,w,h)const roiCanvas document.createElement(canvas);document.getElementById(app).append(roiCanvas)const roiCtx roiCanvas.getContext(2d);roi…

CTO的职责是什么?

看《架构思维》作者是这样讲的: CTO 到底是做什么的? 我当下的答案是:“CTO 就是一个从技术视角出发,为公司或者所在的部门做正确决策的 CEO。”怎么理解这句话呢?作为一个 CTO,其长期目标和决策优先级与…

vscode用vue框架2,续写登陆页面逻辑,以及首页框架的搭建

目录 前言: 一、实现登录页信息验证逻辑 1.实现登录数据双向绑定 2.验证用户输入数据是否和默认数据相同 补充知识1: 知识点补充2: 二、首页和登录页之间的逻辑(1) 1. 修改路由,使得程序被访问先访问首页 知识点补充3&am…

经典机器学习方法(7)—— 卷积神经网络CNN

参考:《动手学深度学习》第六章 卷积神经网络(convolutional neural network,CNN)是一类针对图像数据设计的神经网络,它充分利用了图像数据的特点,具有适合图像特征提取的归纳偏置,因而在图像相…

信息安全基础知识(完整)

信息安全基础知识 安全策略表达模型是一种对安全需求与安全策略的抽象概念表达,一般分为自主访问控制模型(HRU)和强制访问控制模型(BLP、Biba)IDS基本原理是通过分析网络行为(访问方式、访问量、与历史访问…

程序猿大战Python——面向对象——继承进阶

方法重写 目标:掌握方法的重写。 当父类的同名方法达不到子类的要求,则可以在子类中对方法进行重写。语法: class 父类名(object):def 方法A(self):代码... class 子类名(父类名):def 方法A(self):代码... 例如,一起来完成&…

Ubuntu下安装docker

一、docker安装说明 解决官方源无法下载的问题 二、使用步骤 1.更新软件包索引 sudo apt-get update2.安装必要的软件包,以允许apt通过HTTPS使用仓库 sudo apt-get install apt-transport-https ca-certificates curl software-properties-common3.添加Docker的…

数据结构:冒泡排序,选择排序,插入排序,希尔排序的实现分析

✨✨小新课堂开课了,欢迎欢迎~✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:数据结构与算法 小新的主页:编程版小新-CSDN博客 1.冒泡排序 1.1算法思想 冒泡排序的基本思想就是&a…

LLM端侧部署系列 | 如何将阿里千问大模型Qwen部署到手机上?环境安装及其配置(上篇)

引言 下载待部署模型 安装minconda 安装tvm和mlc-llm 安装 JDK 安装 Android SDK 下载mlc-llm仓库 设置环境变量 安装Rust 1. 引言 梨花风起正清明,游子寻春半出城。 小伙伴们好,我是公众号《小窗幽记机器学习》的小编:卖青团的小…

38. 外观数列

题目 「外观数列」是一个数位字符串序列,由递归公式定义: countAndSay(1) "1" countAndSay(n) 是 countAndSay(n-1) 的行程长度编码。 行程长度编码(RLE)是一种字符串压缩方法,其工作原理是通过将连续相…

刷代码随想录有感(114):动态规划——最少数量的零钱换整

题干&#xff1a; 代码&#xff1a; class Solution { public:int coinChange(vector<int>& coins, int amount) {vector<int>dp(amount 1, INT_MAX);dp[0] 0;for(int i 0; i < coins.size(); i){for(int j coins[i]; j < amount; j){if(dp[j - coi…

【Linux】系统文件IO·文件描述符fd

前言 C语言文件接口 C 语言读写文件 1.C语言写入文件 2.C语言读取文件 stdin/stdout/stderr 系统文件IO 文件描述符fd&#xff1a; 文件描述符分配规则&#xff1a; 文件描述符fd&#xff1a; 前言 我们早在C语言中学习关于如何用代码来管理文件&#xff0c;比如文件的…

对于C++ 程序员来说,35岁魔咒是否存在?

大家常说程序员职业生涯会在35岁左右遇到所谓的“35岁魔咒”。这意味着在这个年龄段&#xff0c;程序员可能会面临就业不稳定或职业发展的挑战。对于C程序员来说&#xff0c;这个问题更加引人关注。 随着时间的推移&#xff0c;技术行业不断演进&#xff0c;新的编程语言层出不…

编程精粹—— Microsoft 编写优质无错 C 程序秘诀 01:假想的编译器

这是一本老书&#xff0c;作者 Steve Maguire 在微软工作期间写了这本书&#xff0c;英文版于 1993 年发布。2013 年推出了 20 周年纪念第二版。我们看到的标题是中译版名字&#xff0c;英文版的名字是《Writing Clean Code ─── Microsoft’s Techniques for Developing》&a…

34、shell数组+正则表达式命令

0、课前补充 jiafa () { result$(echo " $1 $2 " | bc ) print "%.2f\n" "$result" } ##保留小数点两位 薄弱加强点 a$(df -h | awk NR>1 {print $5} | tr -d %) echo "$a"一、数组 1.1、定义 数组的定义&am…

Native开发工具之应用开发编辑器打包发布(一)

Nuclide 是基于 Atom 之上构建的单独的一个包&#xff0c;其提供可编程性且社区非常活跃。它为 React Native、Hack 和 Flow 项目提供一流的开发环境。 2. Atom 官网&#xff1a;https://atom.io/ Github 项目地址&#xff1a;atom(https://github.com/atom) 文档&#xff1…

SpringBoot-注解@PropertiySource读取外部属性文件

ConfigurationProperties和Value两个注解能从配置文件中获取数据&#xff0c;但是前面讲了他们是从全局配置文件中获取&#xff0c;且只能从全局配置文件中获取&#xff0c;那么如果是一些数值类的数据放在全局配置文件里&#xff0c;是不怎么合适的&#xff0c;我们往往会把他…

gitlab 获取指定分支下指定路径文件夹的解决方案

第一步&#xff1a; 获取 accessToken 及你的 项目 id &#xff1a; 获取 accessToken ,点击用户头像进入setting 按图示操作&#xff0c;第 3 步 填写你发起请求的域名。 获取项目 id , 简单粗暴方案 进入 你项目仓库页面后 直接 源码搜索 project_id&#xff0c; value 就…

QT自定义标题栏窗口其一:实现拖动及可拉伸效果

1、效果 2、核心代码 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent<

Android intent 打开链接跳转到外部浏览

前言: 各位同学大家好, 最近接到一个比较诡异的需求 ,不是通常的webview 加URL显示网页 是需要跳转到外部浏览器 ,我这边处理好了就分享给大家 效果图 : 点几就跳转到外部浏览器 如图 具体代码实现: 点击打开链接并跳转外部浏览器方法 public void openBrowser(Con…