[论文阅读] (34)ESWA2024 基于SGDC的轻量级入侵检测系统

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学术路上期待与您前行,加油。

该文是贵大0624团队论文学习笔记,分享者吴炫璋同学,未来我们每周至少分享一篇论文笔记。前一篇博客总结了NDSS 2024系统安全和恶意代码分析方向相关论文。这篇文章将带来ESWA’24韩国忠北大学的轻量级入侵检测论文,本文的主要贡献为结合特征工程开发更轻量级、准确高效的IDS,并且能够检测广泛的网络攻击,适合在资源受限且少样本标注的IoT设备上运行。此外,由于我们还在不断成长和学习中,写得不好的地方还请海涵,希望这篇文章对您有所帮助,这些大佬真值得我们学习。fighting!

  • 欢迎关注作者新建的『网络攻防和AI安全之家』知识星球(文章末尾)

在这里插入图片描述

原文作者:Jahongir Azimjonov, Taehong Kim
原文标题:Stochastic gradient descent classifier-based lightweight intrusion detection systems using the efficient feature subsets of datasets
原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417423019954
发表会议:Expert Systems with Applications 2024
笔记作者:贵大0624团队 吴炫璋
开源代码:SGDC-basedLightweightIDS

  • https://github.com/JahongirAzimjonov/Lightweight-IDS-based-on-SGD-Classifier-and-Ridge-Regressor

一.摘要

物联网(IoT)已成为现代生活中不可或缺的一部分。然而,随着IoT设备的广泛应用,针对资源受限IoT设备的僵尸网络攻击数量也在不断增加。为应对这些威胁,研究人员开发了入侵检测系统(IDS)。然而,基于深度/机器学习、模糊逻辑、粗糙集理论或数据挖掘技术的传统IDS通常在检测准确性和能效方面存在不足。因此,亟需轻量化、高精度且能效优异的IDS,以有效检测多种网络攻击类型。

本文提出了一种解决方案,通过使用随机梯度下降分类器(SGDC)和基于岭回归的四种特征选择算法构建轻量化、高精度的IDS。为提升IDS的检测精度并降低计算复杂度,本文对SGDC算法和岭回归模型的超参数进行了优化。此外,优化后的特征选择算法用于降低数据集的维度,从而进一步提升IDS的检测精度。

为验证所提IDS的有效性,本文选取了三种网络流量数据集(KDD-CUP-1999、BotIoT-2018和N-BaIoT-2021)进行实验评估。结果表明,该系统平均检测准确率达92.69%,特征数量平均减少了79.93%。实验结果证明,所提出的系统可作为适用于资源受限IoT设备的轻量化IDS。总体而言,本文为IoT设备的IDS研究领域做出了重要贡献,提供了一种高效、准确的解决方案。所提出的轻量化IDS有望显著提升IoT的安全性和隐私保护能力,从而保障敏感IoT数据的安全。


二.引言及相关工作

随着物联网在日常生活中的广泛应用,其安全问题日益突出。特别是针对资源受限的IoT设备的僵尸网络攻击呈现上升趋势,DoS、DDoS、侦察和盗窃等多种形式。IoT网络由于安全协议薄弱和设备保护不足,特别容易受到这些攻击的威胁。

在这里插入图片描述

本文将目前的入侵检测系统分为传统IDS和轻量级IDS:

  • 传统IDS:资源消耗大,算法复杂,检测能力强,适用于大型网络
  • 轻量级IDS:资源消耗小,算法简单,但检测复杂攻击的能力较弱,适用于物联网设备

现有的IDS存在的局限性又有以下两点

  • 传统的基于机器学习的IDS 忽视了特征工程的作用,理论研究不足
  • 现有轻量级IDS无法捕获真实网络的攻击行为,准确性和鲁棒性存在不足

因此,开发一个轻量级并且能准确识别真实网络攻击行为的IDS迫在眉睫。研究需求:

  • 结合特征工程开发更轻量级、准确和高效的IDS;能够检测广泛的网络攻击
  • 适合在资源受限且少样本标注的IoT设备上运行;需要提高检测准确率和能源效率

在这里插入图片描述

本文的研究目标及创新点为开发轻量级和准确性高的入侵检测系统(IDS),使其能在资源受限的IoT设备上运行。具体通过以下方式实现:

  • 构建随机梯度下降分类器(SGDC)和基于岭回归模型的四种特征选择算法
  • 使用网格搜索方法优化SGDC算法和岭回归模型的超参数,以提高检测准确性并降低计算复杂度
  • 利用模型微调的特征选择器来降低数据集的维度以实现轻量化的IDS

三.系统整体框架

本文设计的框架如下图所示:

  • 数据预处理
  • 构建四种基于岭回归的特征选择方法,使用网格搜索方法优化岭回归模型的超参数,能有效抽取最相关且多维度的特征子集
  • 构建基于SGDC的入侵检测模块,使用网格搜索方法优化SGDC模型的超参数,能有效优化损失函数
  • 利用多种性能评估指标和对比分析方法来评估和选择性能最佳的模型

在这里插入图片描述

总体算法如下:

在这里插入图片描述


四.算法及系统实现细节

1.网格搜索方法

网格搜索(Grid Search)是一种超参数优化方法,本文用于岭回归模型和SGDC的超参数优化,网格搜索通过遍历所有可能的超参数组合,并使用交叉验证评估每组超参数的性能,最终选择最优的超参数配置。这种优化帮助基于岭回归模型的四种特征选择方法更好的提取高效特征子集,并帮助SGDC分类器在各个数据集上取得了良好的性能,同时保持了模型的轻量级特性。

在这里插入图片描述


2.特征选择

文中提到了四种基于岭回归的特征选择方法,其作用是计算特征与目标之间的关系系数,从数据集中选取出最相关和最有效的特征子集。

  • 基于重要性系数的特征选择算法 (Importance-coefficient-based feature selection)
  • 前向序列特征选择算法 (Forward-sequential feature selection)
  • 后向序列特征选择算法 (Backward-sequential feature selection)
  • 基于相关系数的特征选择算法 (Correlation-coefficient-based feature selection)

这些方法通过分析输入特征(自变量)和输出标签(因变量)之间的关系来评估每个特征的影响,基于计算出的重要系数来确定最相关和最有效的特征,通过消除不相关和低效的特征来优化特征集。不同类型的方法可以从不同角度评估特征的重要性,这些算法平均减少了79.93%的特征维度,同时保持了较高的入侵检测准确率(平均92.69%),特别是在处理时间和准确性方面都表现良好。

具体算法如下,算法输出是数据集中最相关和最高效特征的子集集合。

在这里插入图片描述

(1)基于重要性系数的特征选择如下,通过计算特征重要性系数ci和排序,从数据集中选择最相关且高效的特征子集。

在这里插入图片描述

(2)前向和后向序列特征选择算法如下,分别选择相关性最高的特征添加到集合、将相关性最低的特征从集合中消除。例如,KDD-CUP-1999和N-BaIoT-2021数据集分别有40个和115个特征。其中一些特征对SGDC和岭回归器的准确性有正面影响,而另一些则有负面影响。对岭回归模型和SGDC准确性有正面影响的特征应保留为有效特征,而对准确性有负面影响的特征应从数据集的子集中移除。该算法有助于选择对准确性有正面影响的特征,并剔除无效特征。

在这里插入图片描述

(3)构建通过后向消元的相关系数特征选择算法,该方法首先定义所有特征的集合𝑋和目标变量𝑦,同时设定一个显著性水平(𝑝值),通常为0.05。初始特征集𝑋1最初被设置为完整的特征集合𝑋。该算法逐步消除特征,直到没有特征的相关系数的𝑝值大于设定的显著性水平0.05为止。最终,该算法返回基于与目标变量的相关性和显著性水平选择的最终特征集。

在这里插入图片描述


3.SGDC

SGDC(stochastic gradient descent classifier )是一个线性分类模型,它使用随机梯度下降来优化损失函数。与传统SVM和SVC不同,SGDC只使用部分训练集来优化损失函数,其适用于大规模样本的场景,作为轻量级分类器,适合部署在资源受限的IoT设备上。

随机梯度下降法:随机梯度下降法是一种迭代优化方法,通过计算损失函数相对于模型参数的梯度,来寻找损失函数的最小值或最大值

基于SGDC的入侵检测模块算法如下:

在这里插入图片描述


五.实验评估

1.数据集及预处理

该论文的数据集为3个IOT入侵检测数据集。

  • KDD-CUP-1999
    http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
  • BotIoT-2018
    https://research.unsw.edu.au/projects/bot-iot-dataset
  • N-BaIoT-2021
    http://archive.ics.uci.edu/ml/datasets/detection_of_IoT_botnet_attacks_N_BaIoT

在基于SGDC的机器学习模型中,导致过拟合或欠拟合的主要问题之一是数据的类别不平衡。作者选取的三个数据集中都存在数据类别不平衡的问题,作者做了以下处理:

  • KDD-1999:97,277个正常包 vs 396,743个攻击包,处理方法:通过删除重复记录来平衡数据集
  • BoTIoT-2018:477正常包 vs 5000攻击包,处理方法:从恶意数据包中选择5000个样本,保留全部正常数据包
  • N-BaIoT-2021:62,154个正常包 vs 766,106个攻击包,处理方法:使用下采样(down-sampling)技术

在这里插入图片描述


2.评估结果

在不同数据集上不同算法运行时间对比:基于重要系数的特征选择方法在前两个数据集运行最快,基于后向序列的特征选择方法时间表现性能最差。

在这里插入图片描述

数据集原始特征集子集(a, b, c)特征重要性系数(IPs)的直方图如下,子集通过选择特征重要性系数(IPs)大于或等于所有特征平均IP的特征构建而成。

在这里插入图片描述

训练特征子集的预测结果如下,四种特征选择方法均优于所有特征。

在这里插入图片描述

最后给出性能评估比较图。实验结果表明,基于SGDC的IDS在高效特征子集对比完整特征集上的训练和测试速度分别提升了3-15倍和2-28倍,使用高效特征子集训练的模型预测准确率也明显高于使用完整特征集,平均准确率达到了92.69%,特别是特别是前向序列法在N-BaIoT-2021数据集上达到了98.42%的最高准确率。

在这里插入图片描述

三种数据集全特征训练的准确率分别为30.65%、77.84%和68.90%,特征选择方法均有一定程度提升。在KDD-CUP-1999完整数据集上训练的模型表现最差,可能原因是数据集中存在低效和无关特征,在使用前向序列法在N-BaIoT-2021提取的特征子集进行训练后达到了98.42%的最高准确率。

在这里插入图片描述


六.总结及个人感受

目前尚且有着几个因素会显著影响当前研究的结果,包括:

  • 数据集:需要选择特征类别更加平衡的数据集,从该文中选择的BotIoT-2018数据集可以看出,攻击类别的数据包远远高于正常类别的数据包,这就导致了在数据预处理时需要丢弃大量的攻击类别数据,很可能会影响模型的训练结果。
  • 特征选择方法:由于岭回归模型在进行特征选择时,其L2的正则化与L1正则化不同,不能将某些权重完全置0,所以存在不能去除部分冗余特征的情况,所以可以选择一些例如Lasso 回归等使用添加L1正则化项的线性回归方法来进行特征选择。
  • 分类算法:文中使用网格搜索算法来选择最优超参数,其核心思想是穷举,这种方法计算成本过高,在参数取值范围和维度较高时,时间和空间复杂度都会很高,所以可以将其替换为例如随机搜索等算法,对于高维度参数空间,随机搜索往往能用更少的计算找到接近更优的参数。

总之,该文提出了一种基于SGDC的轻量级IDS,并使用基于岭回归的特征选择方法来提取高效的特征子集。整篇论文特征工程值得我们学习,包括部分对比实验,尤其开源代码可供大家学习。当然也存在不足之处,比如和代表性方法的对比实验缺少,无法证明论文的创新。

最后祝大家新年快乐,不忙的时候写篇年终总结。

在这里插入图片描述

2024年4月28日是Eastmount的安全星球——『网络攻防和AI安全之家』正式创建和运营的日子,该星球目前主营业务为 安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券,欢迎新老博友和朋友加入,一起分享更多安全知识,比较良心的星球,非常适合初学者和换安全专业的读者学习。

目前收到了很多博友、朋友和老师的支持和点赞,尤其是一些看了我文章多年的老粉,购买来感谢,真的很感动,类目。未来,我将分享更多高质量文章,更多安全干货,真心帮助到大家。虽然起步晚,但贵在坚持,像十多年如一日的博客分享那样,脚踏实地,只争朝夕。继续加油,再次感谢!

(By:Eastmount 2024-12-30 周一夜于贵阳 http://blog.csdn.net/eastmount/ )


前文赏析:

  • [论文阅读] (01)拿什么来拯救我的拖延症?初学者如何提升编程兴趣及LATEX入门详解
  • [论文阅读] (02)SP2019-Neural Cleanse: Identifying and Mitigating Backdoor Attacks in DNN
  • [论文阅读] (03)清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
  • [论文阅读] (04)人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术
  • [论文阅读] (05)NLP知识总结及NLP论文撰写之道——Pvop老师
  • [论文阅读] (06)万字详解什么是生成对抗网络GAN?经典论文及案例普及
  • [论文阅读] (07)RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
  • [论文阅读] (08)NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
  • [论文阅读] (09)S&P2019 HOLMES Real-time APT Detection through Correlation of Suspicious Information Flow
  • [论文阅读] (10)基于溯源图的APT攻击检测安全顶会总结
  • [论文阅读] (11)ACE算法和暗通道先验图像去雾算法(Rizzi | 何恺明老师)
  • [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [论文阅读] (14)英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)——以入侵检测系统(IDS)为例
  • [论文阅读] (15)英文SCI论文审稿意见及应对策略学习笔记总结
  • [论文阅读] (16)Powershell恶意代码检测论文总结及抽象语法树(AST)提取
  • [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测
  • [论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例
  • [论文阅读] (19)英文论文Evaluation(实验数据集、指标和环境)如何描述及精句摘抄——以系统AI安全顶会为例
  • [论文阅读] (20)USENIXSec21 DeepReflect:通过二进制重构发现恶意功能(恶意代码ROI分析经典)
  • [论文阅读] (21)S&P21 Survivalism: Systematic Analysis of Windows Malware Living-Off-The-Land (经典离地攻击)
  • [论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师
  • [论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读:二进制和源代码对比
  • [论文阅读] (24)向量表征:从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec(一)
  • [论文阅读] (25)向量表征经典之DeepWalk:从Word2vec到DeepWalk,再到Asm2vec和Log2vec(二)
  • [论文阅读] (26)基于Excel可视化分析的论文实验图表绘制总结——以电影市场为例
  • [论文阅读] (27)AAAI20 Order Matters: 二进制代码相似性检测(腾讯科恩实验室)
  • [论文阅读] (28)李沐老师视频学习——1.研究的艺术·跟读者建立联系
  • [论文阅读] (29)李沐老师视频学习——2.研究的艺术·明白问题的重要性
  • [论文阅读] (30)李沐老师视频学习——3.研究的艺术·讲好故事和论点
  • [论文阅读] (31)李沐老师视频学习——4.研究的艺术·理由、论据和担保
  • [论文阅读] (32)南洋理工大学刘杨教授——网络空间安全和AIGC整合之道学习笔记及强推(InForSec)
  • [论文阅读] (33)NDSS2024 Summer系统安全和恶意代码分析方向相关论文汇总
  • [论文阅读] (34)EWAS2024 基于SGDC的轻量级入侵检测系统

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/946070.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《向量数据库指南》——Milvus Cloud 2.5:Sparse-BM25引领全文检索新时代

Milvus Cloud BM25:重塑全文检索的未来 在最新的Milvus Cloud 2.5版本中,我们自豪地引入了“全新”的全文检索能力,这一创新不仅巩固了Milvus Cloud在向量数据库领域的领先地位,更为用户提供了前所未有的灵活性和效率。作为大禹智库的向量数据库高级研究员,以及《向量数据…

常用的数据库类型都有哪些

在Java开发和信息系统架构中,数据库扮演着存储和管理数据的关键角色。数据库种类繁多,各有特色,适用于不同的应用场景。 1. 关系型数据库(RDBMS): • 关系型数据库是最为人熟知的数据库类型,数据…

计算机网络—————考研复试

第一章、计算机网络体系结构 1. OSI参考模型和TCP/IP模型: OSI与TCP/IP的记忆方法:只需把OSI的七层记住,将应用层、表示层、会话层一起记,到TCP/IP变成应用层。物理层和数据链路层换成网络接口层。把网络层换个字变成网际层。 而…

从2024看2025前端发展趋势

前言 又至年关,回顾整个2024年,前端行业仍旧百废待兴,IT业界同样也未见有所起色,AI风潮也从狂热兴奋逐步走向了冷静稳定阶段,造成此形势感观并非单一行业或者某一企业之特例,实为政经等综合影响之结果。因…

国内机器视觉产业链全解析

欢迎关注《光场视觉》 简单的,我们可以把机器视觉产业链可以分为底层开发商(核心零部件和软件提供商)、集成和软件服务商(二次开发),核心零部件及软件又可以再细分为光源、镜头、工业相机、图像采集卡、图…

node.js之---事件循环机制

事件循环机制 Node.js 事件循环机制(Event Loop)是其核心特性之一,它使得 Node.js 能够高效地处理大量并发的 I/O 操作。Node.js 基于 非阻塞 I/O,使用事件驱动的模型来实现异步编程。事件循环是 Node.js 实现异步编程的基础&…

如何在没有 iCloud 的情况下将数据从 iPhone 传输到 iPhone

概括 您可能会遇到将数据从 iPhone 转移到 iPhone 的情况,尤其是当您获得新的 iPhone 15/14 时,您会很兴奋并希望将数据转移到它。 使用iCloud最终可以做到这一点,但它的缺点也不容忽视,阻碍了你选择它。例如,您需要…

HTML——26.像素单位

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>像素</title></head><body><!--像素&#xff1a;1.指设备屏幕上的一个点&#xff0c;单位px&#xff0c;如led屏上的小灯朱2.当屏幕分辨率固定时&…

智能商业分析 Quick BI

Quick BI 是阿里云提供的一款智能商业分析&#xff08;BI&#xff09;工具&#xff0c;旨在帮助企业快速获取业务洞察、优化决策过程、提升数据分析效率。通过强大的数据可视化和分析功能&#xff0c;Quick BI 能够帮助用户轻松连接多种数据源、创建多维度的报表和仪表盘&#…

multisim仿真搭建三极管开关电路,低电平(5V)控制高电平(12V)输出

通过三极管搭建电路&#xff0c;低电平&#xff08;5V&#xff09;控制高电平&#xff08;12V&#xff09;输出 低电平输入&#xff1a;当输入信号为低电平时&#xff08;0V&#xff09;&#xff0c;三极管Q1处于截止状态。上拉电阻R1的存在&#xff0c;Q2输入端被拉到低电平&a…

Python跨年烟花

目录 系列文章 写在前面 技术需求 完整代码 下载代码 代码分析 1. 程序初始化与显示设置 2. 烟花类 (Firework) 3. 粒子类 (Particle) 4. 痕迹类 (Trail) 5. 烟花更新与显示 6. 主函数 (fire) 7. 游戏循环 8. 总结 注意事项 写在后面 系列文章 序号直达链接爱…

LeetCode - 初级算法 数组(删除排序数组中的重复项)

免责声明:本文来源于个人知识与公开资料,仅用于学术交流。 删除排序数组中的重复项 这篇文章讨论如何从一个非严格递增的数组 nums 中删除重复的元素,使每个元素只出现一次,并返回新数组的长度。因为数组是排序的,只要是相同的肯定是挨着的,所以我们需要遍历所有数组,然…

【yolov5】实现FPS游戏人物检测,并定位到矩形框上中部分,实现自瞄

介绍 本人机器学习小白&#xff0c;通过语言大模型百度进行搜索&#xff0c;磕磕绊绊的实现了初步效果&#xff0c;能有一些锁头效果&#xff0c;但识别速度不是非常快&#xff0c;且没有做敌友区分&#xff0c;效果不是非常的理想&#xff0c;但在4399小游戏中爽一下还是可以…

Java jni调用nnom rnn-denoise 降噪

介绍&#xff1a;https://github.com/majianjia/nnom/blob/master/examples/rnn-denoise/README_CN.md 默认提供了一个wav的例子 #include <stdint.h> #include <stdlib.h> #include <stdio.h> #include <math.h> #include <string.h>#include …

Windows系统 系统盘瘦身策略之文件迁移

1 Android Studio 1.1 .android 该文件夹路径一般在 C:\Users\<user_name>\.android 迁移步骤&#xff1a; ①关闭 Android Studio ②打开环境变量设置&#xff0c;添加以下环境变量 变量名&#xff1a;ANDROID_SDK_HOME 变量值&#xff1a;你自己的路径【不用单独创建.…

SQLiteDataBase数据库

XML界面设计 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"android:layout_width"match_paren…

Midjourney技术浅析(七):图像风格化

Midjourney 通过风格迁移&#xff08;Style Transfer&#xff09;和图像滤镜&#xff08;Image Filters&#xff09;技术&#xff0c;使用户能够将生成的图像转换为不同的艺术风格或视觉效果。 一、风格迁移&#xff08;Style Transfer&#xff09; 1.1 风格迁移的定义 风格…

Edge安装问题,安装后出现:Could not find Edge installation

解决&#xff1a;需要再安装&#xff08;MicrosoftEdgeWebView2RuntimeInstallerX64&#xff09;。 网址&#xff1a;https://developer.microsoft.com/zh-cn/microsoft-edge/webview2/?formMA13LH#download 如果已经安装了edge&#xff0c;那就再下载中间这个独立程序安装就…

【JAVA高级篇教学】第六篇:Springboot实现WebSocket

在 Spring Boot 中对接 WebSocket 是一个常见的场景&#xff0c;通常用于实现实时通信。以下是一个完整的 WebSocket 集成步骤&#xff0c;包括服务端和客户端的实现。本期做个简单的测试用例。 目录 一、WebSocket 简介 1. 什么是 WebSocket&#xff1f; 2. WebSocket 的特…

Painter-Mortadela靶场

信息收集 枚举端口 nmap 192.168.109.132 -sS -sV -min-rate 5000 -Pn -p- -p- &#xff1a;扫描所有端口。 (65535)-sS&#xff1a;执行TCP SYN 扫描以快速扫描哪些端口打开。-sC&#xff1a;使用基本识别脚本执行扫描-sV&#xff1a;执行服务扫描–min-rate 5000&#xff1…