网络安全中大数据和人工智能应用实践

传统的网络安全防护手段主要是通过单点的网络安全设备,随着网络攻击的方式和手段不断的变化,大数据和人工智能技术也在最近十年飞速地发展,网络安全防护也逐渐开始拥抱大数据和人工智能。传统的安全设备和防护手段容易形成数据孤岛,一种设备只能解决某一方面的问题,基于已有特征进行匹配,未将数据进行集中、组合和关联,缺乏有效的上下文分析,无法进行深度分析,无法发现未知或隐蔽的威胁。通过大数据和人工智能的方法,可以将各种网络安全相关的数据集中关联和分析,这是网络安全分析的长期发展方向。
网络安全大数据这块也经历了很多年发展,但是在工程实践中,针对网络安全问题的防护还是存在很多欠缺的地方,市场这块也集中在监管类的安全大数据产品,运营类安全大数据市场需求偏少。结合自己对网络安全大数据的了解,主要从几下几个方面谈谈自己的看法:
● 数据对接成本高
涉及到不同厂商、不同设备的数据对接,缺乏统一的数据对接标准和规范,都是历史遗留的问题,不光是技术升级的成本,还涉及到厂商设备升级的费用问题,毕竟天下没有免费的午餐,项目本身的协调成本大于技术维护成本。
● 检测能力普遍不足
目前各大厂商对安全大数据的宣传是解决未知和隐蔽的高级可持续性威胁,但是基于产品应用的情况来看,很多远远满足不了这个宣传策略。那问题点在哪里了,站在我思考的角度来看,还是出在数据问题上,目前接入的一些网络安全设备数据,本质上还是接入的基于特征匹配的部分日志数据,而基于主机、服务器、程序等实体对象操作行为数据和流量数据偏少。应当摒弃过渡依赖基于特征匹配的思路,而应当从数据的选择上就要考虑需要基于原始行为和原始流量的数据进行分析,避免部分特征匹配的数据成为分析的干扰源。
● 业务理解程度不够
网络安全大数据产品目前主要还是以相关国家标准进行建设,重点还是停留在合规监管层面,产品研发更多地在按标准依葫芦画瓢,以达到国家相关部门的测评为准则,其实国家相关部门出的标准和测试都是基于单点的思路和规则,没有从整体和全局的角度去系统性测试产品,很多厂商为了应付测试也钻了空子。正常情况下,应当是和相关部门、企业一起结合实际的网络安全防护场景进行研究,以攻为守,基于业务需求进行建模,以满足实用实战为导向。
● 系统和运营未有效结合
很多部门、企业建设了网络安全大数据相关的系统,仅仅只停留在应付上级主管部门检查的层面,没有很好利用系统,没有专门的网络安全人员进行运营管理。就好比军工厂交付武器给军队,如何将武器的作用发挥至最大化,如何改进武器适应战场,还得练兵备战,与人的意志结合,将武器效能最大化。安全大数据系统也一样,必须有专业的网络安全人员进行运营和管理,将系统的作用最大化,提升安全大数据系统练兵备战的能力。
下面谈谈我的整个安全大数据框架和思路,大致框架如下图所示:

安全大数据总体过程包括数据采集、数据接入、数据预处理、数据存储、数据分析、结果展示,各行各业大数据分析都是这个思路和流程,只是需要处理的问题不一样,我们面向的是网络安全大数据这块。
● 数据采集(数据来源)
数据是基础,必须接入更多的安全相关数据,安全大数据一方面是要解决基于已知特征的数据分析,更重要方面是要解决未知或隐蔽的威胁,那就要弄清底层逻辑是什么。基于已知特征数据这块,目前存在一个点就是不同厂商的安全设备的能力不一样,无法从根本上规避它提供数据的准确性。那有一个重要的核心点就是需要什么样的数据,从什么方面去挖掘和分析威胁,任何事物都是运动的,我们可以变化中寻求最优解,网络威胁也一样。我们应当获取每个实体最原始的行为数据,从动机和行为入手,不能忽视最合适的数据源。
● 数据接入
需要考虑的是多种数据源接入和时间同步问题,为什么要考虑这个问题,因为有些数据之间有相互关联,多种数据在时间序列上来看,就够成了一定的可疑数据块,这就是全局与个体的关系,威胁行为任何时刻都有可能发生,能提前感知就能减少风险。很多厂商在做产品设计的时候,忽略了数据接入的重要性。根据业务场景需求,一定要弄清每种业务场景需要的数据源接入原则,从时间、数据量上要周全考虑,并不是所有业务场景,所有的数据接入都是一致性要求,这个必须要区别对待,具体问题具体分析。
● 数据预处理
需要对接入的数据进行批量、快速处理满足需求,如何预处理数据,这个需要考虑的点也是要根据业务场景来定义。通过逆向方式分析,以结果为导向,从数据分析和存储要求进行定义,剔除干扰和多余数据,减少数据分析时系统的开销。
● 数据存储
采用基于开源的大数据技术框架,每个公司的技术实现都大同小异,重点需要考虑的是数据的写入和查询效率,数据的备份恢复问题。
● 数据分析
大数据分析的前提是要借助流式计算引擎,目前主流厂商都是选择Flink。数据分析的前提是要有具体的业务场景,再基于业务场景进行业务建模,再根据业务模型确定采用什么技术方案实现业务需求。一般会从普通规则、动态基线、机器学习、深度学习等技术方法去实现,通过普通规则去匹配,也可以运用基线比较方法,也可以使用机器学习和深度学习的方法进行异常行为分析。
下面重点讲一下机器学习和深度学习相关的数据分析方法。首先我们理清几个概念,模型、算法、数据、训练程序的关系。
模型就是根据数据训练出来的一段程序,针对某一业务场景需求,系统程序调用模型,输入数据,得出分析结果。那模型一般如何训练了?那就可以分为系统外训练和系统内训练了。
系统外训练就是与现有系统独立,互不干涉,有专门的训练环境,模型训练好了,导入现有系统升级进行使用,再通过现有系统使用情况进行评估和反馈,不断的在训练环境进行训练,这样形成一个闭环反馈机制。
系统内训练就是基于现有系统数据进行训练,模型训练好了,系统程序直接进行调用,差不多是个半自动化的过程,同时网络安全运营人员也可以根据人为的经验和现有模型的结果不断的去分析和标记数据,借助人的作用不断去强化训练这个模型,这样系统就包括两部分功能,一部分是业务使用,一部分是基于现有业务数据在系统内不断训练模型,不断地智能验证效果,减少人为过多地干预,这样安全运营人员和系统就深度绑定了,因为安全大数据产品设计过程中,要充分考虑和借助专业的网络安全人员来训练模型,说个题外话,网络安全人员不能脱离人工智能相关的技术。
算法是核心,基于业务场景的分析,解决客户什么问题,考虑周全之后,确定需要分析的数据源,希望达到的预期效果,选择合适的人工智能算法,算法也不是可以解决所有问题,它是根据不同的问题有对应的算法,一旦确定了算法,在训练过程中不能随便去变更算法,那这样之前的训练就白废了。
数据是基础,往往网络安全的数据问题是个难点,很多场景很难找到合适的样本数据,比如说客户提供一个新场景,自己觉得可以用哪种算法来实现,但是样本数据满足不了要求。对数据的整合和规范,这个是网络安全采用人工智能学习的一个难点和未来必须要解决的方向。
训练程序顾名思义就是训练模型的程序,这个也不存在技术难点。
● 结果展示
将存储和分析结果数据如何进行展示,这个也是一个重点,以什么方式传递给用户很关键。安全大数据主要是通过机器进行数据分析直接得出结果,还有基于原始数据的结果。一定要基于这两方面的结果数据进行考虑,因为机器和程序分析的始终无法代替人的大脑思考,况且人脑思考问题和决策也不能保证万无一失。所以说在产品设计的时候,一定要基于两方面的考虑:一是要支持原始数据的查询和统计,用户根据自己的安全经验进行分析,就像刑侦人员基于自己的经验进行办案一样,任何办案技术加持情况下,也离不开侦查员的分析,任何精确制导和火炮打击情况下,在特定情况下也离不开特种兵的目标引导;二是基于机器和程序分析的结果进行展示和二次分析验证,机器永远只是辅助人类进行思考和决策。
网络安全的本质在于对抗 ,对抗的本质在于攻防两端能力的较量,在于人性的较量,道高一尺,魔高一丈,魔高一尺,道高一丈,此消彼长,网络安全永不停步,现在很多产品的设计脱离了攻防对抗的本质,不管是物理隔离的涉密网、互联网都离不开攻防对抗的思路,应当将红蓝对抗的经验和数据应用到产品中,进攻是最好的防守,没有攻防数据的支撑,人工智能在网络安全分析中的应用也是巧妇难为无米之炊。网络安全离不开人性研究、攻防对抗、云计算、大数据及人工智能的加持。道阻且长,行则将至,行而不辍,未来可期。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/933641.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

create-react-app react19 搭建项目报错

报错截图 此时运行会报错: 解决方法: 1.根据提示安装依赖法 执行npm i web-vitals然后重新允许 2.删除文件法 在index.js中删除对报错文件的引入,删除报错文件

excel如何让单元格选中时显示提示信息?

现象: 当鼠标放在单元格上,会出现提示信息: 先选中单元格选择上方的【数据】-【数据验证】图标选择【输入信息】勾上【选定单元格时显示输入信息】输入【标题】,如:最上方图中的:姓名:输入【输…

PyCharm+Selenium+Pytest配置小记

1、下载ChromeDriver: Chrome130以后的Driver下载: Chrome for Testing availabilityhttps://googlechromelabs.github.io/chrome-for-testing/ (1)查看自己Crome浏览器的版本:设置-->关于 Chrome; &…

用最小的代价解决mybatis-plus关于批量保存的性能问题

1.问题说明 问题背景说明,在使用达梦数据库时,mybatis-plus的serviceImpl.saveBatch()方法或者updateBatchById()方法的时候,随着数据量、属性字段的增加,效率越发明显的慢。 serviceImpl.saveBatch(); serviceImpl.updateBatch…

电子商务人工智能指南 4/6 - 内容理解

介绍 81% 的零售业高管表示, AI 至少在其组织中发挥了中等至完全的作用。然而,78% 的受访零售业高管表示,很难跟上不断发展的 AI 格局。 近年来,电子商务团队加快了适应新客户偏好和创造卓越数字购物体验的需求。采用 AI 不再是一…

Helm安装Mysql8主从复制集群

目录 一、Helm安装 二、安装mysql 1、拉取镜像 2、修改配置文件 3、创建mysql-secret 4、安装 一、Helm安装 这里不再赘叙,具体安装请参考官网 Helm | 快速入门指南 二、安装mysql 1、拉取镜像 #添加仓库 helm repo add bitnami https://charts.bitnami.c…

Java并发编程学习之从资本家的角度看多线程和并发性(一)

目录 前言前置知识一、单线程时代二、为什么要有多线程,多线程的优点?三、使用多线程会遇到什么问题?四、多线程和并发编程的关系总结 前言 这篇文章是打开Java多线程和并发编程的大门的开始,如标题《从老板的角度看多线程和并发…

【爬虫】selenium打开浏览器以及页面

本篇探讨如何使用 selenium 打开浏览器 selenium 基础与网页打开 selenium 是一个广泛应用于自动化测试和网页抓取的工具,它能够模拟用户在浏览器中的各种操作。首先,我们需要根据指定的浏览器类型(这里以 Chrome 为例)打开网页…

【算法练习】162. 寻找峰值

题目链接&#xff1a;162. 寻找峰值 看思路图&#xff1a; class Solution { public:int findPeakElement(vector<int>& nums) {int left 0,right nums.size()-1;while(left<right){int mid left (right-left)/2;if(nums[mid]>nums[mid1]){right mid;}els…

Android SurfaceFlinger layer层级

壁纸作为显示的最底层窗口它是怎么显示的 1. SurfaceFlinger layer层级 锁屏状态dump SurfaceFlinger &#xff0c;adb shell dumpsys SurfaceFlinger Display 0 (active) HWC layers: -----------------------------------------------------------------------------------…

SAP Ariba Approval _Email Approval

Email Approval Example 当用户成为文档审批者时,SAP Ariba会向该用户发送电子邮件通知消息。 在以下情况下,批准人可以收到电子邮件通知: 有人提交或重新提交文件以获得批准 某人撤回文件 系统升级文档 系统即将向主管升级请求 如果多个用户共享一个群组职责,他们则会收到…

vue 封装全局方法及使用

1.找到项目中的utils定义js&#xff0c;这个js存放全局可使用的方法 2.去项目中main.js中引入注册 import publicFun from ./utils/test Vue.prototype.$publicFun publicFun;3.项目使用 ddd(){this.$publicFun.testwen()},

MQTT消息服务器mosquitto介绍及说明

Mosquitto是一个开源的消息代理软件&#xff0c;支持MQTT协议&#xff08;消息队列遥测传输协议&#xff09;。MQTT是一种轻量级的发布/订阅消息传输协议&#xff0c;专为低带宽、不可靠网络环境下的物联网设备通信而设计。以下是关于Mosquitto服务器的一些介绍和说明&#xff…

(长期更新)《零基础入门 ArcGIS(ArcMap) 》实验一(下)----空间数据的编辑与处理(超超超详细!!!)

续上篇博客&#xff08;长期更新&#xff09;《零基础入门 ArcGIS(ArcMap) 》实验一&#xff08;上&#xff09;----空间数据的编辑与处理&#xff08;超超超详细&#xff01;&#xff01;&#xff01;&#xff09;-CSDN博客 继续更新 目录 什么是拓扑&#xff1f; 1.3.5道路拓…

深信服ATRUST与锐捷交换机端口链路聚合的配置

深信服ATRUST业务口原来只配置使用一个电口&#xff0c;近期出现流量达到800-900M接近端口的极限带宽。由于设备没有万光口&#xff0c;于是只好用2个光口来配置链接聚合。 下需附上深信服ATRST端口配置的截图&#xff0c;由于深信服ATRUST与锐捷交换机端口只共同支持源mac目的…

简易图书管理系统

javawebjspservlet 实体类 package com.ghx.entity;/*** author &#xff1a;guo* date &#xff1a;Created in 2024/12/6 10:13* description&#xff1a;* modified By&#xff1a;* version:*/ public class Book {private int id;private String name;private double pri…

【1】数据分析基础(一些概念)

数据分析的五步&#xff1a; &#xff08;1&#xff09;提出问题&#xff1b;&#xff08;2&#xff09;收集数据&#xff1b;&#xff08;3&#xff09;数据处理和清洗&#xff1b;&#xff08;4&#xff09;数据分析&#xff1b;&#xff08;5&#xff09;可视化&#xff0c…

Spring Boot 3.0 + MySQL 8.0 + kkFileView 实现完整文件服务

Spring Boot 3.0 MySQL 8.0 kkFileView 实现完整文件服务 背景&#xff1a;比较常见的需求&#xff0c;做成公共的服务&#xff0c;后期维护比较简单&#xff0c;可扩展多个存储介质&#xff0c;上传逻辑简单&#xff0c;上传后提供一个文件id&#xff0c;后期可直接通过此i…

文生图模型开源之光!ComfyUI - AuraFlow本地部署教程

一、模型介绍 AuraFlow 是唯一一个真正开源的文生图模型&#xff0c;由Fal团队开源&#xff0c;其代码和权重都放在了 FOSS 许可证下。基于 6.8B 参数优化模型架构&#xff0c;采用最大更新参数化技术&#xff0c;还重新标注数据集提升指令遵循质量。在物体空间和色彩上有优势…

OpenAI12天 –第3天的实时更新,包括 ChatGPT、Sora、o1 等

OpenAI提前开启了假期&#xff0c;推出了为期 12 天的活动&#xff0c;名为“OpenAI 12 天”。在接下来的一周左右的每一天&#xff0c;OpenAI 都将发布现有产品的新更新以及新软件&#xff0c;包括备受期待的 Sora AI 视频生成器。 OpenAI 首席执行官 Sam Altman 表示&#x…