【开源威胁情报挖掘2】开源威胁情报融合评价

基于开源信息平台的威胁情报挖掘综述

  • 写在最前面
  • 4 开源威胁情报融合评价
    • 开源威胁情报的特征与挑战
    • 4.1 开源威胁情报数据融合
      • 融合处理方法
    • 4.1 开源威胁情报的质量评价
      • 4.1.1 一致性分析
        • 本体的定义与组成
        • 本体构建的层次
      • 4.1.2 去伪去重
      • 4.1.3 数据融合分析
    • 4.2 开源威胁情报质量及可信性评价
      • 4.2.1 定性评价方法
      • 4.2.2 定量评价方法
        • 特征指标提取
        • 自定义的定量评价标准
        • 图挖掘技术的应用
    • 4.3 总结与讨论
      • 数据融合与质量评价的方法和技术
      • 性能评估与研究评价
      • 研究和应用的前景
  • prompt:阅读梳理文献的尝试

写在最前面

目前计划在网络安全领域的开源威胁情报挖掘展开进一步实验和论文写作,欢迎交流。

本文基于2022年1月《信息安全学报》崔琳等老师的论文 基于开源信息平台的威胁情报挖掘综述 进行梳理了解。

该论文为我们提供了一个全面的开源威胁情报挖掘框架,涵盖了该领域的关键方向、技术应用及未来趋势。
注意:这篇论文发布时间稍早,最前沿的视角需要之后再去补充阅读其他相关论文。

关键词:开源威胁情报;识别提取;融合评价;关联分析


这篇综述的内容相当扎实,所以预期分几次完成阅读。

前文:【开源威胁情报挖掘1】引言 + 开源威胁情报挖掘框架 + 开源威胁情报采集与识别提取

本文为综述的第四章节,将梳理开源威胁情报挖掘技术的开源威胁情报融合评价

有助于新入领域的研究者全面理解开源威胁情报挖掘,并为细分方向的研究者提供参考,以突破现有研究的局限性。

4 开源威胁情报融合评价

本章节供了对开源威胁情报融合评价和数据融合的深入分析,关注于如何从多源异构的情报中提取高质量、可信的威胁情报。

开源威胁情报的特征与挑战

高质量的威胁情报应具备时效性、准确性、完整性、丰富性、可操作性和场景相关性。

然而,由于开源威胁情报的多源异构性,质量良莠不齐,这在存储、共享和实际应用中造成了挑战,如可能出现的漏报和误报。

4.1 开源威胁情报数据融合

数据融合是有效利用开源威胁情报的关键。目前的研究工作主要集中在:①多源异构情报的一致性分析和②去伪去重等粗粒度数据融合方法。

这些方法旨在扩展情报信息的维度,并实现对分析后的开源威胁情报的归一化封装输出。

融合处理方法

由于开源威胁情报来源的开放性,其产出具有显著的多源异构性。

近年来,众多学者对开源威胁情报的融合处理进行了大量研究,主要通过一致性分析、去伪去重及数据融合分析等操作进行改善。

4.1 开源威胁情报的质量评价

质量评价是针对开源威胁情报的可信性和可用性进行的评估,一般包括定性评价方法和定量评价方法。这些评价方法对于确保所使用的开源威胁情报的质量和可靠性至关重要。

开源威胁情报的融合评价和数据融合是提高情报质量、可信性的关键。通过有效的融合处理和精确的质量评价,可以从广泛的开源信息中提取出高质量的威胁情报。
这对于深入理解威胁攻击、扩充商业威胁情报的数据维度,以及提供更广泛有效的防御路径具有重要意义。

4.1.1 一致性分析

开源威胁情报中的一致性分析及其在本体构建中的应用。

在开源威胁情报领域,本体为同一领域内不同实体之间提供了交流和连接的语义基础,是理解和处理开源威胁情报的关键。

一致性分析通过本体构建在开源威胁情报的共享与分析中发挥关键作用。通过本体构建,可以实现数据向知识的转化,并为威胁情报的进一步处理提供坚实的基础。这种方法在促进开源威胁情报的有效利用和提高分析效率方面具有重要价值。

本体的定义与组成

在这里插入图片描述
在这里插入图片描述

根据形式化定义[50],本体包含以下元素:

  • C:代表本体概念的集合,通常用自然语言描述。
  • R:表示非上下文关系,定义了实际关系的映射。
  • C H:上下文关系的集合,定义了本体的层次结构。
  • Av:本体上公理的集合。
本体构建的层次

本体构建层次可以参考图 4,其中安全情报本体作为情报知识图谱构建的核心层次。本体构建是将信息抽取得到的实体及其关系转化为知识网络的过程,同时,本体中定义的约束与规则为后续的质量评估和知识推理提供基础[51]。

在这里插入图片描述

实现方法:

  • 本体复用:利用已有的本体作为构建的基础。
  • 本体匹配:确保不同本体间的一致性和协调。

本体类型:

  • 基于模式的知识本体:从网络安全研究的原理、需求和规范等角度构建。
  • 基于数据的知识本体:根据现有数据的格式、内容和结构化程度构建。

应用案例:
北京航空航天大学的团队在开源威胁情报一致性分析中应用了本体,提出了描述多源异构开源威胁情报的基于本体的统一模型[52]。此外,他们还开发了一个基于该统一模型和开源情报收集工具IntelMQ的开源威胁情报集成框架。

4.1.2 去伪去重

去伪去重是开源威胁情报挖掘的一个重要环节,主要通过维度扩展和挖掘分析方法对情报数据进行提纯。

  • M. Adithya等人[53]:强调信息去冗技术在降低分布式存储中的通信和容量开销方面的重要性。

  • Edwards等人[54]:提出了一种可过滤、分类、消除重复数据、对数据项进行优先级排序的威胁情报系统的想法。

  • Brown等人[55]:强调在使用开源威胁情报系统之前,必须进行去重等操作,以避免增加安全运营人员的工作量。

  • 方法与挑战
    去重主要通过快速匹配算法从各种数据集中识别出匹配记录,并从属性、关系或数据内容等维度上进行合并。其效果受到数据质量、缩略词使用或语言差异等多种因素的影响。

4.1.3 数据融合分析

数据融合分析通过机器学习等方法对原始情报信息进行关联融合处理,以获得具有时效性、准确性、完整性的高质量威胁情报。

  • Modi等人[56]:提出了一个自动开源威胁情报融合框架,利用聚类技术对内容相似的情报数据进行聚合关联。
  • Azevedo等人[57]:采用簇聚合技术,关联并聚合不同开源情报源中的相似IOC信息。
  • 文献[58]:结合NLP和智能分析技术,设计了一种基于多源情报信息融合的高质量开源威胁情报生成工具。该工具综合运用一致性分析, 去伪去重等常见的粗粒度数据融合分析手段, 并结合了 SVM、贝叶斯推断等高阶数据分析技术, 可针对威胁情报数据进行清洗、集成、整合处理。但其数据融合方法手段及关联应用效率还尚待进一步提升。
  • 展望
    未来,随着数据量的增加,基于深度学习的数据融合方法将因其在处理海量数据上的优势而得到广泛应用。
    传统的数据融合技术,如贝叶斯推理、卡尔曼过滤、机器学习等,将继续在提高威胁情报质量方面发挥重要作用。

4.2 开源威胁情报质量及可信性评价

专注于开源威胁情报的质量及可信性评价,特别是定性评价方法的应用和重要性。

在网络安全领域,对开源威胁情报的质量和可信性进行评估对于辅助决策和安全分析至关重要。国内外学者对此进行了广泛的研究,尤其是定性评价方法,对于理解和提升开源威胁情报的价值具有重要意义。

对开源威胁情报进行定性评价是确保其质量和可信性的重要步骤。这些评价方法不仅提供了一个全面的评估框架,还有助于深入理解情报内容的重要性和应用价值。对于网络安全专家来说,这些评价方法是提高情报使用效率和有效性的重要工具。

4.2.1 定性评价方法

定性评价方法侧重于使用非量化的标准来评估情报的质量和可用性。

  • Bouwman等人[62]:通过比较商业情报和开源数据,发现两者在情报内容上几乎没有重叠。他们指出商业威胁情报在覆盖率和及时性方面存在不足,同时提出了一种基于场景相关性、丰富性和可操作性的商业威胁情报质量定性评估方法。

  • Alessandra等人[63]:提出了一种面向开源网络威胁情报平台的定性质量评估方法。该方法根据5W3H原则提出了威胁情报应用周期中的评价标准,如收集、分析、部署阶段所需的标准,以及面向OSCTI平台的额外标准。

  • 定性评价的重要性:定性评价方法通过提供一组非量化的标准和指标,为开源威胁情报的质量提供了全面的评估框架。这些方法有助于识别情报的关键特征,如场景相关性、丰富性和可操作性,从而提升情报的实用价值和可用性。

4.2.2 定量评价方法

定量评价方法通过使用具体的量化指标来评估开源威胁情报。

开源威胁情报的定量评价方法通过引入多种量化指标和高级数据分析技术,为评估情报的质量和可信度提供了更准确、客观的视角。这些方法不仅提高了情报的使用效率和有效性,还为网络安全专家提供了重要的技术支持。

特征指标提取

从开源威胁情报的特点出发, 提取多个特征作为评价依据。

  • 文献[64]:基于3S(Semantic, Surface, and Source features)模型,提出了多维度的分析方法,包括时间、内容和领域知识三个维度来提取16个定量可信特征,并使用DBN(Deep Belief Network)算法进行可信判别。
  • 文献[65]:从情报来源、内容、活跃周期、黑名单库匹配度等维度提取特征,设计了基于深度神经网络和Softmax分类器的评价模型。
自定义的定量评价标准
  • Vector等人[66]:定义了数量、差异贡献、排他贡献、相对延迟、准确性、覆盖范围等度量标准。

  • Thomas等人[67]:定义了扩展性、保持性、误报率、可验证性等10个定量参数。

  • Schlette等人[68]:将威胁情报评价维度划分为属性级、对象级、报告级,并形成一个可量化的评估体系。

  • Griffioen等人[69]:关注于开源威胁情报的质量评价。作者在该研究中定义了四种类型的威胁情报质量评价指标:及时性、敏感性、原创性和影响力。基于这些评价指标,他们引入了一种改进的分类方法来对威胁情报实现定量评估。
    这种方法有助于对开源威胁情报的质量进行更为精确和全面的评价。

  • 文献70:提出了一种基于用户视角建立的开源威胁情报服务评估方法。该方法将威胁情报视为一种特殊的服务,其质量评价包括价格、功能、性能和质量、服务、资格等五个维度。此外,该方法基于假设,即人们更容易相信大多数人给出的信息的真实性,提出基于多数威胁情报使用者的意见和评价来衡量情报的可信度。
    这种方法通过用户反馈来动态调整检测项目的权重和得分,从而获得更为精确的情报质量评价结果。

  • Omar等人[71]:提出了情报质量指数(Quality of Indicators, QoI)的概念,用于评估开源威胁情报共享参与者的贡献水平。QoI评估方法涉及的指标包括正确性、相关性、实用性和唯一性,采用基准方法定义,并利用机器学习算法进行质量评价。
    这种方法特别关注于评估参与者对开源威胁情报共享的贡献,有助于提高共享质量和鼓励更积极的参与。

图挖掘技术的应用
  • 文献[72]:提出从图挖掘角度评估异构开源威胁情报的可信水平,构建了异构开源威胁情报图。
  • Roland等人[73]:提出了OSCTI源排序方法FeedRank,利用图模拟feed之间的关系,并对每个OSCTIF的贡献度进行量化分析。
  • 文献[74]:提出了基于知识表示算法TransE模型和RNN模型的可信评估模型,构建了一个情报知识图谱。

4.3 总结与讨论

开源威胁情报的数据融合、质量和可信性评价是保障其有效性和可靠性的关键。
这一领域的研究可以分为定性评价定量评价两个主要方向。

表 3 所示, 其中每一行代表一项研究工作,
第 1 列代表不同的研究方向;
第 3 列为主要的技术应用场景;
第 4 列为实现该项研究所应用的技术方法, 主要从数学模型以及评价技术两个方向进行归纳分析;
第 5 列为性能评估;
第 6 列为通过总结优缺点对该项研究工作的评价。

在这里插入图片描述

数据融合与质量评价的方法和技术

  • 机器学习与神经网络:在定性评价中,机器学习和神经网络模型被广泛应用。例如,文献[64-65]利用这些技术在多维度上提取特征指标。

  • 加权平均模型:在定量评价方面,加权平均模型常用于权衡各指标的重要性。文献[68,70]主要使用了加权平均数学模型对情报质量进行量化评估。

  • 图挖掘技术:有向图或知识图谱等技术逐渐成为新兴的情报质量度量方法。文献[72-74]采用图挖掘方法,如文献[72-73]使用有向图和PageRank算法,而文献[74]应用知识图谱进行评估建模。

性能评估与研究评价

  • 表3中的比较分析显示,不同的技术和方法有其独特的优点和局限性。例如,机器学习在处理大规模数据集时表现出色,而加权平均模型在考虑多个评价指标时更加灵活。

研究和应用的前景

  • 这些研究成果为开源威胁情报的质量评价和可信度打分提供了有效的技术支持,减少了人力需求,并帮助组织筛选出高质量、准确可信的威胁情报。

prompt:阅读梳理文献的尝试

结合chatgpt阅读梳理文献。

我现在在调研网安领域的威胁情报,以期待找到能做命名实体识别or关系抽取的任务。

我现在是阅读一篇论文《基于开源信息平台的威胁情报挖掘综述》,请梳理这段话,表达专业明了,保留参考文献,我需要更详细的内容,形成博客,方便阅读理解和后续思路整理。

请介绍新型网络安全威胁类型:APT、多态威胁、零日威胁、复合威胁,通过实际场景来说明,并之处其中存在的命名实体识别、关系抽取任务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/206208.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python技术栈之单元测试中mock的使用

什么是mock? mock测试就是在测试过程中,对于某些不容易构造或者不容易获取的对象,用一个虚拟的对象来创建以便测试的测试方法。 mock的作用 特别是开发过程中上下游未完成的工序导致当前无法测试,需要虚拟某些特定对象以便测试…

python爬虫基础知识

使用python进行网络爬虫开发之前,我们要对什么是浏览器、什么HTML,HTML构成。请求URL的方法都有一个大概了解才能更清晰的了解如何进行数据爬取。 什么是浏览器? 网页浏览器,简称为浏览器,是一种用于检索并展示万维网信息资源的…

MJPG-streamer方案实现物联网视频监控

目录 前言 一、JPEG,MJPG格式简介 JPEG MJPG MJPG的优点 MJPG的缺点 二、软硬件准备 三、编译MJPG-streamer 四、运行MJPG-streamer 五、其它常见用法 六、MJPG-streamer 程序框架 七、源码下载 前言 最近想做一个安防相关的项目,所以跟着韦…

Rust的Vec优化

本篇是对Rust编程语言17_Rust的Vec优化[1]学习与记录 MiniVec https://crates.io/crates/minivec enum DataWithVec { // tag,uint64,8字节 I32(i32), // 4字节,但需内存对齐到8字节? F64(f64), // 8字节 Bytes(Vec<u8>), // 24字节}fn main()…

免费SSL证书有效果吗?

首先&#xff0c;我们要明确一点&#xff1a;无论是付费还是免费的SSL证书&#xff0c;它们都能实现基本的HTTPS加密功能&#xff0c;确保数据在客户端和服务器之间的传输过程中不会被窃取或篡改。从这个角度来看&#xff0c;免费SSL证书的确可以提供一定的安全保障。 然而&…

3D点云目标检测:VoxelNex解读

VoxelNext 通用检测器 vs VoxelNext一、3D稀疏卷积模块1.1、额外的两次下采样消融实验结果代码 1.2、稀疏体素删减消融实验&#xff1a;代码 二、稀疏体素高度压缩代码 三、稀疏预测head 通用检测器 vs VoxelNext 一、3D稀疏卷积模块 1.1、额外的两次下采样 使用通用的3D spa…

免费版的水淼采集器下载-水淼采集器详细使用教程

在当今信息爆炸的时代&#xff0c;网络上的数据量庞大&#xff0c;如何高效地采集、整理并利用这些信息成为了许多人关注的问题。水淼采集器作为一种强大的免费工具&#xff0c;在信息搜集的领域扮演着举足轻重的角色。本文将深入探讨水淼采集器的使用以及提供一份简明易懂的教…

dapper+mysql查询报Error parsing column 0 (Id=<null>)

之前的分页接口都是正常的&#xff0c;突然就报错了Error parsing column 0 (Id<null>) {"error": {"code": null,"message": "Error parsing column 0 (Id<null>)","details": "DataException: Error pa…

centos7安装mysql 8.0.31报错Failed to find valid data directory.

报错信息如下&#xff1a; 根据其他博客提示&#xff0c;执行了以下命令&#xff1a; mysqld --initialize --console 日志有新的报错&#xff1a;The designated data directory /var/lib/mysql/ is unusable. Y ou can remove all files that the server added to it. 根据…

【JAVA面向对象编程】--- 探索子类如何继承父类

&#x1f308;个人主页: Aileen_0v0&#x1f525;学习专栏: Java学习系列专栏 &#x1f4ab;个人格言:"没有罗马,那就自己创造罗马~" 目录 继承 继承的普通成员方法调用 及 普通成员变量修改 构造方法的调用 子类构造方法 继承 package Inherit;class Animal …

深入了解Java8新特性-日期时间API之TemporalAdjusters与TemporalAdjuster

阅读建议 嗨&#xff0c;伙计&#xff01;刷到这篇文章咱们就是有缘人&#xff0c;在阅读这篇文章前我有一些建议&#xff1a; 本篇文章大概10000多字&#xff0c;预计阅读时间长需要10分钟。本篇文章的实战性、理论性较强&#xff0c;是一篇质量分数较高的技术干货文章&…

网站提示不安全?

随着互联网的普及和发展&#xff0c;网络安全问题日益严重。黑客攻击、数据泄露、恶意软件等问题层出不穷&#xff0c;给企业和个人带来了巨大的损失。在这个背景下&#xff0c;确保网站安全显得尤为重要&#xff0c;而使用SSL证书是解决这些问题的有效措施。 什么是SSL证书&am…

C++调用python: VS2017 + Anaconda + pypi第三方库

步骤一&#xff1a;在Anaconda中创建虚拟环境 这一点对大家来说应该很简单&#xff0c;简单介绍一下&#xff0c;不做过多解释。值得注意的是&#xff0c;要用conda命令创建环境&#xff0c;用pip install配置环境。 conda create -n c_python_env python3.9 # 用conda创建pyt…

有IP没有域名可以申请证书吗?

一、IP证书是什么&#xff1f; ip证书是用于公网ip地址的SSL证书&#xff0c;与我们通常所讲的SSL证书并无本质上的区别&#xff0c;但由于SSL证书通常颁发给域名&#xff0c;而组织机构需要公共ip地址的SSL证书&#xff0c;这类SSL证书就是我们所说的ip证书。ip证书具有安全、…

数据结构与算法编程题35

用按层次顺序遍历二叉树的方法&#xff0c;统计树中具有度为1的结点数目。 #define _CRT_SECURE_NO_WARNINGS#include <iostream> using namespace std;typedef char ElemType; #define ERROR 0 #define OK 1 #define Maxsize 100 #define STR_SIZE 1024typedef struct B…

软件集成指南

软件集成方法&#xff1a; 1、一次性集成方式 2、增殖式集成方式 2.1、自顶向下的集成方式 2.2、自底向上的集成方式 2.3、混合集成方式

2的幂运算

2的幂 描述 : 给你一个整数 n&#xff0c;请你判断该整数是否是 2 的幂次方。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 如果存在一个整数 x 使得 n 2x &#xff0c;则认为 n 是 2 的幂次方。 题目 : LeetCode 231.2的幂 : 231. 2 的幂 分…

jmeter负载测试如何找到最大并发用户数

在性能测试中&#xff0c;当我们接到项目任务时&#xff0c;很多时候我们是不知道待测接口能支持多少并发用户数的。此时&#xff0c;需要我们先做负载测试&#xff0c;通过逐步加压&#xff0c;来找到最大并发用户数。那么当我们找到一个区间&#xff0c;怎么找到具体的值呢&a…

Large Language Models areVisual Reasoning Coordinators

目录 一、论文速读 1.1 摘要 1.2 论文概要总结 二、论文精度 2.1 论文试图解决什么问题&#xff1f; 2.2 论文中提到的解决方案之关键是什么&#xff1f; 2.3 用于定量评估的数据集是什么&#xff1f;代码有没有开源&#xff1f; 2.4 这篇论文到底有什么贡献&#xff1…

Python-简单模拟斗地主洗牌发牌

额滴名片儿 &#x1f388; 博主&#xff1a;一只程序猿子 &#x1f388; 博客主页&#xff1a;一只程序猿子 博客主页 &#x1f388; 个人介绍&#xff1a;爱好(bushi)编程&#xff01; &#x1f388; 创作不易&#xff1a;如喜欢麻烦您点个&#x1f44d;或者点个⭐&#xff01…