CMU-CERT内部威胁数据集 r4.2版本介绍
- 一、相关介绍
- 二、CMU-CERT r4.2版本内容
- 三、重大变更
一、相关介绍
“CMU”是卡内基梅隆大学(Carnegie Mellon University)的简称。
“CERT”是卡内基梅隆大学的一个研究中心叫“CERT”,主要研究内部威胁。
CMU-CERT 数据集是唯一可公开访问的基于内部威胁的员工行为数据集。内部威胁检测的经典数据集 CMU-CERT4.2 中共有 322 万条日志数据,其中标记出的恶意操作日志 7 423 条。
CMU-CERT数据集版本。
目前已更新至6.2版本,本文介绍4.2版本,4.2版本是近年发表的论文中常用到的版本。
二、CMU-CERT r4.2版本内容
CMU-CERT R4.2 数据集由员工的行为特征日志构成,该数据集包括 18 个月内收集的1000个员工的活动日志。
这些员工的活动日志包括登录、设备、文件、http 和电子邮件文件。
该数据集包括 6 个.csv 日志表格文件,反映了每个员工行为的各个方面。
它还包含一个 LDAP 文件夹,其中包含每个月在职所有员工的信息,具有以下字段:员工姓名、员工 ID、地址、职位、企业部门、运营单位、分支机构和主管。
这 6 个.csv 日志表格文件分别包含以下信息:
(1)登录
登录日志有 5 个字段:ID、日期、员工、PC、活动(登录/注销)。日期字段包含每个员工执行的登录或注销活动的日期和时间戳。
(2)设备
设备日志有 5 个字段:ID、日期、员工、PC、活动(连接或断开连接)。日期字段包含连接或断开每个员工执行的任何可移动媒体活动的日期和时间戳。
(3)文件
文件日志有 6 个字段:ID、日期、员工、PC、文件名、内容。日期字段包含员工访问文件的日期和时间戳。文件名以 5 种不同类型的文件扩展名(.doc、.txt、.jpeg、.pdf、.zip.exe)存储。
(4)网络
网络访问日志有 6 个字段:ID、日期、员工、PC、URL、内容。日期字段包含每个员工访问的URL 的日期和时间戳。
(5)电子邮件
电子邮件日志有 10 个字段:日期、员工、PC、收件人、抄送、BC、发件人、大小、附件、内容。日期字段包含每个员工执行的电子邮件发送或接收活动的日期和时间戳。
(6)心理测试
心理测试日志有 5 个字段:O、C、E、A、N。
这些字段反映了 5 个人格特质的心理测量分数—— “OCEAN”,其中“O”代表对经验的开放性,“C” 代表责任心,“E”代表外向性,“A”代表宜人性, “N”代表每个员工的神经质。
三、重大变更
- 内容与图形结构集成在一起。
- 用户感兴趣的主题可能会随着时间的推移而变化。
- 电子邮件现在包括抄送/密件抄送。
- 电子邮件表现在包括用户ID和PC。
- 用户可以有一个或多个非工作电子邮件地址。
- 增加了一个潜在的工作满意度变量。对我们来说,具体说明这对可观察变量的影响可能是有意义的,所以让我们知道是否需要这些信息。
- 增加了一个额外的红队场景。(之前的所有红队scnearios也出现在数据集中。)
- 这是一个“密集针”数据集。穿插着大量不切实际的红队数据。