OSPTrack:一个包含多个生态系统中软件包执行时生成的静态和动态特征的标记数据集,用于识别开源软件中的恶意行为。

2024-11-22 ,由格拉斯哥大学创建的OSPTrack数据集,目的是通过捕获在隔离环境中执行包和库时生成的特征,包括静态和动态特征,来识别开源软件(OSS)中的恶意指标,特别是在源代码访问受限时,支持在运行时高效检测方法。

数据集地址:OSPTrack

一、研究背景:

开源软件(OSS)已成为互联网和网络供应链链中不可或缺的一部分,但其被利用的频率越来越高。尽管在OSS的漏洞检测方面取得了进展,但先前的工作主要集中在静态代码分析上,忽略了运行时指标。

目前遇到困难和挑战:

1、现有的漏洞检测方法往往侧重于静态代码分析,这在OSS嵌入复杂系统时可能效率不高。

2、当前的数据集主要关注恶意软件包,未能捕获运行时特征。

3、尽管已有软件模拟开发,但没有专门针对OSS并提供执行期间标记监控结果的数据集。

数据集地址:OSPTrack

二、让我们来一起看一下OSPTrack数据集

OSPTrack是一个跨越多个生态系统的标签化数据集,它在隔离环境中捕获了执行包和库时生成的特征,包括静态和动态特征,如文件、套接字、命令和DNS记录。

OSPTrack数据集包含9461个包报告(其中1962个为恶意),涵盖了npm、pypi、crates.io、nuget和packagist等多个生态系统。数据集包含了详细的子标签,用于攻击类型的验证信息,有助于在源代码访问受限的情况下识别恶意指标,并支持在运行时进行有效的检测方法。

数据集构建 :

数据集的构建采用了多进程分析包、报告解析与特征提取、最终标签匹配的方法。部分数据来自现有的BigQuery数据集,该数据集由package-analysis工具生成,包含静态和动态特征。

数据集特点 :

OSPTrack数据集的特点在于其八维特征,包括文件、套接字、命令和DNS相关行为,这些特征有助于在不同生态系统中进行差异性或比较性分析。

基准测试:

数据集可用于训练机器学习模型,区分良性和恶意软件行为,以及检测运行中的软件漏洞,确保开源软件的供应链安全。

数据生成框架。1. 收集包裹信息 1.a.查询分析了来自 BigQuery 2 的结果。在多个过程中使用包装分析模拟包装 3.解析 JSON 报告并查询 Parquet 报告,提取特征 4.根据已知标签匹配和生成标签

软件供应链中的攻击类型集合

按生态系统、包计数、标签和子标签划分的包计数。

三、让我们一起展望数据集的应用:

比如,你是一个网络安全专家,你的任务是识别出那些偷偷摸摸的恶意软件。这些恶意软件会悄悄地潜入你的系统,然后搞破坏。但是,要抓到这些恶意软件可不是一件容易的事,因为它们很会伪装,而且手段多样。

现在,我们有了一件秘密武器——OSPTrack数据集。它提供了大量的恶意软件样本和它们的行为特征。我们要用这个工具箱里的一个特殊技巧,叫做多模态特征融合,来帮助我们更准确地识别出这些恶意软件。

这个技巧的关键在于,我们不仅仅从一个角度去看问题,而是从多个角度。就像我们用两个不同的镜头去看同一个东西,一个镜头是数字的,另一个是文本的。

首先,我们用数字编码器这个镜头,它能够捕捉恶意软件的数字特征,比如它们的操作码统计序列。这就像是给每个恶意软件拍了一张“照片”,捕捉了它们的行为模式。

然后,我们用文本编码器这个镜头,它能够把恶意软件的特征组织成句子,描述它们的行为和动态。这就像是给恶意软件写了一个故事,然后用语言模型这个翻译器,把这些故事转换成电脑能理解的语言。

接下来,我们把这些数字和文本的特征融合在一起,就像是给每个恶意软件一个“双重身份”。这样,我们就能在两个不同的空间里分析它们,一个用于分类,一个用于检测。

在实际操作中,我们就像是在厨房里忙碌的大厨。我们先把恶意软件样本进行预处理,就像是把食材洗干净、切好。然后,我们用深度学习模型,比如EfficientNetV2,来提取和融合这些特征。这个模型就像是我们的高级厨具,它的优化网络结构和SE注意力机制模块,就像是我们的刀和砧板,帮助我们更精确地捕捉和强调关键特征。

最后,我们在一些常用的恶意软件数据集上进行实验,比如Mailing和我们提出的MAL-100+,就像是在不同的餐厅里试菜。结果证明,我们的方法非常有效。我们的模型不仅提高了恶意软件检测的准确性,还增强了对未知恶意软件样本的检测能力,就像是我们的菜在各个餐厅都受到了好评。

更多开源的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值遇见数据集,国内领先的百万级数据集搜索引擎,实时追踪全球数据集市场,助力把握数字经济时代机遇。icon-default.png?t=O83Ahttps://www.selectdataset.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/924474.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Web登录页面设计

记录第一个前端界面,暑假期间写的,用了Lottie动画和canvas标签做动画,登录和注册也连接了数据库。 图片是从网上找的,如有侵权私信我删除,谢谢啦~

MySQL45讲 第29讲 如何判断一个数据库是不是出问题了?——阅读总结

文章目录 MySQL45讲 第二十九讲 如何判断一个数据库是不是出问题了?——阅读总结一、检测数据库实例健康状态的重要性二、常见检测方法及问题分析(一)select 1 判断法(二)查表判断法(三)更新判断…

mac下Gpt Chrome升级成GptBrowser书签和保存的密码恢复

cd /Users/自己的用户名/Library/Application\ Support/ 目录下有 GPT\ Chrome/ Google/ GptBrowser/ GPT\ Chrome 为原来的chrome浏览器的文件存储目录. GptBrowser 为升级后chrome浏览器存储目录 书签所在的文件 Bookmarks 登录账号Login 相关的文件 拷贝到GptBrow…

论文阅读笔记 | EEG:运动执行过程中的ERD

参考:https://mp.weixin.qq.com/s/RmcPSLv1ITMZZwqe2uZ_og?token1093147649&langzh_CN

Android U ART young cc流程分析

概述: 众所周知jvm虚拟机为了提高内存回收效率,更高效的进行内存管理与回收,对堆内存进行了分代管理比如hotspot虚拟机的新生代,老年代。根据各代的特征( 新生代对象分配频繁而生存周期短,老年代生存周期长…

C++ 11重点总结1

智能指针 智能指针: C11引入了四种智能指针: auto_ptr(已弃用)、unique_ptr、shared_ptr和weak_ptr。智能指针可以更有效地管理堆内存,并避免常见的内存泄漏问题。 shared_ptr: 自定义删除器。 shared_ptr使用引用计数来管理它指向的对象的生命周期。多个shared_ptr实例可以指向…

Sickos1.1 详细靶机思路 实操笔记

Sickos1.1 详细靶机思路 实操笔记 免责声明 本博客提供的所有信息仅供学习和研究目的,旨在提高读者的网络安全意识和技术能力。请在合法合规的前提下使用本文中提供的任何技术、方法或工具。如果您选择使用本博客中的任何信息进行非法活动,您将独自承担…

GB28181系列二:SIP信令

我的音视频/流媒体开源项目(github) GB28181系列目录 目录 一、SIP报文介绍 二、SIP交互流程: 1、Session Model 2、Pager Model 3、SIP信令交互过程中的3个定义 三、媒体传输(SDP和RTP) 一、SIP报文介绍 这里将会介绍SIP…

【接口自动化测试】一文从0到1详解接口测试协议!

接口自动化测试是软件开发过程中重要的环节之一。通过对接口进行测试,可以验证接口的功能和性能,确保系统正常运行。本文将从零开始详细介绍接口测试的协议和规范。 定义接口测试协议 接口测试协议是指用于描述接口测试的规范和约定。它包含了接口的请求…

CentOS7执行yum命令报错,已加载插件:fastestmirrorLoading mirror speeds from cached hostfile

一、出现一下异常问题,表示域名没有配置或配置错误 问题一: 0curl: (6) Could not resolve host: mirrors.aliyun.com; 未知的错误 问题二:虚拟机使用ping主机,提示network unreachable 2.原因分析 出现这个问题是因为yum在安装…

【Threejs进阶教程-着色器篇】9.顶点着色器入门

【Threejs进阶教程-着色器篇】9.顶点着色器入门 本系列教程第一篇地址,建议按顺序学习认识顶点着色器varying介绍顶点着色器与片元着色器分别的作用Threejs在Shader中的内置变量各种矩阵gl_Position 尝试使用顶点着色器增加分段数增强效果 制作平面鼓包效果鼓包效果…

Ubuntu 硬盘分区并挂载

一、什么是挂载 1.挂载的定义 在 Ubuntu(或其他 Linux 系统)中,挂载(Mount) 是将一个存储设备或分区连接到系统的文件系统层次结构中的过程。挂载后,你可以通过某个目录(挂载点)访问…

【前端开发】一文带你快速入门 JavaScript(上)Web 前端必备程序语言 | 环境搭建与基础知识

💯 欢迎光临清流君的博客小天地,这里是我分享技术与心得的温馨角落 💯 🔥 个人主页:【清流君】🔥 📚 系列专栏: 运动控制 | 决策规划 | 机器人数值优化 📚 🌟始终保持好奇心&…

视频推拉流EasyDSS互联网直播点播平台技术特点及应用场景剖析

在数字科技日新月异的今天,视频直播和点播已经成为互联网内容传播的重要方式之一。而互联网直播点播平台EasyDSS作为功能强大的流媒体直播点播视频能力平台,提供了一站式的视频推拉流、转码、直播、点播、时移回放、存储等视频服务,广泛应用于…

Qt读写Usb设备的数据

Qt读写Usb设备的数据 问题:要读取usb设备进行通讯,qt好像没有对应的库支持。解决:libusbwindow下载 :Linux下载: QtUsb 开源的第三方库库里面的函数说明:window版本:Linux中也提供的直接下载测试代码:库下载&#xff1…

2024最新python使用yt-dlp

2024最新python使用yt-dlp下载YT视频 1.获取yt的cookie1)google浏览器下载Get cookies.txt LOCALLY插件2)导出cookie 2.yt-dlp下载[yt-dlp的GitHub地址](https://github.com/yt-dlp/yt-dlp?tabreadme-ov-file)1)使用Pycharm(2024.3)进行代码…

一加ACE 3 Pro手机无法连接电脑传输文件问题

先说结论:OnePlus手机无法连接电脑传输数据的原因,大概率是一加数据线的问题。尝试其他手机品牌的数据线(比如华为),再次尝试。 连接电脑方法: 1 打开开发者模式(非必要操作) 进入…

java:aqs实现自定义锁

aqs采用模板方式设计模式,需要重写方法 package com.company.aqs;import java.util.concurrent.TimeUnit; import java.util.concurrent.locks.AbstractQueuedSynchronizer; import java.util.concurrent.locks.Condition; import java.util.concurrent.locks.Lock;…

linux系统下如何将xz及ISO\img等格式压缩包(系统)烧写到优盘(TF卡)

最近用树莓派做了个NAS,效果一般,缺少监控及UI等,详细见这篇文章: https://blog.csdn.net/bugsycrack/article/details/135344782?spm1001.2014.3001.5501 所以下载了专门的基于树莓派的NAS系统直接使用。这篇文章是顺便复习一…

python除了熟悉的pandas,openpyxl库也很方便的支持编辑Excel表

excel表格是大家经常用到的文件格式,各行各业都会跟它打交道。之前文章我们介绍了使用openpyxl和xlrd库读取excel表数据,使用xlwt库创建和编辑excel表,在办公自动化方面可以方便我们快速处理数据,帮助我们提升效率。 python之open…