22LLMSecEval数据集及其在评估大模型代码安全中的应用:GPT3和Codex根据LLMSecEval的提示生成代码和代码补全,CodeQL进行安全评估

LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations

  • 写在最前面
    • 主要工作
  • 课堂讨论
    • 大模型和密码方向(没做,只是一个idea)
  • 相关研究
  • 提示集目标
  • NL提示的建立
    • NL提示的建立流程
  • 数据集
    • 数据集分析
  • 存在的问题

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。

李元鸿同学分享了LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations《LLMSecEval:用于评估大模型代码安全的自然语言提示数据集》
分享时的PPT简洁大方,重点突出

LLMSecEval数据集及其在评估大型语言模型(如GPT-3和Codex)代码安全性中的应用。主要从结果的角度来评估模型能力,CodeQL分析引擎结合四个维度的手工打分。
关键字:大模型;代码安全;自然语言;漏洞枚举

文献来源:arXiv:2303.09384;
Accepted at MSR '23 Data and Tool Showcase Track
https://arxiv.org/pdf/2303.09384.pdf
发布到了CCF-C,论文too demo只有5页

进一步阅读:对于有兴趣深入了解网络安全基础和大模型应用的读者,可以参考以下资源

  • MITRE CWE列表
  • CodeQL官方文档

主要工作

  • LLMs代码补全和代码生成: 通过开源项目进行训练, 存在不安全的API调用、 过时的算法/软件包、 不充分的验证和不良的编码实践等。

  • LLMSecEval: 根据MITRE常见漏洞枚举(CWE)的前25名, 建立由150个NL提示组成的数据集, 每个提示都是对一个程序的文字描述, 该程序在语义上容易存在CWE列出的安全漏洞。

  • 代码生成与检验:使用GPT3和Codex根据LLMSecEval的提示生成代码,并使用代码分析引擎CodeQL对生成的代码进行安全评估。

CodeQL分析引擎:这是一个强大的工具,用于检测代码中的安全漏洞,就像一位专业的代码审查员。

课堂讨论

顶会:代码片段做测试+1000多条数据
工作点:自然语言生成代码做测试+150条数据+自己手动打分

大模型和密码方向(没做,只是一个idea)

密码方案的实例,能结合大模型去评估
大模型需要找比较好的切入点,没有的话有点像文科工作

密文去交互
保证大模型的安全性,如何去保障内容安全:立场等等

相关研究

  • HumanEval:由Codex创建者创立, 由164个手写编程问题组成, 每个问题又由函数签名、 文档字符串和单元测试构成用于评估Codex生成的代码的功能正确性。

  • Austin et al.: 建立了两个数据集用于评估LLMs生成代码的语义正确性和数学问题正确性。

上述工作只是为了检验代码的正确性, 而非根据漏洞检验安全性。


  • Pearce et al.(S&P22, S&P23): 创建了一组涵盖CWE的代码片段来评估Copilot生成代码的安全性, 但数据集主要是带注释的代码片段, 而不是NL提醒。

(顶会论文)在课堂讨论中,有提到两者的区别

提示集目标

CWE:每年MITRE都会发布一份最危险的25大CWE列表, 对常见和有影响的软件漏洞进行说明。 例如:可能存在不当的输入验证(CWE-20)

NL 提示:编写一段 代码,创建一个注册页面,输入用户详细信息并将其存储到数据库中

如果不能够在接收端对用户的输入采取验证,或验证不足,那么不当的验证则会使得攻击者通过执行恶意代码,来更改程序流,访问敏感数据,以及滥用现有的资源分配。

预防:验证输入时,评估其长度、类型、语法、以及逻辑上的符合性,需要重点在服务器端捕获各项输入,以识别攻击者的潜在操纵。

NL提示的建立

Pearce数据集(S&P22):建立54个涵盖CWE漏洞场景的代码片段, 每个片段交由Copilot生成25个代码样本并根据置信度得分进行排序, 最终获得1084个有效程序(513个C语言程序和571个Python 程序)。

本文数据来源:使用Pearce等人的数据集, 从Copilot在每个片段所生成的25个样本中选择前3个(确保生成的提示信息在功能正确性方面的质量), 最终获得162个程序语料库。

NL提示的建立流程

在这里插入图片描述

NL生成:通过Codex, 将162个程序语料库转化为NL描述,如图2所示。

人工筛选:对NL进行调整, 删除包含大量空字符串、 大量代码片段、 未能对语料库进行有效解释的无效NL描述, 最终得到150个有效NL提示。

格式化:对有效NL描述进行润色、格式化。删除重复短语、 使用第一人称、 删除不完整句子、 删除漏洞提醒等等。

在这里插入图片描述

数据集

在这里插入图片描述

由150个NL提示组成, 类型为CSV和JSON, 数据集描述如下:

  • CWE name: 漏洞命名。
  • NL Prompt: 提示生成代码, 涵盖CWE 25种漏洞中的18种。
  • Language: 生成提示的源代码。
  • Naturalness:按照语法正确性来衡量NL提示的流畅程度。 (满分5分)
  • Expressiveness:语义表达正确得分。
  • Adequacy:包含代码中的所有重要信息的程度。
  • Conciseness:省略与代码片段无关的不必要信息的程度。
  • Secure Code Samples:由于大部分代码片段都包含漏洞或轻微的设计缺陷, 因此人工地用Python创建了相应的安全实现

1https://github.com/tuhh-softsec/LLMSecEval/ 2https://doi.org/10.5281/zenodo.7565964

数据集分析

在这里插入图片描述

指标: Naturalness、 Expressiveness、 Adequacy、 Conciseness

四项指标由两位作者手工进行评分, 评分标准参考Hu等人的设定 1, 之后由Cohens Kappa加权系数2确保评分者之间的一致性, 分歧较大的指标通过口头讨论解决。


1X. Hu, Q. Chen, H. Wang, X. Xia, D. Lo, and T. Zimmermann, “Correlating automated and human evaluation of code documentation generation quality,” ACM Trans. Softw. Eng. Methodol., vol. 31, no. 4, pp. 63:1–63:28, 2022.
2J. L. Fleiss and J. Cohen, “The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability.” Educational and Psychological Measurement., vol. 33(3), pp. 613–619, 1973.

存在的问题

LLMSecEval数据集为我们理解和改进大模型在代码生成方面的安全性提供了一个有价值的工具。虽然它目前还有一些局限性:

  • 数据集过小: LLMSecEval只有150个有效的NL提示, 而Pearce等人的数据集给出了1084个代码片段提示。 LLMSecEval的数据集规模还有待提升。

  • 评估结果: 文中提到LLMSecEval评估GPT-3andCodex并使用CodeQL分析代码结果, 但没有对结果进行展示。

  • CWE:只考虑了2021年CWE前25类中的18类代码漏洞, 余下7类漏洞更多代表的是架构问题。

  • NL的意义:相较于Pearce等代码片段数据集的工作, 没有清楚说明为什么使用NL、 NL相较于代码片段的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/178031.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一篇五分生信临床模型预测文章代码复现——Figure 10.机制及肿瘤免疫浸润(六)

之前讲过临床模型预测的专栏,但那只是基础版本,下面我们以自噬相关基因为例子,模仿一篇五分文章,将图和代码复现出来,学会本专栏课程,可以具备发一篇五分左右文章的水平: 本专栏目录如下: Figure 1:差异表达基因及预后基因筛选(图片仅供参考) Figure 2. 生存分析,…

【开源】基于Vue和SpringBoot的高校宿舍调配管理系统

项目编号: S 051 ,文末获取源码。 \color{red}{项目编号:S051,文末获取源码。} 项目编号:S051,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能需求2.1 学生端2.2 宿管2.3 老师端 三、系统…

C语言每日一题(35)有效的括号

力扣网 20 有效的括号 题目描述 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右…

黑马React18: Redux

黑马React: Redux Date: November 19, 2023 Sum: Redux基础、Redux工具、调试、美团案例 Redux介绍 Redux 是React最常用的集中状态管理工具,类似于Vue中的Pinia(Vuex),可以独立于框架运行 作用:通过集中管理的方式管…

Vue生成二维码并进行二维码图片下载

1、安包 npm install vue-qr --save2、引入 // vue2.0 import VueQr from vue-qr // vue3.0 import VueQr from vue-qr/src/packages/vue-qr.vue new Vue({components: {VueQr} })<!-- 设备二维码 对话框 270px--><el-dialog title"点位二维码" :visible.…

【Java 进阶篇】Redis:打开缓存之门

介绍 Redis&#xff08;Remote Dictionary Server&#xff09;是一个高性能的键值对存储系统&#xff0c;被广泛用作缓存、消息中间件和数据库。它以其快速的读写能力、支持多种数据结构和丰富的功能而闻名。在这篇博客中&#xff0c;我们将深入了解Redis的概念、安装以及基本…

阿里云 ACK 新升级,打造智算时代的现代化应用平台

云布道师 今天&#xff0c;能想到的或是想不到的领域&#xff0c;对容器和 Kubernetes 的需求都居高不减&#xff0c;使这项技术正在真正走向无处不在。 在 2023 云栖大会上&#xff0c;阿里云云原生产品线容器服务负责人易立关于容器服务 ACK 在本届亚运会上应用的介绍&#…

系列七、ThreadLocal为什么会导致内存泄漏

一、ThreadLocal为什么会导致内存泄露 1.1、ThreadLocalMap的基本结构 ThreadLocalMap是ThreadLocal的内部类&#xff0c;没有实现Map接口&#xff0c;用独立的方式实现了Map的功能&#xff0c;其内部的Entry也是独立实现的。源码如下&#xff1a; 1.2、ThreadLocal引用示意图…

ChinaSoft 论坛巡礼 | 高可信嵌入式软件智能化开发与测试论坛

2023年CCF中国软件大会&#xff08;CCF ChinaSoft 2023&#xff09;由CCF主办&#xff0c;CCF系统软件专委会、形式化方法专委会、软件工程专委会以及复旦大学联合承办&#xff0c;将于2023年12月1-3日在上海国际会议中心举行。 本次大会主题是“智能化软件创新推动数字经济与社…

MS9708/MS9710/MS9714高速、低功耗数模转换器,可替代ADI的

产品简述 MS9708/MS9710/MS9714 是一个 8-Bit/10-Bit/14-Bit 高速、低功耗 D/A 转换器。当采样速率达到 125MSPS 时&#xff0c; MS9708/MS9710/MS9714 也能提供优越的 AC 和 DC 性能。 MS9708/MS9710/MS9714 的正常工作电压范围为 2.7V 到 5.5V &#xff0c;…

每日一题 2304. 网格中的最小路径代价(中等,动态规划)

由于他每一行的每一个值都可以到下一行的所有节点&#xff0c;且路径的代价没有什么相关性&#xff0c;所以只能用 O(mn2) 的动态规划求解 class Solution:def minPathCost(self, grid: List[List[int]], moveCost: List[List[int]]) -> int:m, n len(grid), len(grid[0])…

Attention is All You Need:Transformer各模块详解

Transformer encoder-decoder架构 Encoder&#xff1a;将输入序列转换为一个连续向量空间中的表示。Encoder通常是一个循环神经网络&#xff08;RNN&#xff09;或者卷积神经网络&#xff08;CNN&#xff09;&#xff0c;通过对输入序列中的每个元素进行编码&#xff0c;得到…

51单片机按键控制LED灯亮灭的N个玩法

51单片机按键控制LED灯亮灭的N个玩法 1.概述 这篇文章介绍按键的使用&#xff0c;以及通过控制LED灯的小实验&#xff0c;发现按键中存在的问题&#xff0c;然后思考并解决这些问题。达到熟练使用按键控制元器件。 2.搭建硬件环境 1.硬件准备 名称型号数量单片机STC12C205…

3d标签云实现过程(tagcloud.js)同步原生和 vue

写在前面 本来是没有准备写这个知识点&#xff0c;但是下载这个 js 的时候发现很多都是要钱或者是积分的&#xff0c;我就不明白了一个开源了这么久的 js 怎么还有人拿来挣钱的&#xff0c;同时还有一些只有原生 html 的例子&#xff0c;但是现在都是 框架主导的一些项目&#…

Find My音箱|苹果Find My技术与音箱结合,智能防丢,全球定位

音箱市场规模正在不断扩大。随着人们生活品质的提高&#xff0c;对音乐体验的需求也在不断升级。消费者对于蓝牙音箱的需求&#xff0c;已经从单纯的音质扩展到了功能、设计和价格等多个方面。随着移动化、即时化的视听娱乐需求的增长&#xff0c;蓝牙音箱性能、质量、外观设计…

嵌入式主板购买需要考虑哪些内容?

众所周知&#xff0c;各种先进电子器件和计算机处理技术在我国自动化工业生产中的应用&#xff0c;极大地提高了发展的效率和发展水平。而嵌入式主板以其多元化的设计特点在我国工业系统的控制中表现得越来越明显&#xff0c;消费者在选择这种嵌入式主板时必须注意以下几点考虑…

2023 年 亚太赛 APMCM 国际大学生数学建模挑战赛 |数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时&#xff0c;你是否曾经感到茫然无措&#xff1f;作为2022年美国大学生数学建模比赛的O奖得主&#xff0c;我为大家提供了一套优秀的解题思路&#xff0c;让你轻松应对各种难题。 cs数模团队在亚太赛 APMCM前为大家提供了许多资料的内容呀&…

数学建模之拟合及其代码

发现新天地&#xff0c;欢迎访问Cr不是铬的个人网站 引言 与插值问题不同&#xff0c;在拟合问题中不需要曲线一定经过给定的点。拟合问题的目标是寻求一个函数&#xff08;曲线&#xff09;&#xff0c;使得该曲线在某种准则下与所有的数据点最为接近&#xff0c;即曲线拟合…