第58期 | GPTSecurity周报

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. 你的AI生成的代码真的安全吗?通过CodeSecEval评估大语言模型在安全代码生成方面的表现

简介:大语言模型(LLMs)在代码生成和修复方面取得显著进展,但其训练数据源自未经过滤的开源代码库(如GitHub),存在传播安全漏洞的风险。尽管有研究关注代码LLM的安全性,但对其安全特性的全面评估尚不足。为此,研究者提出了CodeSecEval,一个包含44种关键漏洞类型和180个样本的数据集,用于自动评估代码模型在生成和修复代码中的安全表现。实验发现现有模型常忽视安全问题,导致生成易受攻击的代码。为解决这一问题,研究者提出了利用漏洞感知信息和不安全代码解释的策略。研究进一步强调了某些漏洞类型对模型性能的特别挑战,期望这项工作能促进软件工程社区改进LLM的训练和应用方法,实现更安全可靠的模型部署。

链接:https://arxiv.org/pdf/2407.02395

2. SOS!针对开源大语言模型的软提示攻击

简介:开源大语言模型(LLMs)因其可定制性、微调性和自由使用性,深受公众和工业界欢迎。然而,一些开源的LLMs在使用前需要获得批准,促使第三方发布更易获取的版本,这些版本虽受用户青睐,却增加了训练时间攻击的风险。研究者提出了一种新的训练时间攻击SOS,其计算需求低,无需干净数据或修改模型权重,保持了模型的实用性完整。SOS攻击解决了后门、越狱和提示窃取等安全问题。实验结果表明,SOS攻击在所有评估目标上都表现出有效性。此外,研究者还提出了版权令牌技术,允许用户标记其受版权保护的内容,以防止模型使用这些内容。

链接:https://arxiv.org/pdf/2407.03160

3. DART:用于大语言模型安全性的深度对抗自动红队测试

简介:手动红队测试用于识别大语言模型(LLMs)的漏洞,但成本高且难以扩展。相比之下,自动红队测试利用红队LLM生成对抗性提示,提供了可扩展的安全漏洞检测方法。然而,目标LLM的安全漏洞动态变化,构建强大的自动红队LLM具有挑战性。为解决这一问题,研究者提出了DART框架,通过迭代方式使红队LLM和目标LLM深度动态交互。红队LLM根据目标LLM的响应和攻击多样性调整攻击方向,目标LLM通过主动学习数据选择机制增强安全性。实验结果显示,DART显著降低了目标LLM的安全风险。在Anthropic Harmless数据集上的评估中,DART将违规风险减少了53.4%。

链接:https://arxiv.org/pdf/2407.03876

4. 保护多轮对话语言模型免受分布式后门触发器攻击

简介:尽管多轮对话大型语言模型(LLMs)是最受欢迎的LLM应用之一,但其安全性研究却相对不足。LLMs容易受到数据污染后门攻击的影响,攻击者通过操控训练数据使模型在预设触发条件下输出恶意响应。在多轮对话中,LLMs面临更隐蔽和有害的后门攻击风险,后门触发器可能跨越多个对话环节,增加了上下文驱动攻击的潜在威胁。研究者探索了一种新型的分布式后门触发器攻击,作为对手工具箱的额外工具,并揭示其对现有防御策略的挑战。为应对这一问题,研究者提出了基于对比解码的新型防御方法,能够有效降低后门攻击的影响,且计算成本相对较低。

链接:https://arxiv.org/pdf/2407.04151

5. 使用标记替换防御语法文本后门攻击

简介:文本后门攻击对大语言模型(LLM)的安全性构成重大威胁。它在训练阶段向受害模型嵌入精心选择的触发器,导致模型误将包含这些触发器的输入预测为特定类别。先前的后门防御方法主要针对特殊标记的触发器,而对基于语法的触发器处理不足。为此,本文提出了一种新的在线防御算法,用完全不同的词替换句子中语义有意义的词,但保留句法模板或特殊标记,然后比较预测标签来判断是否存在触发器。实验结果显示,该算法有效对抗这两种类型的触发器,为保障模型完整性提供了全面的防御策略。

链接:https://arxiv.org/pdf/2407.04179

6. 大语言模型的越狱攻击及防御:一项调查

简介:大语言模型(LLMs)在多种文本生成任务中表现出色,但其过度辅助特性引发了“越狱”挑战,即通过对抗性提示设计诱使模型生成违反政策和社会伦理的恶意响应。随着利用LLMs不同漏洞的越狱攻击方法的出现,相应的安全对齐措施不断演进。本文提出了详尽的越狱攻击与防御方法分类体系,将攻击分为黑盒和白盒两类,防御则分为提示级和模型级两种。研究者进一步细分了这些方法的子类,并通过图示展示它们之间的关系。通过调查和比较当前的评估方法,研究者的研究旨在推动保护LLMs免受对抗攻击的未来研究和实际应用,提升对该领域的理解并促进更安全的LLMs开发。

链接:https://arxiv.org/pdf/2407.04295

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/789672.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python程序封装成Windows服务实践

1. WinSW 工具概述 WinSW(Windows Service Wrapper)是一个轻量级的、开源的工具,用于将任何可执行文件(包括exe、jar、脚本文件等)包装成一个Windows服务。这意味着,原本设计为命令行应用或需要手动启动的…

03 数据加工层 如何精准匹配用户画像与物品画像?

我们讲解了个性化流量分发体系搭建流程中的数据加工阶段,不过在前面我们主要讲解了如何构建结构化标签,并未提及用户画像和物品画像的构建,以及如何将用户画像与物品画像进行匹配。本节课我们探讨下如何通过深加工帮助用户快速获取有效信息。…

漏洞挖掘思路分享 | 首次尝试cnvd捡洞

因为那天项目刚忙完闲来无事,尝试捡个cnvd洞,cnvd录取要五千万资产,自己又懒得找毕竟捡洞嘛,索性去cnvd上进行搜集 直接开搜弱口令,因为我比较喜欢有登录框的站,这样搜索出来的资产可能就更容易进行挖掘 随…

Paimon下载使用和基础操作说明

简介 Apache Paimon 是一种湖格式,支持使用 Flink 和 Spark 构建实时湖仓一体架构 用于流式处理和批处理操作。Paimon创新性地将湖格式与LSM(Log-structured merge-tree)相结合 结构,将实时流式更新引入 Lake 架构。 Paimon提供以…

IoC源码分析——singleton bean创建与循环依赖

文章目录 概要主流程bean的创建循环依赖 概要 容器初始化时,会创建单例bean,本文主要关注单例bean是如何创建的,并说明源码中是如何解决循环依赖的 代码入口 Testpublic void testIoC() {// ApplicationContext是容器的高级接口&#xff0c…

中霖教育怎么样?税务专业可以考哪些证书?

在税务专业领域,专业技能的认证对职业发展至关重要。以下为税务专业相关可以考的证书: 1. 注册税务师资格证书:该证书是税务专业人士的关键资质,使持证者可以从事税务相关工作。 2. 会计职称证书:会计系列证书分为初…

即时通讯平台项目测试(主页面)

http://8.130.98.211:8080/login.html项目访问地址:即时通讯平台http://8.130.98.211:8080/login.html 本篇文章进行项目主页面的测试。 在测试前需要先对待测内容进行分类,按照功能进行分类可以分为:个人信息设置、发送/接收消息、添加好友…

python-25-零基础自学python-处理异常三兄弟try-except-else

学习内容:《python编程:从入门到实践》第二版第十章 知识点: 程序异常如何处理?try-except-else try-尝试可能引起错误的步骤 except-错误步骤发生,打印一些需要用户知道的信息,没有就pass else-错误不…

【密码学】公钥密码的基本概念

在先前我写的密码学体制文章中谈到,现代密码学分为两大体制,介绍了一些有关对称密码体制诸如流密码和分组密码的内容。本文的主要内容则切换到公钥密码体制(又称非对称密码体制),简述了公钥密码体制的基本思想和应用方…

MFC常见问题解决

文章目录 1. 单文档程序初始化显示设置问题解决方案 2. MFC中控件响应出错 1. 单文档程序初始化显示设置 问题 在Microsoft Foundation Classes (MFC) 中,单文档应用程序(SDI)的初始化时默认并不设置为最大显示。但你可以通过编程方式在程序…

传神论文中心|第16期人工智能领域论文推荐

在人工智能领域的快速发展中,我们不断看到令人振奋的技术进步和创新。近期,开放传神(OpenCSG)社区发现了一些值得关注的成就。传神社区本周也为对AI和大模型感兴趣的读者们提供了一些值得一读的研究工作的简要概述以及它们各自的论…

MiniGPT-Med 通用医学视觉大模型:生成医学报告 + 视觉问答 + 医学疾病识别

MiniGPT-Med 通用医学视觉大模型:生成医学报告 视觉问答 医学疾病识别 提出背景解法拆解 论文:https://arxiv.org/pdf/2407.04106 代码:https://github.com/Vision-CAIR/MiniGPT-Med 提出背景 近年来,人工智能(AI…

Mybatis的学习

什么是MyBatis? MyBatis 是一款优秀的持久层框架,用于简化JDBC 开发 MyBatis 本是 Apache 的一个开源项目iBatis,2010年这个项目由apache software foundation 迁移到了google code,并且改名为MyBatis。2013年11月迁移到Github 官网:https://mybatis…

Python的语言特性

1,python是动态语言 在编译期间就确定变量类型的语言是静态语言 在运行期间才知道变量类型的是动态语言 2,python是强类型语言 不同类型的变量是否允许隐式转换

简过网:哪些证书适合上班族考?这些证书挂着就能挣钱!

考证不一定暴富,但找工作时一定吃香 今天给大家整理几个比较吃香的证书! 不仅含金量高还可以领补贴 建议大家有时间都考一考 普通人就冲一冲:教资、二建、一建、一造、监理!! ​ ★ 教师资格证书 报名时间&#x…

STM32G4 DMA的使用(寄存器开发)

下面以STM32G474为例,使用DMA来存储USART1的接收数据。 1. 查看硬件支持 首先查看要使用的DMA支持的通道数,在手册中有如下说明。 根据上图可以看到,对于不同的设备类型有不同的DMA通道数量。设备类型分类如下图所示。 我使用的是STM32G474…

获取天气数据

获取天气数据其实是一个简单的HTTP接口,根据用户输入的adcode,查询目标区域当前/未来的天气数据,数据来源是中国气象局。 第一步,申请”web服务 API”密钥(Key); 链接: 首页 | 高德控制台 (am…

Redis基础教程(二十):Java使用Redis

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

架构师机器学习操作 (MLOps) 指南

MLOps 是机器学习操作的缩写,是一组实践和工具,旨在满足工程师构建模型并将其投入生产的特定需求。一些组织从一些自主开发的工具开始,这些工具在每次实验后对数据集进行版本控制,并在每个训练周期后对检查点模型进行版本控制。另…

Mybatis的优缺点及适用场景?

目录 一、什么是Mybatis? 二、Mybatis框架的特点 三、Mybatis框架的优点? 四、MyBatis 框架的缺点? 五、MyBatis 框架适用场合? 六、代码示例 1. 配置文件 mybatis-config.xml 2. 映射文件 UserMapper.xml 3. Java 代码…