华盛顿大学撰文反驳微软,我们无法删除大模型关于哈利波特的记忆

在人工智能的发展过程中,一个引人入胜的议题是机器学习模型是否能够被训练以忘记其曾经学到的信息。近期,Ronen Eldan和Mark Russinovich在其研究“谁才是哈利·波特?”[1]中提出了一种创新技术,声称能够从LLMs中“抹去”特定数据集的记忆,尤其是针对《哈利·波特》这样的知名作品。他们的方法引发了业界的广泛关注,并被认为是在LLMs“遗忘”技术领域的一大突破。

但是,本文将对Eldan和Russinovich的研究成果提出质疑,认为这样的声明可能过于宽泛。本文通过一系列轻量级实验,探索记忆消除的界限,尤其是针对深度学习模型是否真的能够彻底忘记哈利·波特系列内容的可能性。

分享几个网站

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

论文标题:
THE BOY WHO SURVIVED: REMOVING HARRY POTTER FROM AN LLM IS HARDER THAN REPORTED

论文链接:
https://arxiv.org/pdf/2403.12082.pdf

Eldan和Russinovich的方法概述

在Eldan和Russinovich的研究中,他们提出了一种针对LLMs的“遗忘”技术,这一技术的核心在于通过微调(finetuning)过程,有选择性地从模型中移除特定信息。具体来说,他们的方法首先通过强化学习(reinforcement learning)来训练一个模型,使其对目标数据集(例如《哈利·波特》系列)有更深入的理解。然后,他们利用这个强化后的模型来识别与目标数据集最相关的词汇和表达,通过替换这些特定的表达为更通用的词汇,以此来“遗忘”原始数据集中的信息。

下图比较了在不同微调步骤中,对于句子“Harry Potter studies”下一个词汇的概率分布,展示了最可能的下一个词汇是如何逐渐从“magic”转变为通用完成形式的。

图片

Eldan和Russinovich声称,通过这种方法,他们能够在大约1个GPU小时的微调后,有效地抹去模型对《哈利·波特》系列的记忆(下图比较了Llama-7b微调前后的变化)。

图片

他们通过在多个常见的语言模型基准测试中评估模型的性能,如Winogrande、HellaSwag、ARC等,发现模型在这些测试中的表现几乎没有受到影响(下图),从而得出结论,认为他们的技术能够在不影响模型整体性能的前提下,实现对特定内容的“遗忘”。

图片

实验设置与设计:挑战LLM遗忘哈利·波特内容的可能性

本文作者在2019年的iMac上运行了一系列实验,并通过Ollama工具进行了测试。

实验的设计主要在以下三个方面:

1. 原型测试:检验与哈利·波特相关的核心概念

在原型测试中,我们探索了与哈利·波特强烈关联的概念,例如“楼梯下的男孩”和“幸存的男孩”。这些原型提示旨在测试作为相关标记集群的“想法”,而不是特定的标记序列。

2. 遗漏术语测试:探索可能被忽略的特定词汇

我们还测试了作者可能遗漏的术语,如“麻瓜”和“泥巴种”。这些测试旨在发现在尝试从模型中删除哈利·波特相关内容的过程中可能被忽视的特定词汇。

3. 不可消除短语测试:评估难以移除的特定句子

最后,我们对那些作者可能无法消除的短语进行了测试,例如“不可名状的他”。与原型不同,这些短语测试是针对特定的标记序列。

实验结果与讨论:对知识“消除”目标的批判性思考

1. 讨论记忆消除的定义和评估方法

图片

记忆消除,或所谓的“memory-hole”过程,指的是从LLMs中删除特定知识的尝试。Shostack通过少量不到十二次的试验,模型不仅明确提到了哈利波特,还多次“接近”提及,例如提到了“harry harris series”(上图)和“Voldemar Grunther”(下图),这些都与哈利波特系列有着密切的联系。

图片

这些实验结果引发了对记忆消除定义和评估方法的深入思考。首先,我们必须明确“消除”知识的含义:它是否意味着模型完全不再生成与目标内容相关的任何信息,还是仅仅减少了这类信息的生成频率?其次,评估记忆消除的有效性需要一套严谨的方法论。例如,是否应该仅仅依赖于模型的直接输出,或者还应该考虑模型生成的内容与目标知识的相似度?

2. 锚定效应和安全分析的重要性

在进行记忆消除的实验时,避免锚定效应至关重要。锚定效应是指个人在面对不确定性时,会过分依赖(或锚定于)第一个接收到的信息。Shostack在实验中未完全阅读Eldan和Russinovich的论文,这反而避免了他在实验设计上受到原有结论的影响。这种无意识的实验设计可能更能揭示模型记忆消除的真实效果。

此外,安全分析在评估记忆消除的过程中也扮演了重要角色。安全分析关注的是在消除特定知识后,模型是否仍可能产生有害或不当的输出。例如,尽管模型可能不再直接提及“哈利波特”,但它可能会生成与哈利波特相关的隐晦内容,这仍然可能触发版权或其他法律问题。

总结:对LLM记忆消除能力的反思与展望

1. 实验结果的反思

实验结果显示,尽管模型经过调整以避免生成哈利波特相关内容,但在多次尝试中,模型仍然能够产生与哈利波特相关的回应。例如,模型曾经提到“harry harris series”和“Voldemar Grunther”,这些都与哈利波特系列有着密切的联系。这表明,尽管模型被训练以忘记特定的信息,但它仍然能够通过不同的方式回忆起这些信息,或者至少是与之相关的概念。

2. 记忆消除的挑战

记忆消除的过程比预期中更为复杂。尽管可以通过调整模型来减少特定信息的生成,但完全消除模型中的某个特定知识点似乎是一项艰巨的任务。这不仅仅是因为信息可能以多种形式存在于模型中,而且因为语言本身的复杂性和多样性使得完全避免某些话题变得极其困难。

3. 未来的展望

展望未来,我们需要更深入地理解LLM如何存储和检索信息,以及如何更有效地进行记忆消除。这可能需要开发新的技术和方法,以更精细地控制模型的输出,并确保它们不会无意中泄露被遗忘的信息。此外,我们还需要考虑如何评估记忆消除的效果,以及如何确保这一过程不会损害模型的其他功能和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/509737.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

城市交通视频视频联网系统实施方案

目录 1.需求调研 2.系统设计 3.技术分析 4.技术开发 5.系统平台环境要求 6.网络要求 7.安全要求 8.项目交付和验收 8.1交付准备 8.2系统安装、培训 8.2.1系统验收 8.2.2项目进度计划 附录:交通监控设备情况调研表 1.需求调研 从SZ市交通运输局、以及下…

opencv使用问题记录一二

opencv介绍 opencv是一个计算机视觉处理软件库,拥有强大的功能和高效的性能。 但是由于早期版本的原因,存在一些与目前主流使用不兼容的问题 问题与解决 RGB通道顺序 一般图片处理类库的通道顺序就是RGB,但是opencv的是反过来的&#xf…

如何改写出优质文案,AI写作工具有方法

在当今数字化时代,内容创作已成为企业和个人在市场竞争中脱颖而出的关键因素。而写作优质文案是吸引读者注意力、传达信息以及促使行动的重要手段之一。然而,对许多人来说,写作可能是一项具有挑战性的任务。幸运的是,随着人工智能…

书生·浦语大模型开源体系(二)笔记

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢…

【Vscode】无法将“python,pip,node,npm等”识别为cmdlet...问题

问题出现场景 新换个电脑,然后重新安装了软件,又复现一次又一次“老生常谈”的问题。 解决方法 网络答案吧五花八门,我采取一个我的场景解决可行的方案, 首先我的场景是,环境变量,配置路径都是没有问题…

super关键字的使用总结

一、super关键字的使用1. 为什么需要super?举例1:子类继承父类以后,对父类的方法进行了重写,那么在子类中,是否还可以对父类中被重写的方法进行调用? 可以!举例2:子类继承父类以后&a…

ice-06 运用Burp-Suite进行暴力破解(攻防世界)

ice-06 步骤一:点击超链接,发现只有报表中心才有用。 步骤二:点进去发现输入日期范围没有用 步骤三:使用Burp Suite进行抓包,把值传到Action到Intruder中 步骤四:如图所示进行配置 步骤五:攻击…

13.2k star, 高生产力的低代码开发平台 lowcode-engine

13.2k star, 高生产力的低代码开发平台 lowcode-engine 分类 开源分享 项目名: lowcode-engine -- 高生产力的低代码研发平台 Github 开源地址: GitHub - alibaba/lowcode-engine: An enterprise-class low-code technology stack with scale-out design / 一套面…

【滤波器基础】卡尔曼滤波器

滤波器基础 为了进一步抑制高频噪声,科研人员也会采用一些高阶低通滤波器来对电流采样信号的高频噪声进行抑制,常用的一种滤波器为:巴特沃兹滤波器。除了这种滤波器,也存在如贝塞尔、切比雪夫滤波器等。 巴特沃斯滤波器 在线性控…

【御控物联】JavaScript JSON结构转换(15):对象To数组——转换映射方式

文章目录 一、JSON结构转换是什么?二、术语解释三、案例之《JSON对象 To JSON数组》四、代码实现五、在线转换工具六、技术资料 一、JSON结构转换是什么? JSON结构转换指的是将一个JSON对象或JSON数组按照一定规则进行重组、筛选、映射或转换&#xff0…

服务器托管让服务器管理更轻松高效

在信息化飞速发展的今天,服务器作为企业数据处理和信息存储的核心设备,其管理的重要性日益凸显。服务器托管,作为一种高效、专业的服务器管理方式,正逐渐成为众多企业的首选。那么,服务器托管究竟是如何让服务器管理更…

10个最佳3D角色下载站

每个人都喜欢免费的东西。 无论是免费的 3D 角色还是游戏资产,我们都喜欢它们。 以下是可以为你的游戏获取免费 3D 角色的前 10 个网站的列表。 你可以将它们用于多种用途,例如 3D 打印或动画剪辑。 如果需要将下载的3D角色转化为其他格式,可…

面具下的flag【杂项】

知识点: binwalk 检测文件是否合并binwalk -e 文件名 将文件进行剥离,自动解压出压缩包中的文件vmdk文件是可以进行解压的 7z x 文件 -o./vmdk是linux文件,需要在linux中进行解压,看了别人的wp发现在window中解压是没有关键信息…

智能化最积极的海尔,对大模型不着急了

文|刘俊宏 AI改变终端的时代,最早投入智能化的家电公司表现怎么样? 3月27日晚间,海尔智家(下简称海尔)发布其2023年报。财报显示,2023年海尔智家营收2614.28亿元,同比增长7.33%&am…

把组合损失中的权重设置为可学习参数

目前的需求是:有一个模型,准备使用组合损失,其中有2个或者多个损失函数。准备对其进行加权并线性叠加。但想让这些权重进行自我学习,更新迭代成最优加权组合。 目录 1、构建组合损失类 2、调用组合损失类 3、为其构建优化器 …

filebeat日常使用.

先决条件(已经安装好filebeatelasticsearch) 详情可以参考官网,或者 虚拟机部署elasticsearch集群-CSDN博客 centos7 使用rpm包部署filebeat-CSDN博客 filebeat配置文件 标准输入console输出 (1)编写测试的配置⽂件 mkdir /etc/filebeat/config [rootelk101 /tmp]$vim /et…

练习 15 Web [极客大挑战 2019]Knife

因为没有按顺序刷题,这道送分题 要知道两个点 1.什么是“一句话木马” 2.什么是“菜刀” or“蚁剑” 蚁剑连接就行 flag{1b894a2d-8df1-4b06-9054-e90d73257006}

春季养生从睡眠开始

睡眠可以缓解疲劳,恢复精神状态。特别是在春季,调整好睡眠对于养生是很有好处的,HUAWEI WATCH GT 4 系列用更科学的睡眠监测、管理与改善,守护你的好梦。

js 基础知识 forEach 和 map 的区别,及 map 不加 return 返回什么

问题一:forEach 和 map 之间的区别: 1、forEach 不返回新数组,map 返回新数组,其中包含回调函数的返回值。 2、用途:如果只想要遍历数组并对每个元素执行某些操作而不产生新数组,那么应该使用 forEach&am…

Selinux安全策略文件

在Selinux框架中,安全策略都是写在te文件中,以adb.te 文件为例 allow adbd shell_data_file:dir create_dir_perms;策略的基本格式是: rule_name source_type target_type :object_class perm_setrule_name 规则名。常见的规则名有allow,ne…