人民大学:揭示大语言模型事实召回的关键机制

引言:大语言模型事实召回机制探索

该论文深入研究了基于Transformer的语言模型在零射击和少射击场景下的事实记忆任务机制。模型通过任务特定的注意力头部从语境中提取主题实体,并通过多层感知机回忆所需答案。作者提出了一种新的分析方法,可以将多层感知机的输出分解成人类可以理解的组件。此外,观察到模型的最后一层具有抑制正确预测的反过度自信机制,通过利用模型解释来减轻这种抑制,从而提高事实回忆性能。这些解释已在各种语言模型和任务中得到评估。

论文标题
Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models

论文链接:
https://arxiv.org/pdf/2403.19521.pdf

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

Transformer语言模型的事实回忆

1. 事实回忆任务的重要性与研究背景

事实回忆任务在自然语言处理领域占据着举足轻重的地位。近年来,基于Transformer的语言模型在理解和生成自然语言方面取得了显著成就,但它们的内部机制仍然相对不透明,对于事实回忆任务的研究尤为关键。有学者表示,语言模型在处理事实回忆任务时,会经历两个主要阶段:首先是参数形成阶段,模型将问题中的关键实体(如“法国”)提取出来,形成一个隐含的函数;其次是函数应用阶段,模型将提取出的实体转换为所需的答案(如“巴黎”)。这些发现为该研究提供了宝贵的基础,但仍有许多未解之谜,例如模型是如何从上下文中提取参数并传递给所谓的“函数”的,以及“函数应用”具体是如何与MLP层相关联的。

2. 语言模型在事实回忆中的关键阶段

在零次学习场景中,当给定一个提示如“The capital of France is”时,特定的注意力头会从上下文中提取出主题实体“France”,并将其传递给后续的MLP层以回忆出所需答案“Paris”。研究者引入了一种新颖的分析方法,旨在将MLP的输出分解为人类可理解的组成部分。通过这种方法,量化了MLP层在这些特定注意力头之后的功能。在残差流中,MLP层要么擦除要么放大来自单个的信息,并生成一个将残差流引向预期答案方向的组件。这些零次学习机制也被用于少次学习场景。此外,还观察到在模型的最后一层存在一种普遍的反过度自信机制,该机制会抑制正确的预测。研究者利用解释来改善事实回忆性能,减轻这种抑制。

研究方法

1. MLP输出的人类可理解分解方法

本研究提出了一种新颖的分析方法,用于理解某些深层MLP的行为。该方法揭示了一些MLP的行为类似于激活注意力头,同时也生成了一个负责“函数应用”的任务感知组件。这种分析方法的有效性得到了大量实证证据的支持。

2. 实验设计:从GPT-2到OPT-1.3B的模型范围

研究者研究了从GPT-2小型、中型和大型,到OPT-1.3B不同规模的Transformer基础语言模型。研究涉及两个事实回忆任务,涵盖了不同领域的知识。主要文本详细介绍了使用GPT-2小型模型进行的实验,该模型具有12层和每层12个头,使用的是国家-首都任务。

最终层的普遍反过度自信机制

1. 如何识别并缓解模型在最终层的自信抑制

在最终层,无论是零次学习(zero-shot)还是少次学习(few-shot)场景,模型都倾向于通过其最后一层抑制正确的预测。这种抑制是通过整合频繁出现的词汇到残差流中,并利用MLP(多层感知机)将残差流引向训练语料库中的“平均”词汇来实现的。为了缓解这种抑制,采用了两种策略:一是应用注意力掩码,限制注意力头只关注最后的位置;二是从残差流中减去最终MLP层的截距。这些策略在不同的模型和任务中都得到了验证,有效提高了正确预测的概率。

2. 反过度自信机制的普遍性及其对预测的影响

这种反过度自信机制的普遍性表明,它并不依赖于特定的任务、模型或上下文演示的数量。这种机制可能是模型为了避免在错误预测时产生过分自信而导致的大量损失的一种防御策略。例如,在GPT-2小模型中,通过应用注意力掩码和减去截距的方法,能够将零次学习场景中正确预测的概率从15.51%提高到25.93%。这种策略的有效性在不同的模型和任务中得到了证实,为未来的研究提供了新的方向。

结论与展望

1. 研究总结

本研究深入探讨了Transformer基础的语言模型在事实回忆任务中所采用的机制。在零样本场景中,发现特定的注意力头部能够识别出与任务相关的实体,例如国家名称,并将其传递给后续的多层感知器(MLP),以回忆出所需的答案,如首都名称。研究者引入了一种新的分析方法,旨在将MLP的输出分解为人类可理解的组成部分。通过这种方法,量化了跟随这些任务特定头部的MLP层的功能,发现在残差流中要么抹除要么放大来自个别头部的信息,并生成一个将残差流引向预期答案方向的组件。

此外,观察到在模型的最后一层存在一种普遍的反过度自信机制,该机制通过注意力头部将频繁出现的词汇融入残差流,并利用MLP将残差流引向训练语料库中的“平均”词汇,从而抑制正确预测。

2. 未来研究方向

未来的研究可以在以下几个方向进行深入:

  • 探索任务语义的构建:该研究没有深入探讨模型在浅层如何构建任务语义。未来研究可以探索多个电路路径如何协同工作以形成任务语义,以及如何应对电路发现方法中的协同电路路径挑战。

  • 机制的起源研究:该研究还未探究这些机制的起源,例如MLP将残差流引向预期答案的行为似乎与Transformer架构中的残差连接有关。未来研究可以探讨模型如何使用最终层作为防御线来减轻过度自信带来的风险。

  • 自动化MLP解释技术:该分析方法需要初步的人类推理。未来研究可以探索更自动化的MLP解释技术,这将是一个有前景的研究主题。

此外,该分析方法在解释MLP输出方面具有潜在的广泛应用,可以用于需要控制性的各种应用,如角色扮演、风格化对话和模型越狱等。未来的工作可以在这些领域进行深入研究,以进一步提高语言模型的可解释性和控制性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/526944.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

dll文件丢失怎么恢复,教你5种简单有效的方法

在计算机系统的运行过程中,动态链接库(DLL)文件扮演着至关重要的角色。它们作为共享函数库,封装了大量的可重用代码,使得多个应用程序能够高效调用并执行特定功能,极大地节省了系统资源,提升了软…

Arduino开发 esp32cam+opencv人脸识别距离+语音提醒

效果 低于20厘米语音提醒字体变红 QQ录屏20240406131651 Arduino代码 可直接复制使用&#xff08;修改自己的WIFI) #include <esp32cam.h> #include <WebServer.h> #include <WiFi.h> // 设置要连接的WiFi名称和密码 const char* WIFI_SSID "gumou&q…

指针的深入理解(六)

指针的深入理解&#xff08;六&#xff09; 个人主页&#xff1a;大白的编程日记 感谢遇见&#xff0c;我们一起学习进步&#xff01; 文章目录 指针的深入理解&#xff08;六&#xff09;前言一. sizeof和strlen1.1sizeof1.2strlen1.3sizeof和strlen对比 二.数组名和指针加减…

动态代理

动态代理 动态代理和静态代理角色一致。 代理类是动态生成的,不是我们直接写好的。 动态代理分为俩大类:基于接口的动态代理、基于类的动态代理 基于接口:JDK动态代理(以下示例就是这个) 基于类:cglib java字节码实现:javasist JDK动态代理 InvocationHandler Proxy …

C语言从入门到实战————编译和链接

目录 前言 1. 翻译环境和运行环境 2. 翻译环境 2.1 预处理&#xff08;预编译&#xff09; 2.2 编译 2.2.1 词法分析&#xff1a; 2.2.2 语法分析 2.2.3 语义分析 2.3 汇编 2.4 链接 3. 运行环境 前言 编译和链接是将C语言源代码转换成可执行文件的必经过程&a…

分公司=-部门--组合模式

1.1 分公司不就是一部门吗&#xff1f; "我们公司最近接了一个项目&#xff0c;是为一家在全国许多城市都有分销机构的大公司做办公管理系统&#xff0c;总部有人力资源、财务、运营等部门。" "这是很常见的OA系统&#xff0c;需求分析好的话&#xff0…

Linux 内核移植exfat驱动

简介&#xff1a; Linux系统默认可以自动识别到fat32格式的盘&#xff0c;但fat32支持的文件不能大于4G&#xff0c;所以只能将移动硬盘和U盘格式化为NTFS和exFAT这两种格式的&#xff0c;对于U盘最好格式化为exFAT。 Linux5.4以上的内核原生支持exfat格式&#xff0c;不需要你…

【LeetCode: 572. 另一棵树的子树 + 二叉树 + dfs】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

UE4_动画基础_ 使用分层动画(Using Layered Animations)

完成在移动过程中武器发射的角色制作&#xff01; 动画混合仅仅意味着在一个角色或骨架网格体上的两个或多个动画之间进行平滑过渡。在虚幻引擎4中&#xff0c;有多种方法可以应用这种混合&#xff0c;要么通过混合空间&#xff0c;或通过实际组合两个基于加权偏差或alpha值的…

开源免费的多功能PDF工具箱

它支持修改PDF、编辑PDF书签、导出PDF书签、导入书签、生成、合并、拆分、提取页面内容、提取图片、OCR 功能介绍: 修改PDF信息&#xff1a;修改文档属性、页码编号、页面链接、页面尺寸&#xff1b;删除自动打开网页等动作&#xff0c;去除复制及打印限制&#xff1b;设置阅读…

SpringBoot中这样用ObjectMapper,才够优雅!

目录 背景步骤在SpringBoot项目中要实现对象与Json字符串的互转&#xff0c;每次都需要像如下一样new 一个ObjectMapper对象&#xff1a;这样的代码到处可见&#xff0c;有问题吗&#xff1f;我们要使用jmh测试几种方式的区别&#xff1a;所以在我们真正使用的时候不要在方法中…

tesseract-ocr一站式安装与使用

目录 前言 安装tesseract-ocr 添加环境变量 1、在path中添加 2、在系統變量中添加 3、验证是否添加成功 添加语言包 更多语言包下载 示例程序 前言 如果你遇到了&#xff1a;make sure the TESSDATA_PREFIX Failed loading language \‘chi_sim 那么就是语言包缺少这个&#xf…

【简单讲解下Fine-tuning BERT】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

XAMPP本地开发环境软件的最佳替代品

在开发新网站或应用时&#xff0c;选择合适的本地开发环境是至关重要的。本地开发环境让您可以在自己的电脑上搭建和测试网站或应用&#xff0c;直到它们准备好被迁移到线上服务器。一些工具甚至提供了推送到生产环境的功能&#xff0c;以及设置多个本地站点的能力。 XAMPP是一…

34-5 CSRF漏洞 - CSRF分类

环境准备:构建完善的安全渗透测试环境:推荐工具、资源和下载链接_渗透测试靶机下载-CSDN博客 1)GET 类型 传参: 参数连接在URL后面 POC构造及执行流程: 构造URL,诱导受害者访问点击利用利用标签进行攻击: 构造虚假URL,在链接上添加payload抓包获取数据包,通过CSRF POC…

ping命令返回无法访问目标主机和请求超时浅析

在日常经常用ping命令测试网络是否通信正常&#xff0c;使用ping命令时也经常会遇到这两种情况&#xff0c;那么表示网络出现了问题。 1、请求超时的原因 可以看到“请求超时”没有收到任何回复。要知道&#xff0c;IP数据报是有生存时间的&#xff0c;当其生存时间为零时就会…

K8s学习七(服务发现_2)

Ingress Service 主要用于集群内部的通信和负载均衡&#xff0c;而 Ingress 则是用于将服务暴露到集群外部&#xff0c;并提供灵活的 HTTP 路由规则。在实际应用中&#xff0c;它们通常结合使用&#xff0c;Service 提供内部通信和负载均衡&#xff0c;Ingress 提供外部访问和…

植物糖基转移酶数据库-23年-地表最强系列-文献精读-6

pUGTdb: A comprehensive database of plant UDP-dependent glycosyltransferases pUGTdb&#xff1a;植物UDP依赖糖基转移酶的全面数据库 一篇关于植物糖基转移数据库的综述&#xff0c;地表最强&#xff0c;总结的最全面的版本之一&#xff0c;各位看官有推荐请留言评论区~…

自定义复选款与单选框,input

注&#xff1a;字体文字取自bootstrap字体库https://icons.bootcss.com/icons <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><style>.checkbox-com,.radio-com {position: relative;display: inlin…

javaWeb物流信息网的设计与实现

摘要 本文讲述了基于JSP物流信息网的设计与实现。该系统使用java语言开发&#xff0c;使系统具有更好的平台性和可扩展性。 该系统实现了用户登录、注册、查询快递信息、快递公司注册成为合作伙伴以及系统管理员对信息进行管理等功能。系统的主要界面会将所有的服务排列好&…