【NLP】给Transformer降降秩,通过分层选择性降阶提高语言模型的推理能力

【NLP】给Transformer降降秩,通过分层选择性降阶提高语言模型的推理能力

文章目录

    • 【自然语言处理-论文翻译与学习】序
    • 1、导论
    • 2、相关工作
    • 3、相关工具
    • 4、方案
    • 5、实验
      • 5.1 使用 GPT-J 对 CounterFact 数据集进行彻底分析
        • 5.1.1 数据集中的哪些事实是通过降阶恢复的?
        • 5.1.2 高阶组件存储了什么?
      • 5.2 这种说法普遍适用吗?
      • 5.3 非文本域
    • 6、结论

【自然语言处理-论文翻译与学习】序

论文摘要

  • 标题: The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction
  • 摘要:
    基于Transformer的大型语言模型(LLM)已成为现代机器学习的固定模式。相应地,大量资源被分配用于旨在进一步推动这项技术发展的研究,其结果通常是模型的规模越来越大,训练的数据量也越来越大。然而,这项工作展示了一个令人惊讶的结果 :通过有选择性地移除权重矩阵中的高阶成分,通常可以显著提高 LLM 的性能 。我们将这种简单的干预称为 “LAyer-SElective Rank reduction (LASER)”,它可以在训练完成后对模型进行,不需要额外的参数或数据。我们通过大量实验证明了这一发现在不同语言模型和数据集上的通用性,并提供了深入分析,深入揭示了 LASER 的有效时间及其运行机制。
  • 作者信息
    在这里插入图片描述
  • 论文原文
    论文主页
    项目地址
  • ICLR了解一下

补充信息

  • 机器之心翻译-给Transformer降降秩,移除特定层90%以上组件LLM性能不减
    简化版Transformer来了,网友:年度论文

  • MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。

  • Transformer最早于Attention is all you need一文中被提出,PPT。
    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30: 5998-6008.
    中文翻译可以参考1,2,3,4,5

  • 在大模型时代,Transformer 凭一己之力撑起了整个科研领域。自发布以来,基于 Transformer 的 LLM 在各种任务上表现出卓越的性能,其底层的 Transformer 架构已成为自然语言建模和推理的最先进技术,并在计算机视觉和强化学习等领域显示出强有力的前景。

  • 然而,当前 Transformer 架构非常庞大,通常需要大量计算资源来进行训练和推理。 这是有意为之的,因为经过更多参数或数据训练的 Transformer 显然比其他模型更有能力。尽管如此,越来越多的工作表明,基于 Transformer 的模型以及神经网络不需要所有拟合参数来保留其学到的假设。

  • 关键词:权重、参数、剪枝、奇异值分解(SVD)、计算机视觉、神经网络、准确率、强化学习、语言模型

SVD相关介绍

  • 《虚假的对话》
    “都2023了怎么还有人在用svd这么古老的技术啊,而且还用来做NLP,也太low了吧”,
    “你别说,还真有大佬用(雾,而且是2024”

  • 《某次答辩》
    起因是前段时间某段科研经历的项目拿出来答辩的时候,被某位老师说,SVD是很古老的技术(确实啊SVD用于NLP大概19,20年那会儿就有人在做了,而且后来矩阵降维和分解好像又搞了几个新的出来),,,怎么还在用,可是我这个题确实没人做过啊,,当时挺尴的,也只是大概解释了下,当时还想着还好我选的课题和领域够小众,,又套了不少其他的东西,也做了一些改造什么的。

  • 但是最近看到这篇文章确实感觉很震惊啊,大佬竟然还拿来改Transformer的,有点厉害了。翻译一波,仰望一下。(仅供读懂大致意思,就不翻译具体的公式符号了哈,比较费时间,有需要的可以看原文)

  • 奇异值分解-SVD-与潜在语义分析-LSA
    用于医学图像水印的 SVD 值排序方案

  • SVD证明,证明2,证明3

1、导论

自首次发布以来,基于 Transformer 的 LLM 已被证明在一系列重要的机器学习任务上表现非常出色。 其底层 Transformer 架构已成为自然语言建模和推理领域的最先进技术,并在计算机视觉 [Dosovitskiy 等人,2020 年] 和强化学习 [Chen 等人,2021 年] 等领域也显示出良好的前景。

Transformer 架构的当代实例非常庞大,通常需要大量计算资源来进行训练和推理。这是设计使然,因为使用更多参数或数据训练的 Transformer 显然比其更精简的前辈更有能力——通常优势显著 [Brown 等人,2020 年,Touvron 等人,2023 年]。尽管如此,越来越多的研究表明,基于 Transformer 的模型以及更普遍的神经网络不需要所有拟合参数来保留其学习到的假设。虽然在训练时进行大量过度参数化似乎很有帮助 [Hinton 等人,2015 年,Bengio 等人,2005 年],但众所周知,这些模型可以在推理之前进行大幅修剪;神经网络通常可以删除超过 90% 的权重,而不会显著降低性能 [Frankle and Carbin,2018 年]。这一现象的发现激发了人们对泛化和过度参数化之间关系的兴趣 [Zhang et al., 2017],并引发了开发有助于有效模型推理的修剪策略的研究 [Molchanov et al., 2016]。

本文提出了一个令人惊讶的发现,即在 Transformer 模型的特定层上进行仔细的修剪可以显著提高某些任务的性能。 我们描述了层选择性降阶 (LASER),这是一种干预措施,可以删除由奇异值分解确定的学习权重矩阵的高阶分量。 此减少在 Transformer 模型的特定权重矩阵和层中执行。与以前的工作一致,我们发现许多这样的矩阵可以显著减少,并且通常只有在完全删除超过 90% 的组件后才会观察到性能下降。 然而,与以前的工作不同,我们发现这些减少可以大大提高准确性,这是通过 NLP 中各种经过充分研究的推理基准来衡量的。更妙的是,这一发现似乎不仅限于自然语言,在强化学习中也发现了性能提升。

本文分析了模型训练数据与受益于 LASER 的样本之间的关系。我们发现模型性能的提升主要来自模型训练数据集中出现频率较低的信息,这表明 LASER 提供了一种去噪程序,使弱学习事实变得可访问。我们单独观察到,LASER 为先前正确的问题的释义提供了更高的稳健性。

此外,我们尝试推断高阶组件中存储的内容,以便删除它们可以提高性能。对于仅在 LASER 之后才正确回答的问题,在没有干预的情况下,原始模型主要使用高频词(例如“the”、“of”等)来回答,这些词的语义类型甚至与正确答案不同 。但是,经过一定程度的降阶后,模型的答案就会变为正确答案。 为了理解这一点,我们查看了剩余组件本身的编码;我们仅使用其高阶奇异向量来近似权重矩阵。 我们发现这些组件要么描述的是与正确答案具有相同语义类别的不同响应,要么是通用的高频词。似乎当嘈杂的高阶组件与低阶组件相结合时,它们的冲突响应会产生一种“平均答案”,而这很可能是不正确的。
在这里插入图片描述

图 1 直观显示了 Transformer 架构和 LASER 所遵循的流程。这里,特定层的多层感知器 (MLP) 的权重矩阵被其低秩近似值替换。

在这里插入图片描述
图 1:LAyer SElective Rank Reduction (LASER) 将 Transformer 模型的特定权重矩阵 W 替换为其秩 k 近似 WLR,并观察模型行为的变化。我们发现,这种秩近似,尤其是对于模型后面几层的 MLP 权重,通常会为模型性能带来令人惊讶的好处

2、相关工作

据我们所知,这篇论文首次指出,精心选择的降阶可以提高 Transformer 的性能。不过,还有很多研究相关问题的作品,包括事实如何存储在 LLM 中以及如何最好地压缩神经网络

1、事实是如何存储的。
探究模型表示中实体的选定属性的存在的研究 [Ettinger 等人,2016 年,Adi 等人,2016 年,Hupkes 等人,2018 年,Conneau 等人,2018 年] 表明,模型将事实信息存储在不同的层中,而 Lee 等人 [2023] 表明,通过微调选定层可以提高模型对分布偏移的鲁棒性。然而,关于如何在大型语言模型中组织和利用这些信息来构建答案,存在相互矛盾的证据。一些理论认为,有关不同实体的信息在 Transformer 模型的 MLP 部分中本地存储在两层键值内存中 [Geva 等人,2021 年],然后由自注意力模块通过后面的层复制 [Elhage,2021 年]。Meng 等人[2022] 提出了一种跟踪和编辑局部实体特定信息以映射到不同的“不可能”输出的程序,支持局部性理论。这些理论得到了“早期退出”现象的进一步支持,其中中间层的表示可以直接与模型的终端头一起使用以正确生成输出 [Zhao et al., 2021]。相比之下,Hase 等人 [2023] 观察到,可以通过编辑模型架构中的各种层来修改有关某些相同实体或实体关系的信息,因此,事实以碎片化的方式跨层存储。本文没有对局部性做出具体的主张,而是表明权重矩阵的高阶分量会在决策中引入噪声,而仅考虑低阶分量可能会使正确答案变得容易获得

2、模型压缩。
神经网络剪枝方法发现,模型可以进行显著剪枝(通常删除 90% 以上的参数),而准确率几乎不会下降,从而显著降低模型的存储要求 [LeCun et al., 1989, Hassibi and Stork, 1992, Han et al., 2015, Li et al., 2016, Frankle and Carbin, 2018]。还有一些方法可以结构化地剪枝这些模型,以促进推理时间的改善 [Molchanov et al., 2016]。稀疏子网络的存在 [Frankle and Carbin, 2018, Hoefler et al., 2021] 已被发现适用于卷积、全连接和 Transformer 模型 [Lv et al., 2023, Murty et al., 2022]。而 Jin et al. [2022] 发现,通过修剪然后重新拟合参数可以提高模型泛化能力,只有在模型重新训练时才能观察到泛化能力的提高。据我们所知,模型修剪技术一直在所有参数上进行单方面减少,而不针对任何特定层——导致预测性能保持不变或下降 [Frankle and Carbin, 2018]。然而,在这项工作中,我们发现准确度降低的影响在不同类型的层中是不一致的,并且模型的泛化能力可以通过选择性修剪单独提高;无需额外的训练。粗略地说,我们发现性能下降可以通过降低早期层的等级来产生,而显着的性能优势通常可以通过修剪后面的层来获得。

3、权重矩阵的低秩近似。
大多数剪枝方法按绝对量级的顺序减少参数 [Frankle and Carbin,2018]。然而,另一种方法是降低其组成权重矩阵的秩,保留 SVD 找到的前 k 个组件。虽然已经发现神经模型(包括 Transformer 模型)的矩阵使用这种方法可以得到很好的近似,其中模型的显着减少版本可以保留其行为,但研究表明,随着干预的严重程度增加,性能最终会下降 [Lv et al.,2023,Hajimolahoseini et al.,2021,Yu et al.,2017]。请注意,这些减少通常是单方面进行的,删除模型中每个权重矩阵中相同数量的组件。与这些发现相反,我们表明,有针对性的降秩,即使只影响单个权重矩阵,也可以为 Transformer 的预测准确性带来好处

4、模型蒸馏和低秩训练。
Ba 和 Caruana [2014] 以及 Hinton 等人 [2015] 训练了较小的网络来模仿较大网络的行为,这表明神经网络可能过度参数化,可以用更精简的替代方案代替。据我们所知,没有报告表明此过程导致模型预测有所改善。[Yang et al., 2020] 为提高内存效率而强制权重矩阵的低秩,但由此产生的模型未能达到与过度参数化的模型相当的性能。结果表明,过度参数化有助于通过 SGD 识别具有良好泛化能力的参数 [Bengio et al., 2005, Hinton et al., 2015, Zhang et al., 2017]。

3、相关工具

在这里我们回顾基本符号并描述我们研究的核心部分。

数学符号。
我们使用 R 表示实数,N 表示自然数,小写字母(如 v ∈ Rd)表示 d 维向量,大写字母(如 W ∈ Rm×n)表示大小为 m × n 的矩阵。我们使用 ∥v∥2 表示向量 v 的欧几里得范数,∥W∥2 表示矩阵 W 的谱范数。我们使用 [N] 表示集合 {1, 2, · · · ,N}。我们将使用 rank(W) 表示矩阵 W 的秩,σ↓ i (W) 表示其第 i 个最大奇异值。

Transformer 架构。
我们提供了与我们的分析相关的 vanilla Transformer 架构的简明描述。Transformer 架构可以被认为是 L 层 Transformer 块。第 l 个块将一个 T 长度向量序列 (h(l−1) 1 , · · · , h(l−1) T ) 映射到另一个 T 长度向量序列 (h(l) 1 , · · · , h(l) T ),其中所有向量都是 d 维。此转换使用两个连续步骤完成:一个自注意力机制,用于跨时间步骤混合信息,以及一个前馈网络,用于处理每个时间步骤内的信息。我们针对固定的第 l 层描述了这些转换的基本版本,并为了清晰起见删除了上标 (l − 1)。3
单头自注意力机制首先将每个向量 hi 映射到查询向量 qi = Wqhi、键向量 ki = Wkhi 和值向量 vi = Wvhi,其中 Wq、Wk、Wv ∈ Rd×d 是特定于层的权重矩阵。然后,我们计算每个 i、j ∈ [T] 的注意概率 p(j | i) = exp(q⊤ i kj/ √ d) PT l=1 exp(q⊤ i kl/ √ d)。这些用于计算注意向量 zi = PT j=1 p(j | i)vj。k 头自注意力通过对键、查询和值使用不同的线性变换来计算一组 k 个注意向量,然后连接这些注意向量。这些针对键、查询和值的 k 个独立线性变换都可以被吸收到它们各自的矩阵 Wq ∈ Rd×dk、Wk ∈ Rd×dk 和 Wv ∈ Rd×dk 中。最后,自注意力机制利用投影矩阵 Wo ∈ Rdk×d 输出 ui = ziWo + hi。
前馈步骤将 2 层多层感知器 (MLP) ψ : Rd → Rd 分别应用于每个向量 ui ∈ Rd。MLP 通常具有 ReLU 或 GELU 激活函数 [Hendrycks and Gimpel, 2016],在某些模型(例如 Llama)中,线性层的偏差设置为 0。我们分别用 Uin 和 Uout 表示此 MLP 的第一和第二线性层的权重矩阵。然后,这个第 l 个 Transformer 块的输出由 h(l) i = ψ(ui) + ui 给出。
总结一下,Transformer 架构的每一层都有以下权重矩阵 W = {Wq,Wk,Wv,Wo,Uin,Uout},此外还有用于嵌入输入标记的嵌入矩阵、在最后一层之后应用的投影权重矩阵(在采用 softmax 之前)以及与层规范化相关的所有权重矩阵。在我们的工作中,我们将主要关注 W 中的矩阵并通过修改它们进行干预。

秩 r 近似和 SVD。
给定一个矩阵 W ∈ Rm×n 和 r ∈ N,秩 r 近似问题需要找到一个矩阵 ˆW,使 ∥W−cW∥2 最小化,并满足秩 cW ≤ r。Eckart-Young-Mirsky 定理使用奇异值分解 (SVD) [Eckart and Young, 1936] 为该问题提供了最优解。形式上,矩阵 W 的 SVD 由 W = UΣV ⊤ 给出,其中 U = [u1, u2, · · · , um] ∈ Rm×m 和 V = [v1, v2, · · · , vn] ∈ Rn×n 和 Σ ∈ Rm×n。 U 和 V 的列向量分别构成 Rm 和 Rn 的正交基,Σ 是一个对角矩阵,其对角线项由 W 的奇异值按降序排列。也可以将 W 的 SVD 表示为 W = Pmin{m,n} i=1 σ↓ i (W)uiv⊤ i 。根据 Eckart–Young–Mirsky 定理,矩阵 cW = Pr i=1 σ↓ i (W)uiv⊤ i 是任意给定期望秩 r ≤ min{m, n} 的秩 r 近似问题的最优解。
在本文中,我们将使用高阶分量一词来指代 SVD 中与具有较小奇异值的分量相对应的条目。这些分量被 LASER 移除。术语低阶分量用于指代与较大奇异值相对应的奇异向量。这些分量保存在矩阵的低秩近似中

4、方案

在本节中,我们正式描述了 LASER 干预。单步 LASER 干预由三个量 (τ, ℓ, ρ) 定义,包括参数类型 τ、层数 ℓ 和秩降低 ρ。这些值共同描述了哪个矩阵将被它们的低秩近似替换以及近似的严重程度。参数类型对我们将要干预的矩阵类型进行分类。我们关注 W = {Wq,Wk,Wv,Wo,Uin,Uout} 中的矩阵,它们由 MLP 和注意层中的矩阵组成。层数描述我们干预的层(第一层从 0 开始索引)。例如,Llama-2 有 32 层,因此 ℓ ∈ {0, 1, 2, · · · 31}。最后,ρ ∈ [0, 1) 描述在进行低秩近似时应保留最大秩的几分之一。例如,令 τ = Uin ∈ Rd×d,则该矩阵的最大秩为 d。我们将其替换为秩 ⌊ρ · d⌋-近似。

图 1 显示了 LASER 的一个示例。在该图中,τ = Uin 和 ℓ = L,表示我们在第 L 层的 Transformer 块中更新 MLP 第一层中的权重矩阵。另一个参数(图中未显示)控制秩 k 近似中的 k。

LASER 会限制网络中某些信息的流动,令人惊讶的是,这可以产生显著的性能优势。这些干预措施也可以轻松组合——我们可以以任何顺序应用一组干预措施 {(τi, ℓi, ρi)}m i=1。LASER 方法是简单地搜索此类干预措施,并执行提供最大收益的修改。然而,还有许多其他方法可以组合这些干预措施,我们将此推迟到未来的工作中

5、实验

本节研究 LASER 对 Transformer 架构各个层的影响。我们首先结合预训练的 GPT-J 模型 [Wang and Komatsuzaki, 2021] 对 CounterFact [Meng et al., 2022] 问答数据集进行激励分析,并在研究潜在干预措施时研究模型的性能及其可变性。随后,我们研究了 LASER 对不同模型、数据集和模式的影响

GPT-J、CounterFact 和 PILE。我们使用在 PILE 数据集上预训练的具有 27 个层和 6B 个参数的 GPT-J 模型。我们分析的第一部分重点关注 GPT-J,主要是因为它的训练数据是公开可用的。我们在 CounterFact 数据集上评估了该模型的行为,该数据集由以(主题、关系、答案)三元组形式组织的样本和每个问题的三个释义提示组成。例如,(Danielle Darrieux,母语,法语)。

5.1 使用 GPT-J 对 CounterFact 数据集进行彻底分析

在这里插入图片描述
图 2:不同层类型之间的降阶效果并不统一。这里我们展示了在 CounterFact 数据集上研究的 GPT-J 的降阶效果。虚线是经过修改的网络的损失。在注意层(键、查询、值、输出矩阵)中,虽然很明显矩阵可以显著降阶而不会损害学习到的假设,但性能提升却很小。然而,对于多层感知器 (MLP) 层,降阶从均匀损害到提高模型的性能(大约在第 20 层)。

图 2 显示了对 Transformer 架构中的每个矩阵应用不同程度的降秩后的结果,以及该数据集的分类损失。这些图被分组,使得每个子图仅对应于指示类型的权重矩阵。请注意,每个 Transformer 层都由一个小型的两层 MLP 组成。组成输入和输出矩阵分别显示。不同的颜色表示移除组件的不同百分比。

该图中的注意力图举例说明了这些模型的已知信息:权重矩阵可以大幅减少,而不会对模型性能造成太大影响。然而,更有趣的结果是在 MLP 层中。在这里,不仅可以在不降低分类性能的情况下对矩阵进行降阶,而且可以通过减少模型的后续层来大幅提高性能。这种趋势在 MLP 的输入矩阵中最为明显。虽然 LASER 在注意力层中也有所提升,但收益通常较小。在接下来的部分中,我们将展示 LASER 在各种数据集和 Transformer 模型中的有效性。由于彻底搜索可能需要大量计算,并且一致的改进似乎集中在减少 MLP 层上,因此本节之后的所有结果都仅考虑对这些层进行简化搜索,除非另有说明。

提高了释义的准确性和鲁棒性。
CounterFact 数据集用于测试模型对 Wikipedia 数据的事实知识。由于 GPT-J 是在 PILE 上训练的,其内容包括 Wikidata,因此 CounterFact 中的不同事实是模型训练数据的一部分,尽管数量不同。由于在此设置下所有答案都是单个标记,因此我们根据正确答案是否在前 k 个预测标记中来计算前 k 个准确率。如图 2 和表 1 所示,我们发现,当在单层上进行缩减时,模型对 CounterFact 中事实的 top-1 准确率从 13.3% 提高到 24.1%。值得注意的是,这些改进仅仅是降阶的结果,不涉及对预先训练的 GPT-J 模型进行任何进一步的训练或微调。此外,降阶带来的改进是系统性的。模型正确得到的数据点集只会随着减少量的增加而增长,而不是数据点随机地进出集合或正确项目;如果模型在一定程度的降序 (x) 下得到正确答案,则该模型在更大的降序 (y,其中 y > x) 下继续得到正确答案。我们通过计算模型正确得到给定问题的所有释义的数据点百分比来评估模型对释义的稳健性。对于模型已经正确的数据点,模型对释义的稳健性也随着 LASER 提高了大约 24.8 个百分点。

对语言建模和流畅度的影响。
虽然模型的真实性有所提高,但这种降低是否会影响模型在其他指标上的表现?为了理解这一点,我们评估了模型在其训练数据上的困惑度,即其原始训练目标。对于与 MLP 输入矩阵相对应的层,模型的困惑度从 4.8 增加到 5.0,表明语言建模目标确实受到了轻微影响。对于 MLP 输出层,GPT-J 在 PILE 上的困惑度从 4.8 增加到 LASER 上的 4.9。通过校准模型的温度,可能可以修复这个小的退化。

在这里插入图片描述

图 3:哪些数据点受益于 LASER?我们分析训练数据中“更正”事实出现的频率。GPT-J 是此类分析的理想测试平台,因为它的训练数据 (DTrain),即 PILE 数据集,是公开可用的。(a)对于在 CounterFact (DQA) 上评估的 GPT-J,我们检索 DTrain 中包含感兴趣的实体和与 DQA 中的每个样本相对应的答案的所有数据点。(b)描绘模型在训练数据中出现的频率小于或等于 x 轴上指示的频率的所有数据点上的累积前 10 名准确率的图。这里我们展示了有无 LASER 的准确率。(c)性能提升最大的是低频样本。此条形图显示了 LASER 为按 DTrain 中相应事实出现的频率分类的数据提供的提升量。准确率的最大改进来自训练数据中出现频率较低的数据点

在这里插入图片描述

图 4:跨多层组合 LASER 操作可进一步提高模型性能。这里我们展示了使用简单的组合策略对验证数据(用于识别每个 (τ, ℓ, ρ))和测试数据进行准确率提升的方式

跨层组合降维。
我们发现,通过在多个层上执行不同程度的降维,可以进一步提高模型的性能。这是通过从最大的 ℓ 和最小的 ρ 开始贪婪地搜索 (τ, ℓ, ρ) 来完成的。为了加快速度,我们只在 MLP 层上进行搜索,因为这通常是可以找到最大改进的地方。与其他实验一致,搜索是在验证集上进行的,并在测试集上报告结果。在 CounterFact 上,基础 GPT-J 模型的 0-1 准确率为 13.1%。在执行最佳单步 LASER 后,模型的准确率提高到 24.0%。在不同层上执行 LASER 将前 10 名的准确率提高到 29.2%,与在单层上执行 LASER 相比,准确率绝对提高了 5.2%。不同 ℓ 和 ρ 值的组合搜索结果可以在图 4 中看到。

5.1.1 数据集中的哪些事实是通过降阶恢复的?

为了理解这一现象,我们研究了 LASER 之后正确回答的问题,以及与问题相关的信息在训练数据中出现的频率的影响。对于 CounterFact 中的每个数据点,我们检索 PILE 中包含实体和答案的所有示例。然后,我们计算与每个评估问题相关的信息在训练数据中出现的频率。我们发现,在降阶后恢复的事实很可能很少出现在数据中(图 3)。这里,“最初正确”描述的是即使没有任何干预也能正确分类的样本。“答案已纠正”是指模型只有在使用 LASER 进行干预后才能正确回答的问题

5.1.2 高阶组件存储了什么?

在这里插入图片描述
图 5:(a) [左] LASER 通过其低阶分量来近似学习矩阵。我们发现,对于模型预测在 LASER 之后有所改善的数据点,如果我们改用整个矩阵(包括高阶分量),模型通常只会预测“通用”单词。(a) [右] 为了了解这些高阶分量编码的内容,我们改用高阶分量来近似学习权重矩阵。我们发现这些高阶分量有时会编码答案的正确语义类型,但编码错误的响应。(b) 从分析上看,计算语义相似度(真实答案与奇异向量底部 k% 生成的答案之间的余弦距离)表明,平均而言,高阶分量计算出的答案与真实答案更相似。© 显示了数据集中的一些示例以及由分量的顶部分数和底部分数计算出的相应答案

我们在上面看到了保留低阶成分如何提高开放式问答任务的模型性能。我们发现,对于问答任务,改进通常出现在那些答案由训练集中出现频率较低的数据支持的问题上。虽然很明显,消除高阶成分会“降低”模型的噪声并有助于恢复“隐藏的”、不太频繁的信息,但尚不清楚高阶成分代表什么,以至于它们的去除会提高性能。本节使用 CounterFact 数据集和 GPT-J 研究这个问题。

为了理解高阶分量代表什么,我们使用最终权重矩阵的高阶分量来近似(而不是像 LASER 那样使用低阶分量来近似),如图 5(a) 所示。接下来,我们分析模型在数据点上的行为如何变化,这些数据点是 GPT-J 最初得到不正确的,但在执行 LASER 后被翻转为正确的。

首先,我们注意到,当原始的、未经修改的模型不能正确回答这些问题时,它通常会用常用词来回答,例如“a”、“the”、“of”和其他高频词。在执行 LASER 后,我们只保留前 k 个组件,模型对这些问题的答案从通用词变成了正确的实体。对于相同的数据点,当我们通过保留高阶组件来近似模型时,我们发现模型要么预测与正确答案具有相同语义类型的错误实体,要么预测诸如“a”、“the”和“of”之类的高频词,如图 5© 所示。然而,当我们系统地包含低阶组件时,模型的输出会变为预测频繁的词。

在这里插入图片描述
表 1:LASER 干预对八个自然语言理解数据集的影响。我们使用验证集上的准确率/0-1 为每个模型和任务找到最佳的 LASER 干预,并在保留的测试集上报告其性能。在某些情况下,虽然模型的准确率有所提高,但其损失略有恶化。

为了研究这种系统性退化,我们测量了当矩阵用不同数量的高阶组件近似时“真实”答案相对于预测答案的平均余弦相似度,如图 5(b) 所示。预测答案之间的平均余弦相似度恶化,证明了这种影响。我们假设这些矩阵通常编码多个相互冲突的响应,并且当使用所有组件时,它们会发生冲突以产生通用标记。删除高阶组件(据说这些组件通常捕获正确类型的错误响应)可以解决这种内部冲突并允许模型准确响应

5.2 这种说法普遍适用吗?

我们针对 3 个不同的 LLM 针对几个语言理解任务评估了我们的研究结果的普遍性。

自然语言理解任务。
我们在七个数据集上评估了 LASER 之前和之后的模型性能,包括 CounterFact [Meng et al., 2022]、HotPotQA [Yang et al., 2018]、FEVER [Thorne et al., 2018]、Bias in Bios [De-Arteaga et al., 2019] [性别和职业]、TruthfulQA [Lin et al., 2021]、BigBench-Epistemic Reasoning [Bowman et al., 2015] 和 BigBench-WikidataQA。这些数据集评估了语言理解问题的不同方面。CounterFact、Fever 和 Bigbench-Wiki 数据测试了模型的世界知识和事实性。Bias in Bios 通过根据简短的个人简介预测一个人的性别和职业来对模型偏差进行基准测试。我们将 Bios Gender 定义为 Bias in Bios 中的性别预测问题,将 Bios Profession 定义为职业预测问题。HotPotQA 提供了更具挑战性的开放式问答任务,其长答案包含许多标记。Big Bench Hard (BBH) 的 Epistemic Reasoning 数据集测试模型的逻辑和阅读理解能力。最后,TruthfulQA 测试 LLM 的真实性。我们使用 20% 的数据集作为验证集,并使用此验证集选择最佳 LASER 超参数 (τ、ℓ、ρ)。我们报告使用所选超参数对其余 80% 数据集的结果。用于问答任务的模型包括 Roberta [Liu et al., 2020]、GPT-J (6B) [Wang and Komatsuzaki, 2021] 和 LLAMA2 (7B) [Touvron et al., 2023]。有关数据集及其使用方式的详细信息,请参阅附录 A。

评估指标。
对于每一项任务,我们使用以下指标评估模型的性能:(i) 生成准确度。我们使用 LLM 生成 N 个标记序列,然后如果答案文本在生成的文本中则报告 1,否则报告 0;(ii) 分类准确度。如果答案位于一小组潜在值中,例如在标准分类问题中,如果答案将更多的概率质量放在正确答案上而不是放在任何其他候选答案上,则我们认为该响应正确;(iii) 损失。我们报告保留数据的对数损失。对于具有一小组可能标签的数据集,我们使用分类准确度报告准确度 (acc),而对于其他数据集,我们使用生成准确度

我们通过评估不同基准上的一系列语言模型来测试此结果的普遍性。如表 1 所示,我们发现即使大幅减少也不会导致模型的准确性下降,反而可以提高其性能。所需的减少量因模型而异。

5.3 非文本域

为了了解这种现象在文本领域的问答之外是否有效,我们评估了降阶对强化学习代理的影响。

策略学习。
对于策略学习,我们评估了 LASER 对在 Sokoban 游戏上训练并在同一游戏上进行评估的决策 Transformer 模型的影响。这是一个具有挑战性的规划问题,其中代理必须移动并将几个块推到洞中。当所有块都在洞上时,任务完成。决策 Transformer 的输入是给定状态下环境的视觉状态,输出是低级动作。我们发现,对于在 Sokoban 上训练的决策 Transformer,模型使用 LASER 解决了 3% 以上的任务(表 2)。实验的详细信息可以在附录 B 中找到。

尽管改进幅度小得多,但无论减少程度如何,改进都是一致的。这可能是因为该现象是文本特有的,或者需要足够大的 Transformer 模型。

在这里插入图片描述

6、结论

本文介绍了 LASER,这是一种现象,即在 Transformer 块的特定层上对特定层类型进行低秩近似可以提高 LLM 在问答任务上的性能。我们发现这在五个不同的数据集和三个不同的语言模型中都是如此。此外,由此产生的 LASER 减少是极端的。矩阵有时会减少到其原始秩的 99%,这比其有效秩 (C.1) 低得多。然而,尽管极端减少,模型在任务上的性能仍在继续提高。我们还观察到决策 Transformer 在具身域中的性能提升。我们发现模型准确度的最大改进对应于训练数据中不太常见的信息,并且 LASER 共同使模型对问题的释义更具鲁棒性。我们进一步发现,其中一些矩阵的高阶分量编码了高频词或与正确答案具有相同语义类型的备选答案。这些嘈杂的高阶分量可能会压倒稳定的低阶分量,导致模型回答问题不正确。在这些情况下,进行激光治疗可作为一种去噪技术,减少潜在反应中的内部冲突

尽管进行了这样的分析,LASER 的成功仍需要进一步研究。了解 (i) 为什么权重矩阵中的高阶分量会在训练过程中积累噪声答案,(ii) 模型架构和其他结构选择对这种现象发生的影响,以及 (iii) 为什么这种情况特别适用于 MLP 中的后续层,这不仅对我们理解 LASER 的成功很重要,而且对于更广泛地理解大型语言模型的行为也很重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/704700.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MYSQL基础_12_MySQL数据类型精讲

第12章_MySQL数据类型精讲 1. MySQL中的数据类型 类型类型举例整数类型TINYINT、SMALLINT、MEDIUMINT、INT(或INTEGER)、BIGINT浮点类型FLOAT、DOUBLE定点数类型DECIMAL位类型BIT日期时间类型YEAR、TIME、DATE、DATETIME、TIMESTAMP文本字符串类型CHAR、VARCHAR、TINYTEXT、TE…

红黑树(C++)

文章目录 写在前面1. 红黑树的概念及性质1. 1 红黑树的概念1. 2 红黑树的性质 2. 红黑树节点的定义3. 红黑树的插入3.1 按照二叉搜索的树规则插入新节点3.2 检测新节点插入后,红黑树的性质是否造到破坏 4.红黑树的删除5.红黑树的验证6.源码 写在前面 在上篇文章中&…

10KM无人机高清图传通信模组,低延迟、抗干扰,飞睿智能无线MESH组网模块

随着科技的飞速发展,无人机技术在各个领域的应用越来越广泛。尤其在海上监测、搜索救援、货物运输等场景中,无人机的应用显得尤为重要。然而,要实现无人机在复杂海域环境中的高效通信,高清图传通信模组的作用不可忽视。本文将深入…

2个数据恢复助手,挽救丢失文件的得力帮手

我们的手机中存储了大量珍贵的个人信息和文件,一旦不慎丢失,往往让人心急如焚,想象一下,你正在为一个重要的项目做准备,突然发现手机上的所有数据都消失了,你会怎么办?这时,手机数据…

“全光无线星空”照亮津亚电子智能制造之路

随着第四次工业革命浪潮的到来,智能制造正成为制造业的新常态。工业4.0时代的工厂不再是封闭的制造孤岛,而是通过高度的数字化和网络化,实现生产过程的智能化、自动化和灵活化。在这样的大趋势下,制造业正经历着从传统制造向智能制造的深刻转型,数字化车间和智能化生产线成为推…

Stable Diffusion直接生成IP三视图,一天设计100个?

AI都能直接生成IP形象三视图了! SD生成一个动物Q版IP三视图模型。标准的三视图,并且极富设计感,IP设计师的好帮手,用来辅助创意,建模参考。这个模型主要是动物类,一般不需堆叠复杂的质量词,直接…

深层网络:层数多真的更好吗?

深层网络:层数多真的更好吗? 在深度学习的世界里,"深度"始终是一个热门话题。随着技术的发展,我们有了越来越多的方法来构建更深的神经网络,这似乎暗示着“层数越多,效果越好”。然而&#xff0…

快来!AI绘画Stable Diffusion 3终于开源了,更强的文字渲染和理解力,12G显卡可跑!

大家好,我是设计师阿威 Stable Diffusion 3终于开源了,2B参数的Stable Diffusion 3 Medium模型已经可以在HuggingFace上下载了!如无法科学上网的小伙伴我也准备好了网盘资料,请看文末扫描获取哦! Stable Diffusion 3 …

每日一题——Python实现PAT甲级1116 Come on! Let‘s C(举一反三+思想解读+逐步优化)五千字好文

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法 代码点评 时间复杂度分析 空间复杂度分析 总结 我要更强 优化思路 优化…

如何将txt文件导入Python中并进行数据处理

从文本文件中读取数据后,可以清洗和预处理数据,例如去除不必要的字符、处理缺失值等,以便后续的分析和建模。将文本文件导入Python并进行数据处理不仅能够有效地利用数据,还能通过分析和可视化来提取有用的信息和洞察,…

第 5 章:面向生产的 Spring Boot

在 4.1.2 节中,我们介绍了 Spring Boot 的四大核心组成部分,第 4 章主要介绍了其中的起步依赖与自动配置,本章将重点介绍 Spring Boot Actuator,包括如何通过 Actuator 提供的各种端点(endpoint)了解系统的…

使用el-pagination出现样式超出时加上这个属性就能轻松解决

出现的样式问题&#xff1a; 当页码数量过多时&#xff0c;多余的页码会超出我们设定的样式盒子&#xff0c;不美观 代码是这样写的&#xff0c;直接使用的el-pagination <el-paginationlayout"prev, pager, next":total"50"></el-pagination&g…

几何优化技术在AI绘画中的应用

在人工智能领域&#xff0c;艺术创作已经成为了一个重要的应用方向。通过使用深度学习和计算机视觉技术&#xff0c;我们可以创建出令人惊叹的艺术作品。然而&#xff0c;要生成高质量的图像&#xff0c;需要对模型进行大量的训练和优化。在这个过程中&#xff0c;几何优化技术…

学习Pr有哪些常见的使用的技巧?

本Premiere 学习笔记总结常见问题165条。不管你是初学的小白&#xff0c;或是刚进入剪辑学习软件阶段&#xff0c;还是说你学软件好几年了都有用处。因为这份总结涉及到了Pr的各个方面。既可以帮你解决软件出现的问题&#xff0c;也可以帮你熟知软件的实际应用&#xff0c;以及…

40. 【Java教程】数据库编程

本小节我们将学习如何使用 Java 语言结合数据库进行编程。注意&#xff0c;学习本小节需要你有一定的 SQL 基础&#xff0c;了解 MySQL 数据库的 基础 CRUD 操作。 本小节我们将选择开源免费的 MySQL 5.7 作为数据库&#xff0c;可以去官网下载并安装 MySQL。 通过本小节的学…

【Gitlab】访问默认PostgreSQL数据库

本地访问PostgreSQL gitlab有可以直接访问内部PostgreSQL的命令 sudo gitlab-rails dbconsole # 或者 sudo gitlab-psql -d gitlabhq_production效果截图 常用SQL # 查看用户状态 select id,name,email,state,last_sign_in_at,updated_at,last_credential_check_at,last_act…

【React】配置别名路径@

别名路径配置 1. 路径解析配置&#xff08;webpack&#xff09; CRA本身把webpack配置包装到了黑盒里无法直接修改&#xff0c;需要借助一个插件 - craco步骤 安装craco npm i -D craco/craco项目根目录下创建配置文件 craco.config.js配置文件中添加路径解析配置 const pa…

无法在地址[localhost]和端口[8005]上创建服务器关闭套接字(基本端口[8005]和偏移量[0])

今天小伙伴问我一个问题&#xff0c;说是新服务器启动应用&#xff0c;报了一个错误&#xff0c;如下&#xff1a; 一开始我怀疑是端口被占用 经过排查端口没有被占用&#xff0c;然后我怀疑localhost解析有问题 经过 ping localhost 后&#xff0c;得到以下结果到这里很明…

基于若依的ruoyi-nbcio-plus里抄送人多页选择人员的bug修复

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码&#xff1a; https://gitee.com/nbacheng/ruoyi-nbcio 演示地址&#xff1a;RuoYi-Nbcio后台管理系统 http://218.75.87.38:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a; h…

阿里云香港服务器怎么样?

大家都知道阿里云是国内最受欢迎的云服务商&#xff0c;那么阿里云香港服务器究竟怎么样呢&#xff1f;和硅云的香港服务器用于做外贸网站等业务相比各有哪些优缺点呢&#xff1f; 阿里云和硅云在香港云服务领域有着广泛的应用和良好的口碑。然而&#xff0c;它们各自的特点和…