论文笔记:A Simple and Effective Pruning Approach for Large Language Models

iclr 2024 reviewer 评分 5668

1 intro

  • 大模型网络剪枝的paper
    • 在努力保持性能的同时,舍弃网络权重的一个子集
  • 现有方法
    • 要么需要重新训练
      • 这对于十亿级别的LLMs来说往往不现实
    • 要么需要解决依赖于二阶信息的权重重建问题
      • 这同样可能带来高昂的计算成本
  • ——>引入了一种新颖、简单且有效的剪枝方法,名为Wanda (Pruning by Weights and activations)
    • 在每个输出的基础上,剪枝那些乘以相应输入激活后幅度最小的权重
    • 无需重新训练或权重更新,剪枝后的LLM可以即刻使用

2 方法

2.1 motivation

  • 考虑一个带有两个输入及其对应权重的神经元:y = w1x1 + w2x2,其中|w1| ≤ |w2|。
    • 现在假设目标是选择一个权重进行移除,同时使输出变化最小。
    • 标准的幅度剪枝方法总是会移除权重w1
      • 如果输入特征x1和x2的幅度相似,这可能是一个好策略。
      • 然而,最近在LLMs中观察到,两个输入特征的规模可能差异很大。例如,可能|x1| ≫ |x2|,结果是|w1x1| ≫ |w2x2|。
      • 在这种情况下,我们应该移除权重w2,因为这种移除明显对神经元输出y的影响小于移除权重w1。

  • 这个动机示例与最简单的线性层一起暗示了幅度剪枝的一个主要限制
    • 它没有考虑输入激活,输入激活在决定神经元输出时可能与权重幅度同样重要。
    • 对于剪枝LLMs,这一点尤其关键,考虑到在其中发现的突出大幅度特征
    • ——>提出了一种专门为LLMs设计的剪枝指标,以处理此类限制,同时也保持了幅度剪枝的简单性

2.2 剪枝指标

2.3 和现有方法的对比

3 实验

3.1 效果比较

3.2 速度比较

3.3 finetune 剪枝后的LLM可以接近不剪枝的LLM

3.4 校准数据(X)的影响

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/542261.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

关于ASP.NET Core WebSocket实现集群的思考

前言 提到WebSocket相信大家都听说过,它的初衷是为了解决客户端浏览器与服务端进行双向通信,是在单个TCP连接上进行全双工通讯的协议。在没有WebSocket之前只能通过浏览器到服务端的请求应答模式比如轮询,来实现服务端的变更响应到客户端&…

边缘计算平台原理、关键功能以及技术优势

1、什么是边缘计算及其工作原理? 边缘计算是一种分布式计算模型,它将数据处理和存储靠近数据源头和最终用户的边缘设备上,从而减少了数据传输和延迟。边缘计算旨在解决云计算模型所面临的问题,例如延迟高、带宽瓶颈和安全性等问题…

[CSS]使用方式+样式属性

层叠样式表(Cascading Style Sheets),与HTML一样,也是一种标记语言,其作用就是给HTML页面标签添加各种样式,定义网页的显示效果,将网页内容和显示样式进行分离,提高了显示功能。简单…

[MAUI]集成富文本编辑器Editor.js至.NET MAUI Blazor项目

文章目录 获取资源从源码构建从CDN获取获取扩展插件 创建项目创建控件创建Blazor组件初始化保存销毁编写渲染逻辑 实现只读/编辑功能切换模式获取只读模式状态响应切换事件 实现明/暗主题切换项目地址 Editor.js 是一个基于 Web 的所见即所得富文本编辑器,它由CodeX…

Ja-netfilter(idea激活码破解原理)分析

Ja-netfilter(idea破解)分析 简介 ja-netfilter是一款可以破解jetbrainsIDE系列的javaagent jar 包。 原理简介 通过javaagent创造修改字节码的时机。通过asm修改相关类,达到hook特定方法的作用。主要依赖power(rsa方法hook&a…

设计模式-代理模式(Proxy)

1. 概念 代理模式(Proxy Pattern)是程序设计中的一种结构型设计模式。它为一个对象提供一个代理对象,并由代理对象控制对该对象的访问。 2. 原理结构图 抽象角色(Subject):这是一个接口或抽象类&#xff0…

觉得自己有讨好型人格,怎么办?

生活中,许多人可能有过这样的困扰: 不敢拒绝别人提出的要求,过于草率地作出承诺,等到发现自己无力兑现承诺,又不敢去面对现实、向别人道出真相,只好编造理由和借口来逃避承诺。 跟别人意见不一时&#xff0…

解决jenkins运行sh报process apparently never started in XXX

个人记录 问题 process apparently never started in /var/jenkins_home/workspace/ks-springboot_mastertmp/durable-bbfe5f99(running Jenkins temporarily with -Dorg.jenkinsci.plugins.durabletask.BourneShellScript.LAUNCH_DIAGNOSTICStrue might make the problem cl…

Linux 中 CPU 利用率是如何算出来的?

在线上服务器观察线上服务运行状态的时候,绝大多数人都是喜欢先用 top 命令看看当前系统的整体 cpu 利用率。例如,随手拿来的一台机器,top 命令显示的利用率信息如下: 这个输出结果说简单也简单,说复杂也不是那么容易就…

【Java基础题型】矩阵的对角线求和

一、题目-矩阵 求一个33矩阵对角线元素之和。 输入格式 矩阵 输出格式 主对角线 副对角线 元素和 样例输入 1 2 3 1 1 1 3 2 1 样例输出 3 7 二、参考的知识 这里给大家送点英语单词,记得学习: p r i m a r y. adj.主要的;初…

论文详解:字节万卡集群训练大模型,算力利用率达55.2%

原论文链接:https://arxiv.org/abs/2402.15627 摘要 我们介绍了MegaScale的设计、实现和工程经验,这是一个用于训练大语言模型(LLMs)的生产系统,其规模超过10,000个GPU。在这个规模上训练LLMs带来了前所未有的训练效率…

Opentelemetry——Signals-Baggage

Baggage Contextual information that is passed between signals 信号之间传递的上下文信息 In OpenTelemetry, Baggage is contextual information that’s passed between spans. It’s a key-value store that resides alongside span context in a trace, making values…

逆向案例二十四——投某界登录接口逆向,扣代码

网址:aHR0cHM6Ly91c2VyLnBlZGFpbHkuY24vbG9naW4uYXNweA 抓包登录接口: 在登录界面登录,不然不会出现login的js文件,按关键词搜索,进入loginjs文件,在文件中搜索,找到疑似加密的位置&#xff0c…

【Java多线程】案例(4):定时器

目录 一、定时器是什么? 二、Java标准库中的定时器 三、自己实现定时器 四、标准库中更推荐使用的定时器 一、定时器是什么? 定时器是一种用于在指定时间间隔或特定时间点执行特定任务的工具或设备。在计算机科学中,定时器通常是软件或硬件组件,用…

《手机维修600G资料》云盘下载地址

无意中发现一个生财之道,哈哈哈,就是发现有人在一些视频平台,发手机维修之类的视频吸引客户。这样自己就不用开店也可以接生意了。问题剩下就一个了,把手机维修技术学好,一技在手,天上我有。 《手机维修600…

python基础——类型注解【变量,函数,Union】

📝前言: 上一篇文章Python基础——面相对象的三大特征提到,python中的多态,python中,类型是动态的,这意味着我们不需要在声明变量时指定其类型。然而,这可能导致运行时错误,因为我们…

HTML5学习记录

简介 超文本标记语言&#xff08;HyperText Markup Language&#xff0c;简称HTML&#xff09;&#xff0c;是一种用于创建网页的标准标记语言。 编辑器 下载传送门https://code.visualstudio.com/ 下载编辑器插件 标题 标题通过 <h1> - <h6> 标签进行定义。 …

前端开发攻略---Vue实现防篡改水印的效果。删除元素无效!更改元素属性无效!支持图片、元素、视频等等。

1、演示 2、水印的目的 版权保护&#xff1a;水印可以在图片、文档或视频中嵌入作者、品牌或版权所有者的信息&#xff0c;以防止未经授权的复制、传播或使用。当其他人使用带有水印的内容时&#xff0c;可以追溯到原始作者或版权所有者&#xff0c;从而加强版权保护。 身份识…

2024mathorcup妈妈杯C题数学建模无水印高质量论文新鲜出炉

以下展示部分正文内容&#xff1a;完整内容见文末名片 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 添加图片…

搭建个人智能家居 4 -WS2812B-RGB灯

搭建个人智能家居 4 - WS2812B-RGB灯 前言说明ESPHomeHomeAssistant 前言 上一篇文章我们已经完成了第一个外设的添加&#xff08;一个LED灯&#xff09;&#xff0c;今天接着来“壮大”这个系统&#xff0c;添加第二个外设“RGB灯”。 环境搭建可以回顾前面的文章。前文回顾&…