论文阅读笔记:Towards Higher Ranks via Adversarial Weight Pruning

论文阅读笔记:Towards Higher Ranks via Adversarial Weight Pruning

  • 1 背景
  • 2 创新点
  • 3 方法
  • 4 模块
    • 4.1 问题表述
    • 4.2 分析高稀疏度下的权重剪枝
    • 4.3 通过SVD进行低秩逼近
    • 4.4 保持秩的对抗优化
    • 4.5 渐进式剪枝框架
  • 5 效果
    • 5.1 和SOTA方法对比
    • 5.2 消融实验
    • 5.3 开销分析
  • 6 结论

论文:https://arxiv.org/pdf/2311.17493

代码:https://github.com/huawei-noah/Efficient-Computing/tree/master/Pruning/RPG

1 背景

虽然结构化剪枝可以带来较大的运行时加速收益,但其性能远低于非结构化剪枝。

在高度稀疏的情况下,作者观察到非结构化剪枝会退化成结构化剪枝。当权重具有较大比例的零时,极有可能出现一个结构化的模式,其中整个通道或滤波器几乎被完全剪枝。因此,现有的权重剪枝方法在高稀疏度下会遇到性能急剧下降的情况。

作者通过比较两种剪枝方法受到启发,提出在权重剪枝中减少结构模式。结构化剪枝实际上是深度卷积网络中权重秩的降低,因此可以采用秩作为平衡非结构化稀疏权重“结构化”程度的指标:如果一个系数权重的秩较低,则认为它是高度结构化的。为了避免非结构化剪枝过于结构化,希望在剪枝时保持高稀疏度下的权重秩。

2 创新点

基于秩改进的目标,作者提出了一种基于对抗秩的剪枝方法(Rank-based PruninG, RPG)。

3 方法

在这里插入图片描述

首先,通过最小化近似误差来找到权重的低秩近似。通过奇异值分解找到最佳低秩逼近。其次,为了提高权重秩,最大化权重与其低秩对应的权重之间的距离来提高权重秩。这种基于对抗秩的优化目标将稀疏权重引导到一个高秩拓扑上。所提出的方法以逐步修剪的方式进行,以稳定训练过程中的秩变化。通过在图像分类和下游任务上的大量实验评估了所提出的RPG方法的优势,图1表明,与基线相比,本文方法获得了矩阵秩优势。
在这里插入图片描述

4 模块

4.1 问题表述

在传统的有监督神经网络学习方面,给定一个目标损失函数 L L L ,神经网络权重 W W W 和 输入输出对 X = { x i } i = 1 , … n , Y = { y i } i = 1 , … n X=\{x_i\}_{i=1,…n},Y=\{y_i\}_{i=1,…n} X={xi}i=1,n,Y={yi}i=1,n,神经网络权重 W W W 训练过程可表述为:
在这里插入图片描述

权重剪枝限制了权重 W W W 中非零权重的总数,或者在数学意义上,权重剪枝对神经网络施加 l 0 l_0 l0 范数约束。给定稀疏度预算,约束描述为:
在这里插入图片描述

一种常见的做法就是用权重张量 W W W 和二值化掩膜 M M M 计算点积重参化权重 W W W。二值化掩码 M M M 具有与 W W W 相同的形状,M中的每个元素代表其在 W W W 中的对应参数是否被剪枝。在重参化后,权重剪枝问题被形式化为:
在这里插入图片描述

在非结构化剪枝的高稀疏度下,稀疏网络的秩可能会大幅降低。

4.2 分析高稀疏度下的权重剪枝

非结构化剪枝和结构化剪枝是两种主要的剪枝方法。在非结构化剪枝实践中,CNN的权重张量以细粒度的方式被剪枝:每个孤立的权重参数可以在网络内部关闭(即设为零),但整个权重张量结构保持不变。相比之下,结构化剪枝侧重于过滤器的剪枝:过滤器作为剪枝过程中最小的可剪枝单元被截断。通过比较相同稀疏度预算下的两种剪枝范式,说明在相同的剪枝预算下,非结构化剪枝比结构化剪枝的效果要好得多。

这一现象可以从矩阵秩的角度进行解释。实际上,结构化剪枝是对权重矩阵的直接降秩,即过滤器剪枝本质上是低秩的权重剪枝。矩阵的秩表示矩阵所包含信息量的上界。一个强大的网络应该具有丰富的信息,作者希望稀疏网络的特征具有较高的秩。特征的秩与稀疏权重矩阵的秩密切相关,因为式(2.4)描述了矩阵乘法中秩的关系:
在这里插入图片描述从式中可以看出,当直接影响权重 W W W 的秩进行过滤器剪枝时,输出特征的秩也会降低,从而导致信息丰富度急剧损失。另一方面,非结构化剪枝摆脱了过滤器剪枝的结构约束,从而保留了更多的信息量。

当稀疏度较高时,非结构化剪枝部分退化为结构化剪枝。当权重被大比例的填充零时,形成“准结构化”的稀疏权重模式。图1中矩阵秩的基线评估说明了这一问题。因此,现有的权重剪枝方法在高稀疏度下通常会遇到性能急剧下降的情况。受两类剪枝性质的启发,作者提出在非结构化剪枝中减少结构化模式,从而在高稀疏度下保持权重排序。

4.3 通过SVD进行低秩逼近

既然权重的秩在权重剪枝中很重要,那么就需要一种方法来计算深度神经网络中的秩。由于权重值总是离散的,作为备选解,作者收敛到一个近似的秩,而不是计算一个精确的秩。因此,定义近似秩如下:

定义1(矩阵的 δ \delta δ 秩) : 给定一个矩阵 W W W 和一个小的误差容忍度 δ > 0 \delta>0 δ>0 W W W δ \delta δ 秩定义为最小的正整数 k k k,使得存在一个 k k k 秩矩阵,它到 W W W l 2 l_2 l2 距离小于 δ \delta δ

在之前的工作中,秩是通过奇异值分解计算奇异值来评估的。作者利用SVD计算定义1中的 δ \delta δ 秩。首先,说明SVD可以产生最佳的低秩近似:

定理1(最佳低秩近似):假设 W W W 通过SVD分解,并令 W = ∑ i = 1 r σ i u i v i T W=\sum_{i=1}^r\sigma_iu_iv_i^T W=i=1rσiuiviT,其中奇异值 { σ i } \{\sigma_i\} {σi} 按降序排序。给定整数 k < r k<r k<r W W W 的最佳 k k k 秩逼近,即与 W W W 有最小 l 2 l_2 l2 距离的 k k k 秩矩阵为:
在这里插入图片描述

由于SVD可以得到更好的低秩逼近,可以利用这个性质来求解定义1中的 δ \delta δ 秩。给定权重矩阵 W W W,寻找最小的 k k k 使得最佳 k k k 秩逼近 W ~ \widetilde{W} W l 2 l_2 l2 逼近误差小于误差容忍度 δ \delta δ。附录有给出证明。
在这里插入图片描述

4.4 保持秩的对抗优化

与低秩逼近不同,高秩矩阵是低秩矩阵难以逼近的。只要 W W W 保持它与最佳低秩逼近的距离,就可以增加它的秩。因此作者设计了一种对抗机制,增加 W W W 被低秩矩阵逼近的难度,从而在剪枝时提高 W W W 的矩阵秩。首先,通过奇异值分解生成低秩 k k k 的最佳低秩近似矩阵 W ~ \widetilde{W} W ,以最小化 W ~ \widetilde{W} W W W W 的距离。然后,对 W W W 进行优化,增加 W W W W ~ \widetilde{W} W 的距离。这个过程可以理解为 W W W W ~ \widetilde{W} W 之间的对抗,当低秩的 W ~ \widetilde{W} W 试图拟合 W W W 时, W W W 被优化以保持自身原理 W ~ \widetilde{W} W 。从数学上讲,这个对抗可以被表述为一个 min-max 问题。

但不幸的是,这个问题可能面临着无法收敛的风险。因为当 W ~ \widetilde{W} W 固定时, W → ∞ W→∞ W最佳。为了在优化过程中解决这个问题,作者将 W W W 限制在一个欧式范数球内。换句话说,作者将 W ∣ ∣ W ∣ ∣ F \frac{W}{||W||_F} ∣∣WFW 代替 W W W 代入问题。这里使用 l 2 l_2 l2 标准化的原因是:1. W W W 是有界的,而不是增长达无穷大的;2.在优化 min-max 问题时,如果对 W W W 进行 l 2 l_2 l2 归一化, W W W 的秩可以增加(定理2中有证明)。3.对权重进行 l 2 l_2 l2 归一化等价于对其奇异值进行 l 2 l_2 l2 归一化,在给定固定误差容忍度的情况下,根据定义1中秩的定义,为秩提供了比较公平的准则。

在介绍这个 min-max 问题之前,引入几个符号: ∣ ∣ ⋅ ∣ ∣ F ||·||_F ∣∣F 是矩阵的2范数。 I I I 是恒等矩阵, W ‾ : = W ∣ ∣ W ∣ ∣ \overline{W} := \frac{W}{||W||} W:=∣∣W∣∣W l 2 l_2 l2 标准化权重矩阵 W W W U , Σ , V U, \Sigma, V U,Σ,V 为 SVD 分解 W W W 得到的矩阵,其中 U = { u 1 , u 2 , … } U=\{u_1,u_2,…\} U={u1,u2,} V = { v 1 , v 2 , … } V=\{v_1,v_2,…\} V={v1,v2,} 为正交基, Σ \Sigma Σ 为对角矩阵,其中奇异值 { σ 1 , σ 2 , … } \{\sigma_1,\sigma_2,…\} {σ1,σ2,} 在对角线上按降序排列。算子 T r u n ( U Σ V T ) = ∑ i = 1 k σ i u i v i T Trun(U\Sigma V^T)=\sum_{i=1}^k\sigma_iu_iv_i^T Trun(UΣVT)=i=1kσiuiviT 表示 k k k 阶截断SVD,或 W W W k k k 阶最佳逼近。min-max问题形式化的表示如下:
在这里插入图片描述
优化目标被定义为对抗秩损失:
在这里插入图片描述

在这个情况下,作者提出如下定理,即对抗秩损失可以引导权重 W W W 向更高阶的方向移动:

定理2(对抗秩损失的有效性): 给定方程( 2.6 )中定义的对抗秩损失,如果通过梯度下降来优化秩损失中的W,那么W的秩将会增加。(附录有给出证明)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

利用提出对抗秩损失,优化目标包括两个方面:1. 针对某个任务(如分类,检测等)减少损失,已提高稀疏网络的性能;2.通过减少秩损失来获得更高的权重秩。给定复合超参 λ \lambda λ, Rank-based PruninG(RPG)的优化目标 L L L 可以定义为:
在这里插入图片描述

4.5 渐进式剪枝框架

之前的工作已经提出了各种剪枝框架,作者认为渐进式剪枝(Gradual Pruning,GP)可以再适中的训练预算下达到更好的性能,所以将其作为剪枝框架。GP在每次训练过程中修剪掉一小部分权重,试图通过迭代的“剪枝和训练”过程来保持稀疏的网络性能。

本文的PRG方法过程如下:没经过 Δ T \Delta T ΔT 就执行更新二进制掩码M的剪枝-生成过程,使得经过掩码更新后,整个网络在当前迭代时达到目标稀疏度。随着训练的进行,目标稀疏度会逐渐增加,这与GP相同。其次,对所有参数进行基于重要性的全局排序(代码里使用L1范数),并执行剪枝。最后,基于梯度进行参数生成。对于其他训练步骤(指出了剪枝阶段的finetune阶段),掩码M保持不变,对活跃的权重值进行更新。具体见算法1。
在这里插入图片描述

关于基于梯度进行参数生长代码如下:

score_grow = self.backward_hook_objects[l].dense_grad
score_grow = torch.abs(score_grow)
score_grow = score_grow.view(-1)
# mask1是二值化掩膜,形状和M一样,权重的L1范数前α比例的位置为1,其他位置为0
score_grow_lifted = torch.where(mask1 == 1,   
                                torch.ones_like(mask1) * (torch.min(score_grow) - 1),
                                score_grow)
# mask2是二值化掩膜,形状和M一样,score_grow_lifted前α比例的位置为1,其他位置为0
mask_combined = torch.reshape(mask1 + mask2, current_mask.shape).bool()

5 效果

5.1 和SOTA方法对比

在InageNet上,不同稀疏度剪枝下的效果如表2。
在这里插入图片描述

在ImageNet上的计算量和准确率如图3。
在这里插入图片描述

Deep Sparse是最近提出的一种CPU上的稀疏加速框架。将ResNet50在Deep Sparse上进行时间稀疏。在CPU上的准确率和耗时如表3。
在这里插入图片描述

对MaskRCN进行剪枝后在COCO val2017数据集上的效果如表4。
在这里插入图片描述

对基于transformer的模型,本文的方法虽然没有专门为注意力机制设计,但在DeiT-S上也取得了很好地效果,如表5。

在这里插入图片描述

5.2 消融实验

关于超参 λ \lambda λ 的消融实验,如图4。

在这里插入图片描述

5.3 开销分析

RPG涉及昂贵的SVD计算。然而,作者进行了实验,并说明在时间和FLOP方面,SVD在剪枝过程中所占的成本开销非常小。如表6所示,SVD计算的总体时间和FLOPs仅占整个RPG剪枝成本的< 2 %。作者还比较了RPG与其他剪枝方法的FLOPs开销。从表7可以观察到,与基线相比,本文方法是最具有成本效益的。最重要的是,秩损失计算带来的额外开销并不是一个值得关注的问题。

在这里插入图片描述
在这里插入图片描述

6 结论

非结构化剪枝对GPU设备的加速效果非常有限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/720004.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何打开mobi文件?两个步骤解决

打开MOBI格式的电子书&#xff0c;其实相当简便。NeatReader作为一个兼容多格式多系统的电子书阅读器&#xff0c;对MOBI格式的支持自然不在话下。下面是使用NeatReader阅读MOBI文件的步骤&#xff1a; 第一步&#xff1a;下载并安装NeatReader&#xff1a; 首先&#xff0c;你…

彩虹PLM:引领产品生命周期管理的创新潮流

彩虹PLM&#xff1a;引领产品生命周期管理的创新潮流 在当今快速发展的商业环境中&#xff0c;产品生命周期管理&#xff08;PLM&#xff09;成为了企业提升竞争力、实现持续创新的关键。彩虹PLM作为业界领先的PLM解决方案&#xff0c;以其卓越的功能和创新的理念&#xff0c;引…

Python武器库开发-武器库篇之链接提取器(六十)

Python武器库开发-武器库篇之链接提取器&#xff08;六十&#xff09; 链接提取器介绍 链接提取器&#xff08;Link Extractor&#xff09;是一种用于从网页中提取链接的工具。它可以从网页的源代码中识别出所有的链接&#xff0c;并将这些链接提取出来。链接提取器可以用于各…

如何设置透明加密保护系统呢

设置透明加密保护系统通常涉及多个步骤&#xff0c;以下是一个基于参考文章信息和一般实践经验的清晰设置流程&#xff0c;包括分点表示和归纳&#xff1a; www.weaem.com 1. 需求分析 确定加密目标&#xff1a;明确需要加密的文件类型、存储位置和使用环境。评估安全风险&…

SQL Server 触发器

触发器是一种存储数据库过程&#xff0c;当数据库中发生特定事件&#xff08;如插入、更新或删除操作&#xff09;时&#xff0c;会自动调用该触发器。审核SQL Server实例的方法有很多&#xff0c;其中一种方法是使用审核触发器&#xff0c;触发器在SQL Server数据库中扮演着关…

AI发展面临的问题? —— AI对创造的重新定义

一、AI的问题描述 AI与数据安全问题&#xff1a;随着AI技术的发展和应用&#xff0c;数据安全问题日益突出。AI模型训练依赖于大量数据&#xff0c;而这些数据中可能包含个人隐私、商业秘密等敏感信息。如果数据在采集、存储、使用过程中处理不当&#xff0c;可能导致数据泄露或…

Vulnhub——AI: WEB: 2

渗透复现 &#xff08;1&#xff09;平台框架存在目录穿越漏洞&#xff0c;利用该漏洞读取敏感信息 &#xff08;2&#xff09;Ping功能点绕过&#xff0c;进行命令执行操作&#xff0c;反弹shell无果后&#xff0c;利用目录穿越漏洞遍历敏感API&#xff0c;读取到用户SSH登录…

自动统计一个学科领域中总共有多少研究者

问题&#xff1a;怎么知道一个学科领域中总共有多少研究者&#xff1f; 方法&#xff1a;学者的谷歌学术主页中会有对应的领域&#xff0c;以进化计算为例&#xff0c;进入一位进化计算学者的谷歌主页&#xff0c;然后进入标签“Evolutionary Computation”&#xff0c;只要知…

JavaScript日期处理:常见问题与解决方案

JavaScript中的日期处理是一个常见但有时又令人头疼的任务。在这篇博客文章中&#xff0c;我将分享一些在JavaScript中处理日期时遇到的常见问题以及它们的解决方法。 日期格式化 1.1 日期格式&#xff1a;yyyy-MM-dd formatDate() {var value new Date()var year value.g…

【系统架构设计师】二、操作系统知识(操作系统概述|进程管理)

目录 一、操作系统概述 1.1 操作系统定义 1.2 操作系统的功能 1.3 操作系统的分类 1.4 嵌入式操作系统主要特点 二、进程管理 2.1 进程的组成与状态 2.2 前趋图 2.3 进程资源图 2.4 进程调度 2.5进程调度算法 2.6 死锁 2.7 进程与线程 2.7.1 进程 2.7.2 线程 2…

RabbitMQ 相关概念

引言 什么是消息中间件 消息是指在应用间传送的数据&#xff0c;包含文本字符串、JSON等。消息队列中间件&#xff08;MQ&#xff09;指利用高效可靠的消息传递机制进行平台无关的数据交流&#xff0c;并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型…

Part 4.4 树形动态规划

树形动态规划&#xff0c;即在树上进行的动态规划。 因为树的递归性质&#xff0c;树形动态规划一般都是递归求解的。 没有上司的舞会 题目描述 某大学有 n n n 个职员&#xff0c;编号为 1 … n 1\ldots n 1…n。 他们之间有从属关系&#xff0c;也就是说他们的关系就像…

swagger手动添加cookies信息、浏览器中手动添加cookies信息

在实际项目使用中&#xff0c;我们可能需要把登录token放到cookies中&#xff0c;请求时从cookies中获取token值&#xff0c;以此校验用户登录信息&#xff0c;以下整理一下怎么在cookies中手动添加数据。 操作步骤如下&#xff1a; (1)&#xff1a;F12打开调试工具&#xff…

CP AUTOSAR标准之LargeDataCOM(AUTOSAR_CP_SWS_LargeDataCOM)

1 简介和功能概述 该规范描述了AUTOSAR基础软件模块LdCom的功能、API和配置。   在AUTOSAR分层架构中,AUTOSAR LdCom模块位于RTE/SwCluC_LdComProxy和PDU路由之间,参见[1,EXP LayeredSoftwareArchitecture]。   AUTOSAR LdCom模块提供了一种替代的交互层机制。通过专注于…

Python函数与模块知识点

函数 变量作用域 匿名函数 内置函数 递归函数 思维导图 global关键字 在 Python 中&#xff0c;如果你在函数内部想要修改一个全局变量的值&#xff0c;你需要使用 global 关键字来声明这个变量。 python x 10 # 全局变量def change_x(): global x # 声明 x 是全局变量 x 20 …

算法课程笔记——单调栈单调队列

算法课程笔记——单调栈&单调队列

解锁应用新技能:Xinstall助力快速获取H5信息,轻松提升用户体验

在移动互联网时代&#xff0c;数据是驱动应用发展的关键。对于许多开发者来说&#xff0c;如何高效、准确地获取H5信息成为了一个不小的挑战。今天&#xff0c;我们为大家介绍一款强大的工具——Xinstall&#xff0c;它将帮助你轻松解决这一难题&#xff0c;让你的应用数据获取…

Jacob调用Windows桌面软件(Adobe系列,CAD,ABBYY FineReader 等)

参考资料 jacob调用adobe动态库https://blog.csdn.net/love_5209/article/details/19162185 python查看查看 COM 组件的 ProgID 或 CLSID 对应的字符串参数https://blog.51cto.com/u_16175517/10484354加载动态库示例https://baijiahao.baidu.com/s?id=1777971964908285215&…

在Spring Boot中使用Sa-Token实现路径拦截和特定接口放行

在Spring Boot中使用Sa-Token实现路径拦截和特定接口放行 很喜欢的一段话&#xff1a;别想太多&#xff0c;好好生活&#xff0c;也许日子过着过着就会有答案&#xff0c;努力走着走着就会有温柔的着落。 春在路上&#xff0c;花在枝上&#xff0c;所有的美好都在路上&#xff…

【STM32】使用标准库创建一个工程

创建工程 本系列文章中使用的硬件和软件版本如下&#xff1a; CPU型号&#xff1a;STM32F407ZGT6 Keil版本&#xff1a;V5.38.0.0 ARM编译器版本&#xff1a;V5.06 标准库版本&#xff1a;V1.8.0 1.下载标准库 官网链接&#xff1a;STSW-STM32065 - STM32F4 DSP和标准外…