Straightforward Layer-wise Pruning for More Efficient Visual Adaptation

对于模型中冗余的参数,一个常见的方法是通过结构化剪枝方法减少参数容量。例如,基于幅度值和基于梯度的剪枝方法。尽管这些方法在传统训练上通用性,本文关注的PETL迁移有两个不可避免的问题:

  1. 显著增加了模型存储负担。由于不同的下游数据,剪枝方法设置的剪枝率不同,导致不同数据集的不同网络结构,这导致这些不同结构大的存储空间。
  2. 模型精度的损失。剪枝冗余参数从网络中的预训练参数,这不与下游数据集直接相关。可训练参数需要适应剪枝的新结构,实验中表明这阻碍了模型精度恢复。

本文方法

这里首先介绍广泛使用的维度约简算法,t-SNE和聚类算法标准,轮廓系数索引(silhouette coefficient index)。给定d维度的输入特征集合 X = { x 1 , x 2 , … , x n } X=\{x_{1},x_{2},\ldots,x_{n}\} X={x1,x2,,xn},t-SNE计算s维度嵌入集合,定义为 $Y={y_{1},y_{2},\ldots,y_{n}$,满足 s ≪ d s\ll d sd。t-SNE计算 x i x_{i} xi x j x_{j} xj 之间相似度的公式为以下的联合概率 p i j = p i ∣ j + p j ∣ i 2 n p_{ij}=\frac{p_{i|j}+p_{j|i}}{2n} pij=2npij+pji
其中

p i ∣ j = exp ⁡ ( − ∣ ∣ x i − x j ∣ ∣ 2 / 2 σ i 2 ) ∑ k ≠ i exp ⁡ ( − ∣ ∣ x i − x k ∣ ∣ 2 / 2 σ i 2 ) p_{i|j}=\frac{\exp(-||x_{i}-x_{j}||^{2}/2\sigma_{i}^{2})}{\sum_{k\neq i}\exp(-||x_{i}-x_{k}||^{2}/2\sigma_{i}^{2})} pij=k=iexp(∣∣xixk2/2σi2)exp(∣∣xixj2/2σi2)

基于上述 X X X Y Y Y 的联合分布 P P P Q Q Q,t-SNE通过梯度下降优化 P P P Q Q Q 之间KL散度。

轮廓系数索引

给定聚类结果集合 X = { x 1 , x 2 , … , x n } X=\{x_{1},x_{2},\ldots,x_{n}\} X={x1,x2,,xn},对于每一点 x i x_{i} xi,定义 a i a_{i} ai 是在这疑惧类剩下点和 x i x_{i} xi 平均距离。 b ( i ) b(i) b(i) 是在最近聚类的所有点到 x i x_{i} xi 平均距离。定义轮廓系数索引为

s ˉ = 1 n ∑ i = 1 n b ( i ) − a ( i ) max ⁡ ( a ( i , b ( i ) \bar{s}=\frac{1}{n}\sum_{i=1}^{n}\frac{b(i)-a(i)}{\max(a(i,b(i)} sˉ=n1i=1nmax(a(i,b(i)b(i)a(i)

基于特征视角的逐层剪枝

先前研究已经显示较低的层捕捉一般特征,较高的层关注于特定特征。基于此理解和PETL冻结预训练网络参数的限制,本文提出了一个假设:当存在下游数据分布和预训练数据分布显著差异时,由PETL迁移的较深的层将包含大量的冗余参数。本文目标是动态识别并剪枝这些冗余参数。后续关键评价指标需要满足:

  • 维持PETL迁移模型相同存储参数数量
  • 不需要额外训练预测冗余参数

不增加存储参数数量

考虑一个PETL迁移的N层ViT模型,定义每层预训练参数为 W P i W_{P}^{i} WPi,定义每层新引入的参数为 W A i , j W_{A}^{i,j} WAi,j,头参数为 W H j W_{H}^{j} WHj,由SLS预测的剪枝层索引为 I n d e x j Index_{j} Indexj。对于层级别的剪枝方法,在K个下游数据集的存储的参数量 S S S
S = ∑ j = 1 K ∑ i = 1 I n d e x j ( W P i + W A i , j ) + ∑ j = 1 K W H j S=\sum_{j=1}^{K}\sum_{i=1}^{Index_{j}}(W_{P}^{i}+W_{A}^{i,j})+\sum_{j=1}^{K}W_{H}^{j} S=j=1Ki=1Indexj(WPi+WAi,j)+j=1KWHj
显然剪枝层数量不会超过网络层的范围。

S ≤ ∑ j = 1 K ∑ i = 1 N ( W P i + W A i , j ) + ∑ j = 1 K W H j = K ∑ i = 1 N W P i + ∑ j = 1 N ∑ i = 1 N W A i , j + ∑ j = 1 K W H j S\leq \sum_{j=1}^{K}\sum_{i=1}^{N}(W_{P}^{i}+W_{A}^{i,j})+\sum_{j=1}^{K}W_{H}^{j}=K\sum_{i=1}^{N}W_{P}^{i}+\sum_{j=1}^{N}\sum_{i=1}^{N}W_{A}^{i,j}+\sum_{j=1}^{K}W_{H}^{j} Sj=1Ki=1N(WPi+WAi,j)+j=1KWHj=Ki=1NWPi+j=1Ni=1NWAi,j+j=1KWHj
对于存储的参数,每一层的参数 W P i W_{P}^{i} WPi 是可以再次使用的,因此满足:
S ≤ ∑ i = 1 N W P i + ∑ j = 1 N ∑ i = 1 N W A i , j + ∑ j = 1 K W H j S\leq \sum_{i=1}^{N}W_{P}^{i}+\sum_{j=1}^{N}\sum_{i=1}^{N}W_{A}^{i,j}+\sum_{j=1}^{K}W_{H}^{j} Si=1NWPi+j=1Ni=1NWAi,j+j=1KWHj

基于从每层的中间特征做剪枝决策

本文提出使用约简维度特征的聚类度评估层特征。该方法没有引入额外的监督训练。

给定输入 X X X,ViT模型将其通过补丁嵌入曾嵌入d维度潜在空间获得 e 0 e_{0} e0 e 0 e_{0} e0 与CLS令牌连接作为模型输入。ViT模型backbone前向过程可以描述为:
[ x i , e i ] = L i ( [ x i − 1 , e i − 1 ] ) [x_{i},e_{i}]=L_{i}([x_{i-1},e_{i-1}]) [xi,ei]=Li([xi1,ei1])

本文提出特征评估模块(FEM)评估从层 L i L_{i} Li 的特征。FEM从层 L i L_{i} Li 的输出获得CLS令牌 x i x_{i} xi 表示当前特征。之后使用t-SNE算法约简 x i x_{i} xi x i ′ x_{i}^{\prime} xi。通过结合当前输入的标签,获得 p p p 类别的聚类结果。之后获得对应 C C C a ( i ) a(i) a(i) b ( i ) b(i) b(i),最后是当前层的特征评估 S C _ i n d e x i SC\_index_{i} SC_indexi

对于N层的模型,定义 α \alpha α 是控制SLS剪枝度的超参数。在当前数据集的对于剪枝层的阈值 T T T 定义为:

T = α × S C _ I n d e x N T=\alpha\times SC\_Index_{N} T=α×SC_IndexN

在模型剪枝过程中,从最高层往下。当第i层特征的评估 S C _ I n d e x i SC\_Index_{i} SC_Indexi 小于T,停止遍历并剪枝从i+2到N的层。核心思想是当第 i层评估与最终层特征评估差距小于一个特定阈值,分类头不再能有效区分当前特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/906329.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机后台服务-更新下载,重启————未来之窗行业应用跨平台架构

一在教育中应用 1. 提高效率:能够快速收集大量学生的卷子,节省了传统人工收集和整理的时间。 2. 准确性:减少了人工收卷过程中可能出现的错漏和混乱,确保每份卷子都能准确无误地被收集和记录。 3. 即时性:可以实时接收…

奥数与C++小学四年级(第十八题 小球重量)

参考程序代码&#xff1a; #include <iostream> #include <vector>int main() {// 小球的重量std::vector<int> weights {1, 2, 3, 4, 5};// 用来存储可能的结果int a, b, c, d, e, x;// 穷举所有可能的 a, b, c, d, e 的组合for (int i 0; i < weight…

Android启动流程_Init阶段

前言 本文将会介绍 Android 启动流程&#xff0c;将基于 Android 10 代码逻辑介绍原生启动过程。 bootloader 上电 -> 加载 recovery 镜像或者 boot 镜像 -> linux kernel 启动 -> 加载 init 进程 -> 加载 zygote 进程 -> systemserver 进程 -> 系统启动 …

线上3D看车有何优势?

随着Web3D展示技术的不断革新&#xff0c;线上3D看车正逐步成为消费者购车的新选择。这种创新的展示方式不仅提供了更真实、更有趣的互动体验&#xff0c;还带来了诸多优势&#xff0c;让购车过程变得更加便捷、高效。 一、更真实的展示效果 相较于传统的图片和文字描述&…

OpenCv —— 为opencv支持中文,将freetype2库编译进opencv中(附详细编译流程、测试代码)

效果(下面摄像头视频过于老旧 视频效果不好;但文字可添加。) 背景 由于OpenCV本身不支持中文显示,开发者需要借助其他库来实现这一功能。 OpenCV的contrib版本中包含了freetype库,可以通过编译opencv-contrib模块来支持中文显示。这种方法需要在编译OpenCV时特别配置,确保…

打印直角三角形

今天给大家分享一个打印直角三角形的方法 其实直角三角形在终端中的显示是又空格和星号组成的 只要将其看成一个矩形&#xff0c;并找出两者规律便可实现&#xff08;与打印菱形有一定相似的理解&#xff09;&#xff0c;下面我们来分享一个更简便的方法 它的规律是行和列之和…

python-函数前一行加@xxxx的含义参数的约束条件检查装饰器

在sklearn中看到红框中的函数&#xff0c;于是好奇是什么东西&#xff0c;查到python-函数前一行加xxxx的含义 于是找到函数定义&#xff1a;def validate_params(parameter_constraints, *, prefer_skip_nested_validation): 但是&#xff0c;里面没有定义func参数 于是再看…

科技资讯|谷歌Play应用商店有望支持 XR 头显,AR / VR设备有望得到发展

据 Android Authority 报道&#xff0c;谷歌似乎正在为其 Play 商店增加对 XR 头显的支持。该媒体在 Play 商店的代码中发现了相关的线索&#xff0c;包括一个代表头显的小图标以及对“XR 头显”的提及。 谷歌也可能改变了此前拒绝将 Play 商店引入 Meta Quest 头显的决定。今…

百度SEO分析实用指南 提升网站搜索排名的有效策略

内容概要 在数字化时代&#xff0c;搜索引擎优化&#xff08;SEO&#xff09;已经成为提升网站曝光度的关键工具。本指南将带您了解SEO的基本知识&#xff0c;帮助您在复杂的网络环境中立足。我们将从关键词优化开始&#xff0c;重点讲解如何选择合适的关键词来提高搜索引擎排…

基于vue框架的的考研网上辅导系统ao9z7(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;学生,公告信息,课程分类,考研资料,考研视频,课程信息,院校建议,教师 开题报告内容 基于Vue框架的考研网上辅导系统开题报告 一、研究背景与意义 随着高等教育的普及和就业竞争的加剧&#xff0c;考研已成为众多大学生提升学历、增强就…

flutter 用PUT的方式传输文件不带分隔符

最近有个需求&#xff0c;需要在flutter中用put的方式传输固件到设备上&#xff0c;本来以为用dio或者http这两个框架就能轻松完成的&#xff0c;结果发现&#xff0c;这两个框架传输过去的文件都会修改了源文件&#xff0c;把请求头的分隔符也带进去了&#xff0c;设备无法识别…

Javaweb 实验4 xml

我发现了有些人喜欢静静看博客不聊天呐&#xff0c; 但是ta会点赞。 这样的人呢帅气低调有内涵&#xff0c; 美丽大方很优雅。 说的就是你&#xff0c; 不用再怀疑哦 实验四 XML 目的&#xff1a; 安装和使用XML的开发环境认识XML的不同类型掌握XML文档的基本语法了解D…

基于SSM+VUE历史车轮网站JAVA|VUE|Springboot计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解

源代码数据库LW文档&#xff08;1万字以上&#xff09;开题报告答辩稿 部署教程代码讲解代码时间修改教程 一、开发工具、运行环境、开发技术 开发工具 1、操作系统&#xff1a;Window操作系统 2、开发工具&#xff1a;IntelliJ IDEA或者Eclipse 3、数据库存储&#xff1a…

【果实种子识别】Python+深度学习+人工智能+CNN卷积神经网络算法+TensorFlow+算法模型训练

一、介绍 果实种子识别系统&#xff0c;使用Python语言进行开发&#xff0c;通过TensorFlow搭建卷积神经网络算法模型&#xff0c;对10种坚果果实&#xff08;‘杏仁’, ‘巴西坚果’, ‘腰果’, ‘椰子’, ‘榛子’, ‘夏威夷果’, ‘山核桃’, ‘松子’, ‘开心果’, ‘核桃…

云服务器哪家好?(跨境电商云服务器推荐)

跨境电商的发展势头愈发迅猛&#xff0c;对云服务器的需求也在与日俱增。挑选一个合适的云服务器&#xff0c;能够为跨境电商提供稳定的运行环境&#xff0c;确保网站具备快速响应能力&#xff0c;提升用户体验&#xff0c;进而增强商业竞争力。 以下是一些比较好的云服务器提供…

CentOS 文件系统扩容与缩容

一、 概述 理解Linux文件系统的管理&#xff0c;需要了解以下的一张图&#xff1a; 一般使用LVM (Logical Volume Manager) 管理磁盘存储&#xff0c;该工具允许用户更灵活地分配和管理存储空间。主要有以下几个概念&#xff1a; PV&#xff08;Physical Volume&#xff0c;物…

分布式事务(2)----AT模式脏写问题

1.AT模式的脏写问题 我们先回顾一下AT模式的流程&#xff0c;AT模式也分为两个阶段&#xff1a; 第一阶段是记录数据快照&#xff0c;执行并提交事务&#xff1a; 第二阶段根据阶段一的结果来判断&#xff1a; 如果每一个分支事务都成功&#xff0c;则事务已经结束&#xff…

利用AWS服务轻松迁移数据上云

在数字化转型的浪潮中&#xff0c;越来越多的企业意识到将数据迁移至云端的重要性。云服务不仅能够提供更高的灵活性和可扩展性&#xff0c;还能显著降低IT成本。AWS&#xff08;Amazon Web Services&#xff09;作为全球领先的云服务提供商&#xff0c;为企业提供了一系列高效…

web——upload1——攻防世界

第一次做木马题目&#xff0c;有点懵逼&#xff0c;浮现一下做题思路 可以上传一个文件&#xff0c;通过学习学习到了一句话木马 一句话木马&#xff1a; 利用文件上传漏洞&#xff0c;往目标网站中上传一句话木马&#xff0c;然后你就可以在本地通过中国菜刀chopper.exe即可…

二百七十二、Kettle——ClickHouse中增量导入数据重复性统计表数据(1天1次)

一、目的 在数据质量模块&#xff0c;需要对原始数据的重复性进行统计 Hive中原有SQL语句和ClickHouse现有SQL语句很大不同 二、Hive中原有代码 2.1 表结构 --41、八大类基础数据重复性统计表 事件事件资源不需要重复 create table if not exists hurys_db.dwd_data_d…