深度学习论文解读:比较ResNet和ViT差异

前言

计算机视觉、机器学习,这两个词会让你想到什么?

相信绝大多数人第一反应都是CNN,而持续关注这些领域发展的人,则会进一步联想到近几年大火的Transformer,它不仅在自然语言相关任务上表现优秀,在图像领域同样取得了相当不错的效果。

去年10月份Google推出的Vision Transformer (ViT),就在图像识别任务上用更高的学习效率,达到了不亚于ResNet的精度。当一个模型性能达到SOTA之后,很自然地,人们就会想去探究它的原理,并和先前的模型进行比较。今年上半年,普林斯顿大学就从错误一致性的角度比较了ViT与ResNet,最终发现ViT更容易错判形状相似的物体,而ResNet的识别更依赖纹理信息 [1]。

最近,Google则对网络本身进行了进一步的探索,试图通过追踪模型学习表征的过程,确认ViT和ResNet在处理图像的原理上是否一致

论文题目:
Do Vision Transformers See Like Convolutional Neural Networks?

论文链接:
http://arxiv.org/abs/2108.08810

方法

ResNet与ViT回顾

在开始研究区别之前,我们先快速回顾一下ResNet和ViT分别是谁,长什么样。

首先是 ResNet,深度残差网络,2015年ImageNet挑战赛冠军。通过如下图所示的残差块实现网络层上的跳跃,从而将模型的优化目标从寻找函数的等价映射改为了逼近零,弱化了网络变深对模型性能的负面影响。目前为止,基于ImageNet数据集训练的ResNet50仍然是图像处理任务中使用频率最高的预训练模型之一

而 ViT 则是从NLP领域红的发紫的Transformer改编而来。编码-解码的结构,中间加一个多头注意力机制。ViT主要的改变就是在输入端,将图像进行了分块和降维,从而将图像变成一种类似于词语编码的表达方式,方便了后续处理。经过了这一小步的改动,ViT在JFT-300M(ImageNet的300倍放大版,3亿张图像)上预训练的模型成功超越了ResNet152 [2]。

超越ResNet虽然有难度,但也算不上大新闻。ViT能引起讨论热度的主要原因是它跨界了,不仅制霸NLP,如今还可能给CV翻篇。这样的可能性自然是让人坐不住了,如果存在一个方法能作为不同模态不同类型任务的通解,那AI大一统时代说不定也就不远了。

那么,在这一美好愿望成真之前,更需要谨慎地检验: Transformer 处理图像时获取的特征是否和之前主流的 CNN 有所区别

  • 如果它们虽然处理数据方法有所差异,但决定输出的特征是高度相似的,则意味着目前CV的模型已经接近了人类判断图像时所基于的依据
  • 而如果模型中决定性的特征有所不同,则可以进一步研究哪一种特征对信息的表征效果更好,或者两类模型还能相互借鉴,从而获得新一轮的性能提升。

比较方法——CKA

基于这样的动机,Google用Centered Kernel Alignment (CKA)对ResNet和ViT的一些关键层进行了检验。首先了解一下CKA这种方法。CKA是Google在2019年提出的,用于衡量神经网络中层与层之间相似度的指标 [3]。
假设想要检测的两层网络分别有和个神经元,取个样本通过模型,则分别可以获取和的表征矩阵。基于点积的相似性,首先可以获得

此处下标F代表Frobenius范数。根据上式,可以推导出

然后根据Hilbert-Schmidt Independence Criterion (HSIC)[3]的表达式,将中的列通过核函数对应到上,使得,,可以得到HISC的经验估计值

此处是中心矩阵,即。归一化之后即为CKA指标

这个指标的优势在于,它能够确定基于不同随机初始化和不同宽度训练的神经网络的隐藏层之间的对应关系。因此,适合用于寻找ResNet和ViT中是否存在有对应的网络层。

关键结论

利用CKA,研究者发现ResNet和ViT在最接近输入的网络底层(lower layer)时,表征的内容持有较大的相似度;然而,由于两个网络处理表征的方式有很大区别,在层层传递之后,在接近输出的网络上层(higher layer)两者的表征最终区别很大。

两个在底层表征上有相似之处的网络,居然长着长着发展到了两个方向。因为ResNet在处理输入时,需要经过更多层才能获得类似于ViT底层的表征,由此引发了一个合理的猜想:两个网络在整合全局信息的能力上存在差异

为了验证这个想法,研究者先是对ViT的不同层中,注意力集中区域的距离进行的计算,他们发现,ViT无论是低层还是高层,都是局部和全局信息混杂的,相比之下,ResNet更为严格地遵守从局部特征提炼全局特征的处理过程。这是导致两个网络中表征的差异逐层增加的一大关键因素。

另一方面,这种差异的原因还可能来自ViT从底层到高层的相似度比ResNet高的这一现象。研究者认为,是ViT中的跳跃连接结构 (skip connection)保护了底层到高层的表征传递,如下图所示,如果撤掉特定块区上的这种连接结构,对应的表征信息就会立刻“失传”。

由于上述在处理信息过程上的差异,最终,ViT的高层表征能够更精细地保留局部空间信息。尤其是到了最后分类的关键时刻,ResNet还进行了一次全局的平均池化,进一步显著地减少了高层中局部信息的精细度。

通过全方位的比较,包括将隐藏层揪出来细细观察。最终,研究者下定结论:虽然它们在性能上不相上下,但以ResNet为代表的CNN与ViT在处理信息的工艺原理上大相径庭

最后的话

其实文章的结论没有特别出人意料的地方,毕竟ResNet和ViT的模型结构摆在那里,前期对两个网络分别的原理分析论文也不少了,Google这次的工作其实是把大家直觉性经验性的结论用可复现的实验规范地落在了纸上,并且努力夸夸ViT,好吸引更多研究者采用
引起白鹡鸰注意的是,在整个验证过程中,ViT模型是Google的,JFT-300M数据集是Google的,CKA度量指标也是Google的,这一整套完整的测评走下来,再一次让人不得不感叹Google的科研实力果然引领潮流。

不仅如此,论文的写作也确实又一次展现了业内标杆的风度,作为一篇原理解释型的文章,它没有将一大坨公式怼到读者脸上,而是通过一系列的自问自答,合理引导读者思路历程,清晰地说明了实验的动机和每个步骤的意义,并用图像佐证观点

这简直是泥石流中的一股清流,让近期饱受各类奇葩论文的白鹡鸰流下了感动的泪水,并觉得很有写作上的借鉴价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/167761.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS4.0系列——01、下载、安装、配置环境、搭建页面以及运行示例代码

HarmonyOS4.0应用开发 安装编辑器 这里安装windows版本为例 安装依赖 打开DevEco Studio 这八项全部打钩即可开始编写代码,如果存在x,需要安装正确的库即可 开发 点击Create Project 选择默认模板——next Model部分分为Stage和FA两个应用模型&…

JS:给数字添加千分位符(每3位数用逗号隔开)

背景 如果一串数字的长度太长,就不方便阅读,因此可以采用分隔符对数字进行分割本文的分割规则是: 如果数字的长度大于等于5则进行分割,每3位数用逗号分割开 解决 数字可以分为:number类型的数字和字符串类型的数字&…

作为电子信息工程的学生,学完stm32后,是应该学fpga还是Linux?

作为电子信息工程的学生,学完stm32后,是应该学fpga还是Linux? 我自己也是电子信息工程专业出身,FPGA和Linux都是我们大三的专业课,都学过基础也做了基础 的项目,我自己的选择是Linux。最近很多小伙伴找我&#xff0c…

汽车制造领域中的3D测量仪,您了解多少?

在汽车制造领域中,3D测量仪可以满足各种不同的测量需求,被广泛应用于各种零部件和整车的测量、检测及质量控制,为汽车制造的质量控制和精度提高提供了重要的保障。 在汽车设计阶段,3D测量仪可以精确测量车身、引擎盖、车门等零部…

主播个人风格定位

—、外观风格 主播的外观风格是给观众的第一印象,它决定了主播在观众心中的形象和定位。以下是一些常见的外观风格类型: 1.时尚型:主播穿着时尚、前卫,通常以潮流、新颖的形象出现在观众面前。 2.清新自然型:主播穿着简单、舒适,给人一种自…

亚马逊卖家售后管理做得好,差评投诉不见了!一文分享售后管理技巧

对于亚马逊卖家而言,把产品卖出去之后并非一劳永逸,往往都会涉及到售后服务,即使卖家发出了货物且收到了付款,买家也可能申请售后退货退款。售后服务是亚马逊卖家成功的关键之一,这不仅仅影响着买家的购买体验&#xf…

如何找到自己的兴趣和擅长,并以此为职业?

说起热爱,擅长,兴趣,职业这些词,我是一贯的主张:人活着不容易,干点自己喜欢的不香吗。 但是.....一定要注意这个但是...... 什么是兴趣? 三分钟热度算不算?不能养家糊口的算不算&…

2024年全网最全的Jmeter教程:jmeter_BeanShell脚本通过BeanShell进行加解密方法

BeanShell脚本 BeanShell简介: BeanShell是一种完全符合Java语法规范的脚本语言,并且又拥有自己的一些 语法和方法; BeanShell是一种松散类型的脚本语言; BeanShell是用Java写成的,一个小型的、免费的、可以下载、嵌入式的 Ja…

信息机房监控系统(动环辅助监控系统)

信息机房监控系统是一个综合性的系统,用于对机房的所有设备及其环境进行集中监控和管理。这种系统主要针对机房的各个子系统进行监控,包括动力系统、环境系统、消防系统、保安系统、网络系统等。 依托电易云-智慧电力物联网,以下是信息机房监…

外卖小程序系统:数字化时代餐饮业的技术奇迹

在当今数字化时代,外卖小程序系统正以其强大的技术背后支持,成为餐饮业务的一项奇迹。这个系统不仅提供了便捷的点餐体验,更通过先进的技术手段,实现了高效订单处理、智能推荐以及实时配送追踪。下面,我们将深入探讨外…

Java 开源重试类 guava-retrying 使用案例

使用背景 需要重复尝试执行某些动作&#xff0c;guava-retrying 提供了成型的重试框架 依赖 <dependency><groupId>com.github.rholder</groupId><artifactId>guava-retrying</artifactId><version>${retrying.version}</version>…

如何在Linux以docker-compose方式快速部署运行StackEdit,并实现公网访问

文章目录 1. docker部署Stackedit2. 本地访问3. Linux 安装cpolar4. 配置Stackedit公网访问地址5. 公网远程访问Stackedit6. 固定Stackedit公网地址 StackEdit是一个受欢迎的Markdown编辑器&#xff0c;在GitHub上拥有20.7k Star&#xff01;&#xff0c;它支持将Markdown笔记保…

考情实况系列:把控考场节奏,从容拿下Datacom HCIE认证

大家好&#xff0c;我是誉天的数通学员&#xff0c;前段时间刚刚通过了HCIE认证考试&#xff0c;这里给大家分享一下我的考试经验与心得&#xff0c;希望对大家有所帮助。 我预约的是11月3日的杭州考场&#xff0c;考试前一天我就到了杭州&#xff0c;在中医药大学地铁站边上的…

C# Onnx DIS高精度图像二类分割

目录 介绍 效果 模型信息 项目 代码 下载 介绍 github地址&#xff1a;https://github.com/xuebinqin/DIS This is the repo for our new project Highly Accurate Dichotomous Image Segmentation 对应的paper是ECCV2022的一篇文章《Highly Accurate Dichotomous Imag…

5.1异常处理

5.1异常处理 1. 什么是异常2. 异常分类2.1 Error2.2 Exception 3. 异常处理3.1 try-catch-finally终止finally执行的方法return关键字在异常处理的作用 1. 什么是异常 2. 异常分类 2.1 Error 2.2 Exception 2.2.1 非检查异常 2.2.2 检查异常 3. 异常处理 3.1 try-catch-fina…

位实现加减乘除专题

位实现加减乘除专题 在计算机中&#xff0c;位运算的效率比加减乘数效率更高&#xff0c;因此在高性能软件的源码中大量应用&#xff0c;而且计算机里各种运算本质上都是位运算。本专题我们就研究几个相关问题。 两整数之和 题目 : LeetCode 371.两整数之和 : 371. 两整数…

计算一个6人的队形问题

有6个人在操场上排队 3a2 0 1 0 3a3 0 0 1 0 1 0 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 有3个人希望队形有3a2的结构&#xff0c;另外还有3个人希望队形有3a3的结构&#xff0c;现在让这6个人排成一个队&#xff0c;最终的队形是什么&a…

无菌药品生产(A级区域)--气流流型测试可视化烟雾试验详细介绍

技术背景 无菌药品是指法定药品标准中列有无菌检测项目的制剂和原料药&#xff0c;包括注射剂、眼用制剂、无菌软膏剂、无菌混悬剂等。目前工程中&#xff0c;以注射剂产品为主的厂房占据了很大的比重。 无菌药品生产质量风险管理中&#xff0c;人员及其活动被视为重大的污染…

智能配电箱柜管理系统

智能配电箱柜管理系统是一个综合性的管理系统&#xff0c;专门设计用于监控和控制智能配电箱和柜的运行。这个系统集成了先进的技术和智能化功能&#xff0c;以确保配电系统的正常运行并提高其效率。依托电易云-智慧电力物联网&#xff0c;以下是智能配电箱柜管理系统的主要特点…

『开源资讯』JimuReport 积木报表 v1.6.5 版本发布 — 免费报表工具

项目介绍 一款免费的数据可视化报表&#xff0c;含报表和大屏设计&#xff0c;像搭建积木一样在线设计报表&#xff01;功能涵盖&#xff0c;数据报表、打印设计、图表报表、大屏设计等&#xff01; Web 版报表设计器&#xff0c;类似于excel操作风格&#xff0c;通过拖拽完成报…