DVT:消除视觉变换器中的噪声伪影

人工智能咨询培训老师叶梓 转载标明出处

近年来,视觉变换器(Vision Transformers,简称ViTs)在多种视觉任务中取得了卓越的性能,成为现代视觉基础模型的主流架构之一。然而,这些模型在特征图中存在一种网格状的噪声伪影,这种伪影不仅影响特征的可解释性,还会干扰语义连贯性,进而影响下游任务的性能。例如,直接在原始ViT输出上应用聚类算法会导致噪声聚类,从而降低模型在下游任务中的表现。

为了解决这一问题,来自南加州大学、康奈尔大学、上海交通大学和谷歌研究院的研究人员提出了一种新颖的去噪方法,称为Denoising Vision Transformers(DVT)。

图1展示了DVT在不同ViT模型上的去噪效果,包括DINOv2、DeiT-III、CLIP等模型。每组图像三联体展示了一个输入图像、其对应的原始特征可视化图和DVT去噪后的清洁特征图。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

DVT方法

DVT 的核心思想是将 ViT 的输出特征图分解为三个主要部分:无噪声的语义项f(x)、与位置相关的伪影项 ,以及一个表示语义和位置相互依赖的残差项 。这种分解的动机源于理想视觉特征应具备的平移和反射不变性,即物体的特征在不同视角、大小和方向下应保持一致。然而,ViT 在处理输入时将 patch 嵌入与位置嵌入混合,破坏了这种不变性,导致输出中出现不希望的伪影。这些伪影在特征图中表现为网格状的噪声模式,影响特征的可解释性和语义连贯性,进而影响下游任务的性能。

具体来说,ViT 的输出可以被形式化地表示为:

其中,f(x) 是与输入相关的无噪声语义项,捕捉图像的主要内容和语义信息;是与输入无关的伪影项,主要反映了位置嵌入引入的噪声模式;是残差项,表示语义和位置相互依赖的部分,捕捉两者之间的复杂交互关系。这种分解方法适用于所有 ViT 模型,能够有效地分离出噪声伪影,为后续的去噪处理提供了基础。

由于 ViT 输出特征的交织性质,直接在单次前向传播中解决上述分解问题是不切实际的。为此,DVT 利用跨视图特征和伪影的一致性来克服这一难题。具体来说,DVT 通过以下两个方面来实现去噪:

  1. 特征一致性:理想中的视觉特征应当在不同的空间变换下保持不变,即尽管输入图像经历了缩放、裁剪、翻转等变换,但其语义内容仍然保持一致。这种一致性要求特征映射能够在不同视图之间保持语义的连贯性。

  2. 伪影一致性:输入无关的伪影在所有变换中都是可观察且恒定的。这意味着伪影项 在不同视图中具有相似的模式和分布,不受输入内容的影响。

为了实现这种一致性,DVT 采用了神经场技术来近似语义特征和伪影特征。神经场是一种基于坐标网络的方法,能够将输入图像的像素坐标映射到对应的特征向量。具体而言,DVT 为每个图像构建一个整体的图像语义表示 F,以及一个由所有变换视图共享的空间伪影特征表示G。整体图像特征表示 F 旨在捕获空间独立、无伪影的语义信息,而G 则编码位置依赖但输入无关的噪声模式。通过这种方式,DVT 能够在不同视图之间实现特征和伪影的一致性,从而有效地分离出噪声伪影。

在优化过程中,DVT 通过最小化正则化重建损失来学习语义场 F、伪影场 G 和残差项 Δ。损失函数包括距离损失、残差损失和稀疏性损失,分别用于衡量特征重建的准确性、残差项的大小以及伪影项的稀疏性。通过这种优化策略,DVT 能够在保持语义信息的同时,最大程度地去除伪影噪声,生成高质量的去噪特征图。

图 4展示了 DVT 的方法概述,其中第一阶段将图像裁剪的原始特征分解为无噪声的语义项 F、与输入无关的位置相关伪影项 G 和额外的残差项 Δ。这一过程通过神经场技术实现,能够有效地从原始 ViT 输出中提取出干净的特征,为后续的去噪处理提供了基础。

虽然单图像去噪方法已经能有效去除 ViT 输出中的伪影,生成视觉上令人惊叹的去噪特征图,但仍存在运行时效率和分布偏移的问题。具体来说,单图像去噪过程需要对每个图像进行单独的优化,这在实时应用中是不现实的。此外,单独去噪的特征图可能导致特征分布偏移,影响图像间的特征一致性,从而影响模型在大规模数据集上的泛化能力。

为解决这些问题,DVT 引入了通用去噪器。在应用单图像去噪后,DVT 累积包含噪声 ViT 输出及其去噪对应物的数据集,记为。然后,DVT 训练一个去噪器网络,从原始 ViT 输出预测无噪声特征,即。去噪器网络的训练目标是最小化预测特征与真实去噪特征之间的距离损失,从而提高去噪器的泛化能力。

通用去噪器实现为一个轻量级的 Transformer 块,补充了额外可学习位置嵌入,以减轻输入无关的伪影。这种设计不仅能够有效地去除伪影噪声,还能保持特征的语义信息和空间一致性。在预测去噪特征时,将预训练 ViT 的输出加上这些位置嵌入,然后通过 Transformer 块进行处理,生成高质量的去噪特征图。

值得注意的是,这种学习到的去噪器是轻量级的,因此给原始 ViT 增加的延迟可以忽略不计,便于实时应用。它还能学习泛化样本,减轻单图像去噪过程中的分布偏移问题,提高模型在大规模数据集上的泛化能力和鲁棒性。通过这种方式,DVT 实现了从单图像去噪到通用去噪的跨越,为 ViT 在各种视觉任务中的应用提供了更为高效和可靠的去噪解决方案。

实验

不同 ViT 中的位置伪影:研究人员首先可视化了不同预训练 ViT 的特征图,如 图 1 所示。其中,DINOv2 作为一种在下游任务中表现出色的视觉基础模型,其输出特征图中清晰地显示出与位置相关的伪影。此外,使用图像类别标签训练的 DeiT-III 和通过文本-图像对齐训练的 CLIP 也显示出明显的伪影。EVA02 通过从预训练的 CLIP 模型中提取局部 patch 特征,同样存在明显的特征伪影。在测试的 ViT 中,DVT 成功地减轻了这些伪影,如 图 1 中“Original features”与“Denoised features”所示。

不同层中的伪影:在 图 5 中,研究人员对不同大小的 DINOv2 ViT 的各层进行了伪影分解的可视化分析。值得注意的是,DVT 分解出的伪影与仅使用零张量输入时生成的特征图具有很强的视觉相似性。此外,观察到伪影在不同层中表现出不同的模式:浅层主要表现为低频模式,而深层则以高频模式为特征。这些模式在不同大小的 ViT 中(例如,从 ViT-small 到 ViT-large)是一致的,这与之前的研究假设只有大型 ViT 会显示出这种模式不同。

伪影与位置的相关性:除了视觉上的定性检查,研究人员还定量分析了伪影与其位置之间的相关性。类似于之前的研究,他们使用最大信息系数(MIC)来衡量网格特征与其标准化 patch 坐标之间的依赖关系。这一指标表明 patch 特征在多大程度上依赖于其空间位置和语义内容。如 表 1 所示,无论是原始 ViT 输出还是分解出的伪影,都比去噪后的语义特征显示出更高的空间相关性,无论采用何种训练方法。这些结果支持了位置嵌入在伪影出现中起着重要作用的假设。

研究人员在密集识别任务中评估了 DVT 的方法,包括语义分割、单目深度估计、目标检测和目标发现。值得注意的是,本研究中没有直接的竞争者。相反,研究的重点是比较在应用 DVT 前后预训练 ViT 的性能。对于所有模型,研究人员使用从 VOC2012 和 VOC2007 数据集中随机选择的 10k 去噪样本(不包括验证样本)来训练通用去噪器。

语义分割:研究人员遵循之前的研究,在 VOC2012 和 ADE20k 两个语义分割数据集上评估了他们的方法,采用线性探测协议,即训练一个线性层来从 patch tokens 预测像素的类别。表 2 展示了主要结果。研究人员观察到,在所有数据集上,所有预训练 ViT 的性能都有显著且一致的提升。值得注意的是,DINOv2-giant 在 VOC2012 上的 mIoU 为 83.0,而 DVT 去噪后的 DINOv2-base 模型达到了 84.84 mIoU。在 ADE20k 数据集上,DINOv2-giant 和 DINOv2-large 模型的 mIoU 分别为 49.0 和 47.7,而去噪后的基础模型达到了 48.66 mIoU。值得注意的是,比基础模型大 13 倍的巨型模型被或与去噪后的基础模型相媲美。这表明性能提升主要来自于有效的伪影去除,而不是去噪器网络参数的微小增加。

DVT 还提高了最近引入的 DINOv2-reg 模型 的性能,该模型使用虚拟可学习注册 token 训练 ViT。如 表 2 所示,DVT 显著提高了 DINOv2 和 DINOv2-reg 的性能。仅应用 DVT 时,DINOv2 比使用注册 token 时显示出更多的改进;例如,DVT 去噪后的 DINOv2 在 VOC2012 上达到了 84.84 mIoU,在 ADE20k 上达到了 48.66 mIoU,超过了 DINOv2-reg 的性能,后者在相应基准测试中分别达到了 83.64 mIoU 和 48.22 mIoU。此外,DVT 还可以在两个数据集上进一步提高 DINOv2-reg 的性能(在 VOC2012 上提高了 0.86,在 ADE20k 上提高了 1.12)。此外,DINOv2-reg 需要使用 142M 图像从头开始训练 ViT,而我们的方法只需要使用 10k 去噪样本训练一个单独的 Transformer 块。

深度估计:遵循之前的研究,研究人员在 NYUv2-Depth 数据集 上使用线性评估协议评估了他们的方法(更多细节见附录)。如 表 2 所示,他们的方法明显提高了大多数预训练 ViT 的性能。作为参考,DINOv2-large 模型在参数比 DINOv2-base 模型多 3.5 倍的情况下,RMSE 改善了 0.01。去噪器在参数仅为基础模型的 0.08 倍的情况下实现了类似的性能提升。这些结果突出了该方法的效率,在参数增加很少的情况下实现了显著的性能提升。

目标检测:在这次实验中,研究人员在 Faster RCNN 框架下训练 ViTDet 检测器(更多细节见附录)。他们在 VOC trainval07+12 子集上训练所有模型,并在 test2007 子集上报告其 mAP 指标。结果如 表 3 所示。他们的方法在所研究的 ViT 上显示出一致的改进。值得注意的是,与原始 DINOv2 相比,DINOv2-reg 在目标检测性能上略有下降,而他们的方法则提高了它。

目标发现:无监督目标发现一直是人们感兴趣的一个长期问题。一个有趣的发现是,去噪后的 ViT 显示出目标发现能力的增强。图 6 通过 PCA 可视化和特征图的 L2 范数展示了这一点。去噪后,不仅伪影被移除,而且感兴趣的目标在特征范数值上也变得更加明显。这种目标清晰度的提高不是 DVT 的目标,而是该方法的结果。

为了定量评估这些改进,研究人员遵循之前的研究,使用 LOST 评估应用 DVT 前后的目标发现效果。他们使用特征范数作为目标显著性的指标。他们在 PASCAL VOC 2007、2012 和 COCO20k 数据集 上进行了目标发现实验。表 4 展示了结果。DVT 在所有评估的数据集上显著提高了 DINOv2 和 DINOv2-reg 的性能。特别是,虽然公开可用的 DINOv2-reg 在某些方面显示出一些改进((c) vs. (e)),但他们发现它未能达到之前研究中报告的性能水平((c) vs. (b))。尽管如此,DVT 在目标发现能力上实现了更显著的提升,甚至超过了之前研究中报告的数字((f) vs. (b))。

论文链接:https://arxiv.org/abs/2401.02957

项目链接:DVT: Denoising Vision Transformers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/951027.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV的双边滤波函数

OpenCV的双边滤波函数cv2.bilateralFilter是一种用于图像处理的强大工具,它能够在去除噪声的同时保持边缘的清晰度。以下是对该函数的详细说明: 一、函数原型 python cv2.bilateralFilter(src, d, sigmaColor, sigmaSpace[, dst[, borderType]])二、参…

项目实战——使用python脚本完成指定OTA或者其他功能的自动化断电上电测试

前言 在嵌入式设备的OTA场景测试和其他断电上电测试过程中,有的场景发生在夜晚或者随时可能发生,这个时候不可能24h人工盯着,需要自动化抓取串口日志处罚断电上电操作。 下面的python脚本可以实现自动抓取串口指定关键词,然后触发…

IT面试求职系列主题-人工智能(三)

13)你对超参数的理解是什么? 在机器学习中,超参数是决定和控制整个训练过程的参数。这些参数的示例包括学习率、隐藏层、隐藏单元、激活函数等。这些参数是模型的外部参数。选择好的超参数可以产生更好的算法。 14)解释隐马尔可夫…

深度剖析ETHERCAT转CCLINK网关与ethercat通讯协议的连接细节

在某汽车零部件制造工厂的自动化生产线升级项目中,部分关键设备采用了支持 ETHERCAT 总线的 PLC 进行控制,而工厂原有的一些设备则遵循 CCLINK 协议标准。由于这两种协议之间无法直接通信,导致生产线的数据交互受阻,难以实现整体的…

链式二叉树,递归的暴力美学

目录 1.链式二叉树概念 2.链式二叉树的实现 3.先序遍历 4.中序遍历 5.后序遍历 6.求链式二叉树的结点个数 7.链式二叉树的叶子结点个数 8.求二叉树的k层的结点个数 9.链式二叉树求深度 10.求值为x的结点 11.链式二叉树的销毁 12.二叉树的层序遍历 13.判断二叉树是否…

AI是IT行业的变革力量,还是“职业终结者”?

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 AI是…

基于华为ENSP的OSPF数据报文保姆级别详解(3)

本篇博文摘要 🌟 基于华为ensp之OSPF数据报文——头部信息、Hello包、DR/BDR选举、DBD包等保姆级别具体详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法 引言 📘 在这个快速发展的技术时代,与时俱进是每个IT人的…

如何用SQL语句来查询表或索引的行存/列存存储方式|OceanBase 用户问题集锦

一、问题背景 自OceanBase 4.3.0版本起,支持了列存引擎,允许表和索引以行存、纯列存或行列冗余的形式创建,且这些存储方式可以自由组合。除了使用 show create table命令来查看表和索引的存储类型外,也有用户询问如何通过SQL语句…

重生之我在异世界学编程之算法与数据结构:深入堆篇

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 正文一、堆的基本概念二、堆的存储表示三…

【网络】深入了解HTTPS协议

HTTPS协议: HTTPS 也是⼀个应用层协议 HTTPS本质上就是在HTTP的基础上加了一个加密层,抛开加密之后,剩下的内容跟HTTP一样; HTTP 协议内容都是按照文本的方式明文传输的. 这就导致在传输过程中出现一些被篡改的情况. 例如 &…

RabbitMQ基本介绍及简单上手

(一)什么是MQ MQ(message queue)本质上是队列,满足先入先出,只不过队列中存放的内容是消息而已,那什么是消息呢? 消息可以是字符串,json也可以是一些复杂对象 我们应用场…

sys.dm_exec_connections:查询与 SQL Server 实例建立的连接有关的信息以及每个连接的详细信息(客户端ip)

文章目录 引言I 基于dm_exec_connections查询客户端ip权限物理联接时间范围dm_exec_connections表see also: 监视SQL Server 内存使用量资源信号灯 DMV sys.dm_exec_query_resource_semaphores( 确定查询执行内存的等待)引言 查询历史数据库客户端ip应用场景: 安全分析缺乏…

vscode如何离线安装插件

在没有网络的时候,如果要安装插件,就会麻烦一些,需要通过离线安装的方式进行。下面记录如何在vscode离线安装插件。 一、下载离线插件 在一台能联网的电脑中,下载好离线插件,拷贝到无法联网的电脑上。等待安装。 vscode插件商店地址:https://marketplace.visualstudio.co…

基于ADAS 与关键点特征金字塔网络融合的3D LiDAR目标检测原理与算法实现

一、概述 3D LiDAR目标检测是一种在三维空间中识别和定位感兴趣目标的技术。在自动驾驶系统和先进的空间分析中,目标检测方法的不断演进至关重要。3D LiDAR目标检测作为一种变革性的技术,在环境感知方面提供了前所未有的准确性和深度信息. 在这里&…

【玩转全栈】----Django连接MySQL

阅前先赞,养好习惯! 目录 1、ORM框架介绍 选择建议 2、安装mysqlclient 3、创建数据库 4、修改settings,连接数据库 5、对数据库进行操作 创建表 删除表 添加数据 删除数据 修改(更新)数据: 获取数据 1、OR…

基于Android的疫苗预约系统

博主介绍:java高级开发,从事互联网行业多年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的设计程序开发,开发过上千套设计程序,没有什么华丽的语言,只有实…

基于 Apache Commons Pool 实现的 gRPC 连接池管理类 GrpcChannelPool 性能分析与优化

基于 Apache Commons Pool 实现的 gRPC 连接池管理类 GrpcChannelPool 性能分析与优化 1. 输出关键信息的代码示例 日志记录方法 使用以下代码记录连接池的关键信息,帮助分析连接池的状态和性能瓶颈: import org.apache.commons.pool2.impl.GenericO…

矩阵碰一碰发视频的视频剪辑功能源码搭建,支持OEM

在短视频创作与传播领域,矩阵碰一碰发视频结合视频剪辑功能,为用户带来了高效且富有创意的内容产出方式。这一功能允许用户通过碰一碰 NFC 设备触发视频分享,并在分享前对视频进行个性化剪辑。以下将详细阐述该功能的源码搭建过程。 一、技术…

CClinkIEfield Basic转Modbus TCP网关模块连接三菱FX5U PLC

捷米特JM-CCLKIE-TCP是自主研发的一款CCLINK IE FB从站功能的通讯网关。该产品主要功能是将各种 MODBUS-TCP 设备接入到 CCLINK IE FB网络中。 捷米特JM-CCLKIE-TCP网关连接到CCLINK IE FB总线中做为从站使用,连接到 MODBUS-TCP 总线中做为主站或从站使用。 为了打破…

农产品智慧物流系统

本文结尾处获取源码。 本文结尾处获取源码。 本文结尾处获取源码。 一、相关技术 后端:Java、JavaWeb / Springboot。前端:Vue、HTML / CSS / Javascript 等。数据库:MySQL 二、相关软件(列出的软件其一均可运行) I…