13、Deconstructing Denoising Diffusion Models for Self-Supervised Learning

简介

研究了最初用于图像生成的去噪扩散模型(DDM)的表示学习能力
解构DDM,逐步将其转变为经典的去噪自动编码器(DAE)
探索现代ddm的各个组成部分如何影响自监督表征学习

结论:
只有很少的现代组件对于学习良好的表示是至关重要的,而其他许多组件则是不必要的
DDM的表示能力主要是由去噪驱动的过程获得的,而不是扩散驱动的过程
成果:一种高度简化的方法,并且在很大程度上类似于经典的DAE——l-DAE

在这里插入图片描述
通过主成分基(即V)将输入图像投影到隐空间中,在隐空间中加入噪声,并通过逆主成分基将带噪声的隐投影回图像空间

上图(中间,底部)显示了在潜在空间中添加噪声的示例图像

将这个有噪声的图像作为网络的输入,可以应用一个标准的ViT网络,它直接对图像进行操作,就好像没有tokenizer一样

背景

Denoising Diffusion Models (DDM) 实现了令人印象深刻的图像生成质量,特别是对于高分辨率、逼真的图像,对于理解视觉内容似乎具有很强的识别表征

t时间步的噪声图像为
在这里插入图片描述
ϵ ∼ N ( 0 , I ) \epsilon \sim N(0,I) ϵN(0,I), γ t 2 + σ t 2 = 1 \gamma^2_t + \sigma^2_t=1 γt2+σt2=1

网络预测噪声拟合增加的噪声
在这里插入图片描述

实验过程

noise

去掉DDM的分类条件

假设直接对模型进行类标签的调节可以减少模型对与类标签相关的信息编码的需求。移除类条件可以迫使模型学习更多的语义

采用线性衰减噪声噪声

实验结果
在这里插入图片描述

在这里插入图片描述

结论:自监督学习绩效与生成质量无关

Tokenizer

更换Tokenizer,分别为Convolutional VAE、Patch-wise VAE、Patch-wise AE和Patch-wise PCA
在这里插入图片描述
在这里插入图片描述

结论:标记器的潜在维数是DDM在自监督学习中发挥作用的关键

卷积VAE标记器既不是必要的,也不是有利的;相反,所有基于补丁的标记器,其中每个补丁都是独立编码的,彼此之间的表现相似,并且始终优于Conv VAE变体。此外,KL正则化项是不必要的,因为AE和PCA变体都能很好地工作

结论:高分辨率、基于像素的ddm不如自监督学习。

Autoencoders

不同与DDM预测噪声,经典DAE直接预测清晰图像
在这里插入图片描述
λ t = γ t 2 / σ t 2 \lambda_t =\gamma^2_t / \sigma^2_t λt=γt2/σt2,实验设置 λ t = γ t 2 \lambda_t=\gamma^2_t λt=γt2效果更好

去掉输入缩放
设置 γ t = 1 \gamma_t=1 γt=1, σ t \sigma_t σt是0到 2 \sqrt{2} 2 的线性变化, λ t = 1 / ( 1 + σ t 2 ) \lambda_t=1/(1+\sigma^2_t) λt=1/(1+σt2)
在这里插入图片描述
结论:不需要按 γ t \gamma_t γt缩放数据3

用逆PCA对图像空间进行操作

通过主成分基(即V)将输入图像投影到隐空间中,在隐空间中加入噪声,并通过逆主成分基将带噪声的隐投影回图像空间,将这个有噪声的图像作为网络的输入,可以应用一个标准的ViT网络,它直接对图像进行操作,就好像没有tokenizer一样
在这里插入图片描述

结论:用逆主成分分析对图像空间进行处理可以获得与对潜在空间进行处理相似的结果

预测原始图像(l-DAE

PCA对于任何降维d都是有损编码器

当让网络预测原始图像时,引入的“噪声”包括两部分:(i)加性高斯噪声,其固有维数为d; (ii) PCA重构误差,其固有维数为D - d (d为768)

使用干净的原始图像 x 0 x_0 x0和网络预测网( x t x_t xt),可以计算投影到完整PCA空间上的残差 r ≜ V ( x 0 − n e t ( x t ) ) r \triangleq V(x_0-net(x_t)) rV(x0net(xt)),V是表示完整PCA基的D乘D矩阵

损失函数为:
在这里插入图片描述
i 表示向量 r 的第 i 维,当 i≤d 时,每维权重 w i w_i wi 为1,当d < i≤d时,每维权重 w i w_i wi 为0.1, w i w_i wi 降低了PCA重构误差损失的权重

在这里插入图片描述

单层噪声
设置 σ = 1 / 3 \sigma=\sqrt{1/3} σ=1/3 ,指标下降为61.5%下降了三个点

结论:
使用多级噪声类似于DAE中的一种数据增强形式:它是有益的,但不是促成因素
DDM的表示能力主要是通过去噪驱动过程获得的,而不是扩散驱动过程

总结

在这里插入图片描述
在这里插入图片描述
可视化可以帮助更好地理解l-DAE如何学习良好的表示

l-DAE,它在很大程度上类似于经典DAE,可以在自监督学习中表现得很有竞争力。关键分量是加有噪声的低维潜在空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/475859.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2022年第13届蓝桥杯Java省赛B组-星期计算

一、题目 星期计算 【问题描述】 已知今天是星期六&#xff0c;请问 天后是星期几&#xff1f;注意用数字 1 到 7 表示星期一到星期日。 【答案提交】 这是一道结果填空的题&#xff0c;你只需要算出结果后提交即可。本题的结果为一个整数&#xff0c;在提交答案时只填写这个…

算法|基础算法|大数取余

基础算法|暴力 大数取余 心有猛虎&#xff0c;细嗅蔷薇。你好朋友&#xff0c;这里是锅巴的C\C学习笔记&#xff0c;常言道&#xff0c;不积跬步无以至千里&#xff0c;希望有朝一日我们积累的滴水可以击穿顽石。 大数取余 大数取余&#xff0c; 从字符串的首位开始&#xf…

GESP图形化编程三级认证真题 2024年3月

GESP 图形化三级试卷 &#xff08;满分&#xff1a;100 分 考试时间&#xff1a;120 分钟&#xff09; 一、单选题&#xff08;一共 15 个题目&#xff0c;每题 2 分&#xff0c;共 30 分&#xff09; 1、小杨的父母最近刚刚给他买了一块华为手表&#xff0c;他说手表上跑…

动态QCA|一条通向动态QCA产出的道路

一、动态QCA原理介绍 &#xff08;一&#xff09;动态QCA介绍 QCA&#xff08;Qualitative Comparative Analysis&#xff09;是一种定性比较分析方法&#xff0c;用于研究中小样本量的数据&#xff0c;旨在探索变量之间的复杂关系。在QCA中&#xff0c;研究者将变量分为二元变…

HarmonyOS ArkTS 开发基础/语言

目录 一、ArkUI (方舟开发框架) 概述 1.1 基本概念 1.2 两种开发范式 1.3 不同应用类型支持的开发范式 二、ArkTS 声明式开发范式 2.1 开发能力 2.2 整体架构 三、ArkTS 基础类型 3.1 Any 类型 3.2 数字类型 3.3 字符串类型 3.4 布尔类型 3.5 联合类型 3.6 数组类…

jackson解决java.lang.NoSuchMethodError

本质上是依赖版本冲突。 如&#xff1a;jackson-databind-2.11.2&#xff08;版本太低&#xff0c;需要升级版本&#xff09; jackson-core-2.12.6 jackson-dataformat-xml-2.12.6 idea用Analyze Dependencies插件 复制对应的groupId和artifactId放到exclusion里面 <grou…

哈希表及其实现

哈希概念 顺序结构以及平衡树中&#xff0c;元素关键码与其存储位置之间没有对应的关系&#xff0c;因此在查找一个元素时&#xff0c;必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)&#xff0c;平衡树中为树的高度&#xff0c;即 O(log2N)&#xff0c;搜索的效率取决…

【C++】—— 装饰器模式

目录 &#xff08;一&#xff09;什么是装饰器模式 &#xff08;二&#xff09;为什么要使用装饰器模式 &#xff08;三&#xff09;装饰器模式的实现步奏 &#xff08;四&#xff09;代码示例 &#xff08;五&#xff09;装饰器模式优缺点 &#xff08;一&#xff09;什么…

文档翻译-NVIDIA DALI Pipeline

文档地址&#xff1a; Pipeline — NVIDIA DALI 1.12.0 documentation 在DALI中&#xff0c;任何数据处理任务都有一个称为Pipeline的中心对象。Pipeline对象nvidia.dali.Pipeline或其派生类的实例。Pipeline封装了数据处理图和执行引擎。 您可以通过以下方式定义DALI管道&am…

虚拟内存页表和内存保护

前言 大家好我是jiantaoyab&#xff0c;这是我所总结作为学习的笔记第21篇&#xff0c;在这里分享给大家&#xff0c;这篇文章讲虚拟内存和内存之间的页表和内存安全问题。 虚拟内存 前面的文章提到过&#xff0c;程序装载到内存的过程。可以知道&#xff0c;程序并不直接访…

【python】flask基于cookie和session来实现会话控制

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

使用Java版工程行业管理系统源码,提升工程项目的综合管理能力

工程项目管理涉及众多环节和角色&#xff0c;如何实现高效协同和信息共享是关键。本文将介绍一个采用先进技术框架的Java版工程项目管理系统&#xff0c;该系统支持前后端分离&#xff0c;功能全面&#xff0c;可满足不同角色的需求。从项目进度图表到施工地图&#xff0c;再到…

3d模型变形动画怎么做---模大狮模型网

要制作3D模型的变形动画&#xff0c;你可以通过使用动画软件(如Blender、Maya、3ds Max等)中的变形工具和技术来实现。以下是一般的步骤来制作3D模型的变形动画&#xff1a; 创建基础模型&#xff1a;首先&#xff0c;在3D建模软件中创建或导入你想要进行变形的基础模型。这个基…

《InfMAE: A Foundation Model in Infrared Modality》CVPR2024

基础模型vs大模型&#xff1a;大模型&#xff0c;也称基础模型&#xff0c;是指具有大规模参数和复杂计算结构的机器学习模型 以后的研究中必须把大模型和基础模型耦合进来 总结&#xff1a;占坑 1. AB 多光谱的基础模型 红外的基础模型 可见光的基础模型 整体架构差不多…

智慧商显安卓主板MT8788_联发科MTK平台多媒体广告一体机方案

MT8788高性能智能主板&#xff0c;支持Android 9.0操作系统&#xff0c;支持双屏异显功能;MT8788是基于12nm工艺制程四核A73四核A53架构的八核心CPU,主频高达2.0GHz,拥有超强的通用计算性能。 MT8788主板采用10层二阶超高密度PCB板,集成了4G、百兆以太网、2.4G/5G 双频WiFi、蓝…

平时寄快递能够拿到最低的便宜价格吗?

现在快递物流与我们的日常生活联系很紧密了&#xff0c;但是等到我们真正去寄快递的时候就会很烦恼寄快递的价格怎么这么昂贵呢&#xff1f;但是我们又不得不选择去寄快递&#xff0c;所以我们能不能选择一种寄快递又方便&#xff0c;运费又便宜的方式呢&#xff1f; 尤其是我…

图书推荐|图解算法:C语言实现+视频教学版

零负担理解数据结构及其算法的设计&#xff0c;零基础也能快速上手编程。 本书内容 《图解算法&#xff1a;C语言实现视频教学版》是一本综合讲述数据结构及其算法的入门书&#xff0c;力求简洁、清晰、严谨、且易于学习和掌握。 《图解算法&#xff1a;C语言实现视频教学版》…

Flutter开发进阶之瞧瞧State

Flutter开发进阶之瞧瞧State 书接上回 上回说到StatefulWidget会将自身作为参数创建StatefulElement,然后StatefulElement的创建过程首先要调用_state = widget.createState(),会创建并持有一个state通过对其生命周期的管理去对Widget进行刷新,创建state后还会将自身交给st…

查看当前虚拟主机的php环境

近期看到一位用户在论坛的留言想要知道Linux虚拟主机的PHP环境&#xff0c;但是不清楚如何在主机上面查看&#xff0c;对于主机cPanel面板了解不多&#xff0c;因此在论坛寻求帮助。这边看到后详细的告知了这位用户&#xff0c;这边是以Hostease Linux虚拟主机为例的&#xff0…

Vue/Uni-app/微信小程序 v-if 设置出场/退出动画(页面交互不死板,看起来更流畅)

天梦星服务平台 (tmxkj.top)https://tmxkj.top/#/ 在Vue.js中&#xff0c;使用v-if进行条件渲染时设置动画可以通过<transition>组件来实现。 具体操作步骤如下&#xff1a; 包裹条件渲染的元素&#xff1a;您需要将要通过v-if控制显示隐藏的元素包裹在<transition…