深度解读：如何解决Image-to-Video模型视频生成模糊的问题？

深度解读：如何解决Image-to-Video模型视频生成模糊的问题？

article2025/3/9 22:46:12/文章来源:https://blog.csdn.net/qq_41895747/article/details/136739166

Diffusion Models视频生成-博客汇总

前言：目前Image-to-Video的视频生成模型，图片一般会经过VAE Encoder和Image precessor，导致图片中的信息会受到较大损失，生成的视频在细节信息上与输入的图片有较大的出入。这篇博客结合最新的论文和代码，讲解如何解决Image-to-Video模型视频生成模糊的问题。

目录

问题原因

原因一

原因二

原因三

解决方案：噪声校正策略

问题原因

原因一

现在的视频扩散模型大部分都是latent diffusion的结构，因为所有的操作都要在潜在域上操作，先经过VAE encoder，操作完再经过VAE decoder，这个过程会导致信息损失。

原因二

例如在Stable Video Diffusion中，Image会经过Image processor，输入到3D Unet的cross-attention结构中。因为是提取出的特征信息，难免会有信息上的损失。

下面这张图描述了常见的Image-to-Video的三种方法：

需要注意的是，模型不是单一使用上述的三种方法的，例如在SVD中就是同时使用了下面的两种方法：

原因三

累积噪声误差。

去噪过程中累积的噪声偏差，导致生成的帧潜偏离给定的潜在图像。在训练过程中，虽然利用MSE损失函数使预测噪声接近初始输入噪声，但训练过程不能完全达到0的完美损失。因此，预测噪声和真实噪声之间总是会有差异。

解决方案：噪声校正策略

在不引入任何额外的操作的情况下，这样的设置可以生成与整个样式和布局中给定图像相似的连贯视频。从不同的角度，如果去噪过程在每个时间步采用已知的初始噪声而不是预测的有偏噪声，这将导致视频序列是完全忠实的，但也缺乏任何运动或动力学。因此，为了在完全保真度和动态之间取得平衡，提出了一种噪声校正方法。

矫正后的噪声由 3D-UNet预测的噪声、添加到给定图像的初始采样噪声、校正权重因子ω共同决定。

通过引入校正权重因子ω，我们平衡第一帧噪声间隙和后续帧的噪声间隙，得到加权校正偏移，然后用于帧更新原始预测噪声：

其中 Repeat(·) 是对齐时间维度的广播操作。

以上的算法描述了这种噪声矫正策略的全部过程。可以有效地缓解累积噪声间隙，从而使生成的帧的噪声潜更接近潜在图像。这样，参考图像的细粒度内容细节可以很好地保留在生成的视频中。

感兴趣的朋友可以去看看原始论文：Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/465910.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

Docker 哲学 - docker-compose.yml 管理多个容器

Docker 哲学 - docker-compose.yml 管理多个容器

compose 启动容器的 volume 和 network名字的生成规则如果在 docker-compose.yml 文件中没有明确定义 networks，Docker Compose 会默认为所有服务创建一个默认的网络。如果你想自定义网络，你可以在 docker-compose.yml 文件的顶级定义 networks 2、com…

阅读更多...

【Spring Cloud】Sentinel限流

【Spring Cloud】Sentinel限流

控制台下载https://github.com/alibaba/Sentinel/releases # 控制台启动 java -Dserver.port10888 -Dcsp.sentinel.dashboard.serverlocalhost:10888 -Dproject.namesentinel-dashboard -jar sentinel-dashboard.jar引入依赖 <dependency><groupId>com.alibaba.c…

阅读更多...

RedisCluster集群中的插槽为什么是16384个？

RedisCluster集群中的插槽为什么是16384个？

RedisCluster集群中的插槽为什么是16384个？ CRC16的算法原理。 1.根据CRC16的标准选择初值CRCIn的值2.将数据的第一个字节与CRCIn高8位异或3.判断最高位，若该位为0左移一位，若为1左移一位再与多项式Hex码异或4.重复3至9位全部移位计算结束5…

阅读更多...

【ArcGIS 脚本工具】强制移动要素类，绕过空间参考不一致

【ArcGIS 脚本工具】强制移动要素类，绕过空间参考不一致

作为一个合格的数据管家，自然要让自己的数据库井井有条。于是想着整理一下数据库里面的七零八落的要素类，按数据库-要素数据集-要素类的方式整理。但是将要素类移动到要素数据集内的时候经常会出现下面的报错。这大概率是因为要素类的坐标系与目标…

阅读更多...

【数据库】基础操作

【数据库】基础操作

系列文章目录 🌈座右铭🌈：人的一生这么长、你凭什么用短短的几年去衡量自己的一生！ 💕个人主页:清灵白羽漾情天殇_计算机底层原理,深度解析C,自顶向下看Java-CSDN博客 ❤️相关文章❤️：清灵白羽漾情天…

阅读更多...

一、yocto 编译raspberrypi 4B并启动

一、yocto 编译raspberrypi 4B并启动

yocto 编译raspberrypi 4B并启动 yocto 编译raspberrypi 4B并启动环境准备代码下载编译及配置烧录 yocto 编译raspberrypi 4B并启动本篇文章为基于raspberrypi 4B单板的yocto实战系列的开篇之作。环境准备最近到手一个树莓派4B，准备拿来玩一玩，下面…

阅读更多...

电动工具直流调速专用集成电路芯片S069——具有电源电压范围宽、功耗小、抗干扰能力强等特点

电动工具直流调速专用集成电路芯片S069——具有电源电压范围宽、功耗小、抗干扰能力强等特点

GS069是CMOS工艺、电动工具直流调速专用集成电路。具有电源电压范围宽、功耗小、抗干扰能力强等特点。应用范围：广泛应用于各种电动工具。 02 产品基本参数 03 产品应用 1、应用图： 2、测试参数：（VCC9V，RL2K&#x…

阅读更多...

osgEarth学习笔记1-安装osgEarth开发环境

osgEarth学习笔记1-安装osgEarth开发环境

原文链接本文主要是为了防止丢失，做一些记录，仅供个人学习使用。 QGis的学习和使用基本告一段落了。日常的应用已经离不开QGis了，常用的QGis-API和跨平台的QTQGis开发已经十分熟练了。涉及遥感和GIS领域的二维可视化、数据处理使用QT搭配Q…

阅读更多...

C语言例3-18：使用关系表达式的例子

C语言例3-18：使用关系表达式的例子

关系表达式的一般形式： 表达式关系运算符表达式最初代码如下： #include<stdio.h> int main(void) {int i3,j4,k5;float f11.0, f22.1;char c1a, c2d; //a(97) d(100)printf("i>j 的结果为&#xff1a…

阅读更多...

深度学习——微积分基础

深度学习——微积分基础

目录 1、导数和微分 1.1 定义函数： 1.2 趋近过程： 1.3 绘图表示： 2、偏导数 3、梯度 4、链式法则 5、学习心得在2500年前，古希腊人把一个多边形分成三角形，并把它们的面积相加，才找到计算多边形面积…

阅读更多...

Vue3：标签的ref属性用法

Vue3：标签的ref属性用法

一、情景说明我们在写前端页面的时候，肯定会遇到获取DOM内容的情况。以往，我们是用原生的js方法去获取，如document.getXxxx 但是，这中方法会有个问题，如果父组件和子组件的id相同，则会出错。在Vue3中&…

阅读更多...

Unity游戏项目接广告

Unity游戏项目接广告

Unity游戏项目中接入GoogleAdMob 先看效果图接入测试横幅广告，代码如下： using System.Collections; using System.Collections.Generic; using UnityEngine; using GoogleMobileAds.Api; using System;public class GoogleAdMobManager : MonoBehavi…

阅读更多...

观察者模式的理解和引用

观察者模式的理解和引用

1.前言在之前的H5小游戏中，对于长连接发送的不同类型数据包的处理，是通过switch语句进行处理的，于是在自己的代码中出现了大量的case分支，不方便进行维护和后期的版本迭代。于是在老师的指导下，开始寻求使用观察者模…

阅读更多...

【深度学习】滴滴出行-交通场景目标检测

【深度学习】滴滴出行-交通场景目标检测

案例5：滴滴出行-交通场景目标检测相关知识点：目标检测、开源框架的配置和使用（mmdetection, mmcv） 1 任务目标 1.1 任务和数据简介本次案例将使用深度学习技术来完成城市交通场景下的目标检测任务，案例所使用的数…

阅读更多...

CentOS7 安装ErLang语言环境

CentOS7 安装ErLang语言环境

在线搜索适合当前linux系统的epel在线安装。 yum -y install epel-release下载erlang-solutions安装包。 wget https://packages.erlang-solutions.com/erlang-solutions-1.0-1.noarch.rpm离线安装erlang-solutions安装包。 rpm -Uvh erlang-solutions-1.0-1.noarch.rpm在线…

阅读更多...

项目性能优化—使用JMeter压测SpringBoot项目

项目性能优化—使用JMeter压测SpringBoot项目

项目性能优化—使用JMeter压测SpringBoot项目我们的压力测试架构图如下： 配置JMeter 在JMeter的bin目录，双击jmeter.bat 新建一个测试计划，并右键添加线程组： 进行配置一共会发生4万次请求。 ctrl s保存； 添加h…

阅读更多...

Aigtek电压放大器的作用及优点是什么

Aigtek电压放大器的作用及优点是什么

电压放大器是电子技术领域中重要的设备，其作用是将输入信号的电压放大到所需的输出电压水平。电压放大器具有多种优点，下面安泰电子将详细介绍其作用及主要优点。电压放大器的主要作用是增加信号的电压幅值。通过放大信号的电压，可以增强信号…

阅读更多...

网络架构层_服务器上下行宽带

网络架构层_服务器上下行宽带

网络架构层_服务器上下行宽带解释一云服务器ECS网络带宽的概念、计费、安全及使用限制_云服务器 ECS(ECS)-阿里云帮助中心网络带宽是指在单位时间（一般指的是1秒钟）内能传输的数据量，带宽数值越大表示传输能力越强，即在单位…

阅读更多...

就业班 2401--3.13 走进网络

就业班 2401--3.13 走进网络

走进网络长风破浪会有时，直挂云帆济沧海。 1.认识计算机 1.计算机网络是由计算机和通讯构成的，网络研究的是“通信”。 ------1946 世界上第一台计算机 2.终端：只有输入和输出功能，没有计算和处理功能。 3.数据：一串…

阅读更多...

深入浅出Go的`encoding/xml`库：实战开发指南

深入浅出Go的`encoding/xml`库：实战开发指南

深入浅出Go的encoding/xml库：实战开发指南引言基本概念XML简介Go语言中的XML处理结构体标签（Struct Tags） 解析XML数据使用xml.Unmarshal解析XML结构体标签详解处理常见解析问题生成XML数据使用xml.Marshal生成XML使用xml.MarshalIndent优化…

阅读更多...

最新文章