VidSketch:具有扩散控制的手绘草图驱动视频生成

浙大提出的VidSketch是第一个能够仅通过任意数量的手绘草图和简单的文本提示来生成高质量视频动画的应用程序。该方法训练是在单个 RTX4090 GPU 上进行的,针对每个动作类别使用一个小型、高质量的数据集。VidSketch方法使所有用户都能使用简洁的文本提示和直观的手绘草图轻松创建令人惊叹的高质量视频动画。

上图为VidSketch生成的视频动画。该方法使用手绘草图序列(相应的草图放置在各个帧的左上角,从上到下的示例由 1、2、4 和 6 个草图引导)和简单的文本提示生成视频动画。这使得创建高质量、时空一致的视频动画成为可能,打破了艺术行业的障碍。VidSketch方法使所有技能水平的用户都能使用简洁的文本提示和直观的手绘草图轻松创建令人惊叹的高质量视频动画。

相关链接

  • 论文:http://arxiv.org/abs/2502.01101v1

  • 主页:https://csfufu.github.io/vid_sketch

  • 代码:https://github.com/CSfufu/VidSketch

论文介绍

随着生成式人工智能的进步,先前研究已经实现了从手绘草图生成唯美图像的任务,满足了大众对于绘画的需求。但这些方法局限于静态图像,缺乏对手绘草图生成视频动画的控制能力。

针对这一问题,论文提出的VidSketch是第一个能够直接从任意数量的手绘草图和简单的文本提示生成高质量视频动画的方法,弥合了普通用户和专业艺术家之间的鸿沟。

具体而言,该方法引入了一种基于级别的草图控制策略,在生成过程中自动调整草图的引导强度,以适应具有不同绘画水平的用户。此外,还设计了时间空间注意机制来增强生成的视频动画的时空一致性,显著提高跨帧连贯性。

不同类别的手绘草图

不同风格的 VidSketch

它是如何工作的?

手绘草图驱动的视频生成

VidSketch 的管道。在训练期间使用按类型分类的高质量小规模视频数据集来训练增强型 SparseCausal-Attention (SC-Attention) 和时间注意模块,从而提高视频动画的时空一致性。在推理期间,用户只需输入提示和草图序列即可生成量身定制的高质量动画。具体来说,第一帧是使用 T2I-Adapter 生成的,而整个草图序列由 Inflated T2I-Adapter 处理以提取信息,该信息被注入 VDM 的上采样层以指导视频生成。

训练方法遵循传统的 VDM 框架。首先在互联网上进行了广泛的搜索,为每个动作类别收集了 8-12 个高质量的训练视频。随后为每个动作类别分别训练了 SparseCausal-Attention 和 Temp-Attention 模块。这种策略有效地缓解了高质量视频数据有限的挑战,增强了生成视频的时空一致性和质量。

抽象级草图控制策略

考虑到用户绘画水平的差异性,我们对素描序列的连续性、连通性、纹理细节等进行了细致的量化分析,综合评估素描序列的抽象度,从而在视频生成过程中动态调整控制强度。抽象级素描控制策略的具体实现细节如下图所示。

我们对草图的连通性、连续性和纹理细节进行量化分析,自动评估手绘草图序列的抽象程度。不同抽象程度的草图对应不同的生成控制强度,确保VidSketch能够适应具有绘画技能的用户,从而增强该方法的泛化能力。

增强的SparseCausal-Attention机制

视频动画生成和图像生成任务的主要区别在于需要在视频帧之间保持时空一致性。为了解决视频动画生成的固有挑战,我们提出了一种增强型稀疏因果注意机制。在此机制中,对于视频序列中的每个帧 i,从初始帧和前一帧 (i-1) 中提取键/值 (K/V) 表示。然后使用当前帧 i 的查询 Q 表示来计算注意机制。

该机制在相同条件下有效地保持了帧间的一致性,大大提高了生成的视频动画的质量,更好地满足了高质量视频动画制作的需求。

更多结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/978190.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32——HAL库开发笔记23(定时器4—输入捕获)(参考来源:b站铁头山羊)

定时器有四个通道,这些通道既可以用来作为输入,又可以作为输出。做输入的时候,可以使用定时器对外部输入的信号的时间参数进行测量;做输出的时候,可以使用定时器向外输出精确定时的方波信号。 一、输入捕获 的基本原理…

Jquery详解

一.Jquery介绍 1.jQuery 是一个快速、简洁的 JavaScript 库,它极大地简化了 HTML 文档遍历、事件处理、动画效果和 AJAX 交互等操作,使开发者能够更轻松地创建动态和交互性强的网页。对原生js的封装,提供了很多时间,调用Api即可,并且对浏览器做了兼容性…

【EB-06】SystemCreator dbc转arxml

SystemCreator dbc转arxml 1. SystemCreator 意义2. SystemCreator使用方法2.1 实现步骤2.2 参考官方文档方法1. SystemCreator 意义 EB Tresos 对dbc直接导入的支持不是很完善,dbc也不是AUTOSAR标准的数据库文件,EB建议所有通信矩阵通过ARXML交互比较合理(AUTOSAR定义的)…

LeetCode225.用队列实现栈

LeetCode225.用队列实现栈 文章目录 LeetCode225.用队列实现栈题目描述实现1:实现2: 题目描述 请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty)。 实现 MyStack…

【Linux】vim 设置

【Linux】vim 设置 零、起因 刚学Linux,有时候会重装Linux系统,然后默认的vi不太好用,需要进行一些设置,本文简述如何配置一个好用的vim。 壹、软件安装 sudo apt-get install vim贰、配置路径 对所有用户生效: …

【FL0091】基于SSM和微信小程序的社区二手物品交易小程序

🧑‍💻博主介绍🧑‍💻 全网粉丝10W,CSDN全栈领域优质创作者,博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战,以及程序定制化开发…

Javaweb后端数据库多表关系一对多,外键,一对一

多表关系 一对多 多的表里,要有一表里的主键 外键 多的表上,添加外键 一对一 多对多 案例

seacmsv9注入管理员账号密码+orderby+limit

seacmsv9注入管理员账号密码 seacms介绍 海洋影视管理系统(seacms,海洋cms)是一套专为不同需求的站长而设计的视频点播系统,采用的是 php5.Xmysql 的架构,使用 fofa 搜索可以看到存在 400的记录: 因为sea…

开源基准测试模拟器:BlueROV2 水下机器人的控制(更改Z方向控制器)

开源基准测试模拟器:BlueROV2 水下机器人的控制(更改Z方向控制器) 将原有项目的z方向控制器由自适应滑膜控制器(ASMC)更改为自抗扰控制器(ADRC) 原Z控制器 更改为ADRC后图像 原自适应滑膜控制器代码 function u =

【苍穹外卖】问题笔记

【DAY1 】 1.VCS找不到 好吧,发现没安git 接着发现安全模式有问题,点开代码信任此项目 2.导入初始文件,全员爆红 好像没maven,配一个 并在设置里设置好maven 3.启用注解,见新手苍穹 pom.xml改lombok版本为1.1…

项目实践 之 pdf简历的解析和填充(若依+vue3)

文章目录 环境背景最终效果前端讲解左侧模块解析右侧上传模块解析前端步骤 后端讲解代码前端 环境背景 若依前后端分离框架 vue最后边附有代码哦 最终效果 前端讲解 左侧模块解析 1、左侧表单使用el-form 注意: 1、prop出现的字段,需要保证是该类所…

Web自动化之Selenium控制已经打开的浏览器(Chrome,Edge)

在使用selenium进行web自动化或爬虫的时候,经常会面临登录的情况,对于这种情况,我们可以利用Selenium控制已经打开的浏览器,从而避免每次都需要重新打开浏览器并进行登录的繁琐步骤。 目录 说明 启动浏览器 注意 --user-data-dir说明 代码设定 代码 改进代…

千峰React:案例一

做这个案例捏 因为需要用到样式,所以创建一个样式文件: //29_实战.module.css .active{text-decoration:line-through } 然后创建jsx文件,修改main文件:导入Todos,写入Todos组件 import { StrictMode } from react …

自动驾驶FSD技术的核心算法与软件实现

引言:FSD技术的定义与发展背景 在当今快速发展的科技领域中,自动驾驶技术已经成为全球关注的焦点之一。其中,“FSD”(Full Self-Driving,全自动驾驶)代表了这一领域的最高目标——让车辆在无需人类干预的情…

Go红队开发—并发编程

文章目录 并发编程go协程chan通道无缓冲通道有缓冲通道创建⽆缓冲和缓冲通道 等协程sync.WaitGroup同步Runtime包Gosched()Goexit() 区别 同步变量sync.Mutex互斥锁atomic原子变量 SelectTicker定时器控制并发数量核心机制 并发编程阶段练习重要的细节端口扫描股票监控 并发编程…

【嵌入式原理设计】实验六:倒车控制设计

目录 一、实验目的 二、实验环境 三、实验内容 四、实验记录及处理 五、实验小结 六、成果文件提取链接 一、实验目的 熟悉和掌握各模块联合控制的工作方式 二、实验环境 Win10ESP32实验开发板 三、实验内容 1、用串口和OLED显示当前小车与障碍物的距离值&#xff1b…

探索浮点数在内存中的存储(附带快速计算补码转十进制)

目录 一、浮点数在内存中的存储 1、常见的浮点数: 2、浮点数存储规则: 3、内存中无法精确存储: 4、移码与指数位E: 5、指数E的三种情况: 二、快速计算补码转十进制 1、第一种方法讨论: 2、第二种方…

实体机器人识别虚拟环境中障碍物

之前的内容已经实现了虚拟机器人识别实体机器人的功能,接下来就是实体机器人如何识别虚拟环境中的障碍物(包括虚拟环境中的障碍物和其他虚拟机器人)。 我做的是基于雷达的,所以主要要处理的是雷达的scan话题 我的虚拟机器人命名…

湖北中医药大学谱度众合(武汉)生命科技有限公司研究生工作站揭牌

2025年2月11日,湖北中医药大学&谱度众合(武汉)生命科技有限公司研究生工作站揭牌仪式在武汉生物技术研究院一楼101会议室举行,湖北中医药大学研究生院院长刘娅教授、基础医学院院长孔明望教授、基础医学院赵敏教授、基础医学院…

ARM Coretex-M核心单片机(STM32)找到hardfault的原因,与hardfault解决方法

1. 前提基础知识(ARM异常 压栈流程)M核栈增长是地址逐渐减小的 **M3h ARM CM4核心带浮点处理器FPU的,压栈的东西还不一样 进入hardfult后看MSP或者SP的值,看下边第二章图如果hardfult里边啥都没有,就只有个while(1){}…