VideoComposer: Compositional Video Synthesis with Motion Controllability

在这里插入图片描述
decompose videos into three distinct types of conditions: textual conditions, spatial conditions, temperal conditions

  1. 条件的内容:
    a. textual condition: coarse grained visual content and motions, 使用openclip vit-H/14的text encoder
    b. spatial condition: the goal is to achieve fine-grained spatial control
    ⅰ. single image: a single image reveal the content and structure of this video, 使用视频的第一帧作为图生视频的spatial条件
    ⅱ. single sketch: 使用PiDiNet提取第一帧的sketch
    ⅲ. style: 为了将一张图片的风格迁移到视频,以图片的embedding作为条件,使用OpenCLIP ViT-H/14的image encoder
    c. temporal conditions:
    ⅰ. motion vector: 光流图
    ⅱ. depth sequence: 使用预训练的深度估计模型来提取深度
    ⅲ. mask sequence:为了editing和inpaint任务
    ⅳ. sketch sequence
  2. 条件的处理:所有的condition根据是否经过STC-encoder分为两类,一类是text和style(image embedding),通过cross attention来进行交互,另一类经过STC-encoder的condition,处理后的尺寸和视频的latent一样,所有的condition先首先element-wise add操作,之后和 x t x_t xt进行拼接输入到网络当中;
  3. 训练策略:两阶段训练,首先是预训练阶段,然后是带条件的视频生成训练;
  4. 推理:使用classifier free guidance ϵ ^ θ ( z t , c , t ) = ϵ θ ( z t , c 1 , t ) + w ( ϵ θ ( z t , c 2 , t ) − ϵ θ ( z t , c 1 , t ) ) \widehat\epsilon_\theta(z_t,c,t) = \epsilon_\theta(z_t,c_1,t) + w(\epsilon_\theta(z_t,c_2,t)-\epsilon_\theta(z_t,c_1,t)) ϵ θ(zt,c,t)=ϵθ(zt,c1,t)+w(ϵθ(zt,c2,t)ϵθ(zt,c1,t))其中 c 1 c_1 c1 c 2 c_2 c2是两组条件,强调 c 2 − c 1 c_2-c_1 c2c1的条件,例如在text-driven video inpainting当中, c 2 c_2 c2表示caption+masked video, c 1 c_1 c1表示masked video;
  5. 实验:
    a. 数据:使用了两个数据集webvid10M和LAION-400M
    b. 评价指标:
    ⅰ. 帧间一致性指标:计算相邻两帧的CLIP cosine similarity
    ⅱ. motion control: 计算像素的预测光流和GT的欧式距离;
    c. 首先展示了模型在组合控制条件来控制视频生成上面的能力,包括图生视频(+text)和视频inpainting以及根据sketch生成视频的能力,并展示相应的可视化效果;
    d. 展示motion control的能力:
    e. 消融实验:验证STC-encoder的有效性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/565235.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Gradle的Tasks显示不全

前言: 在修改了app级别的build.gradle或者project的buid.gradle之后,在androidstudio的gradle中没有看到配置的task。原因是需要打开gradle的配置项 1.修改位置: 2.将划红线的这项配置的对勾去掉,然后点击”大象“同步

世界读书日:探索阅读的多样性样性——漫画、图解、图形化立体图书

在当今信息爆炸的时代,阅读已经不再局限于传统的书籍形式。随着科技的发展和文化的多样化,人们可以通过多种形式来获取知识和享受阅读的乐趣。从漫画、图解到图形化立体图书,每一种形式都有其独特的魅力,适合不同类型的读者和学习…

机器人实验室CNRS-AIST JRL, IRL介绍

一、背景 作为搞机器人方向的学生,必须时常关注国际上顶尖实验室的研究成果,以免自己做的方向out,除了大家耳熟能详的Boston Dynamics,还有许多非常厉害的机器人实验室值得我们关注,如日本的CNRS-AIST JRL, IRL实验室…

认识产品经理

一、合格的产品经理 1、什么是产品 解决某个问题的东西,称为产品 键盘可以打字,想喝水了可以用水壶,在超市想找一款扫把会有导购员服务 产品有颜色、大小等等区别,也有有形和无形的区别 2、什么是产品经理 想清楚怎么设计产品…

c++ - 类与对象 - explicit关键字 | static成员 | 友元 | 内部类 | 匿名对象

文章目录 一、 explicit关键字二、static成员三、友元四、内部类五、匿名对象 一、 explicit关键字 1、隐式类型转换 再进行隐式类型转换是会产生一个临时变量tmp,再用临时变量进行赋值。 如: double d 1.2; //再用 d 给 i 进行赋值时,会进行隐式类型…

【Web】AFCTF 2021 题解(部分)

目录 BABY_CSP search secret google authenticator 随便做做,环境是NSS上的 BABY_CSP CSP绕过_script-src self-CSDN博客 CSP指令值 *: 星号表示允许任何URL资源,没有限制; self: 表示仅允许来自同源&#xff…

数据结构-循环队列和循环双端队列的多角度实现

文章目录 1. 循环队列的数组形式实现2. 循环队列的链表实现3. 循环双端队列的数组形式实现4. 循环双端队列的链表实现 在力扣的题面如下 1. 循环队列的数组形式实现 其实循环队列的数组形式只有下面要注意的点,只要掌握了下面的这几点,代码层面上就没有什么问题了 用数组模拟的…

了解 Unity AI:从初学者到高级的综合指南

游戏中的AI是什么? 游戏中的人工智能是指利用人工智能技术使视频游戏中的非玩家角色和实体智能地行动、做出决策、对游戏环境做出反应,并提供引人入胜的动态游戏体验。什么是NPC? NPC 代表“非玩家角色”。NPC 是视频游戏、角色扮演游戏中不受人类玩家控制的角色。它们是计算…

Git 新手快速入门教程

一、什么是 Git 1. 何为版本控制 版本控制是一种记录文件变化的系统,可以跟踪文件的修改历史,并允许用户在不同版本之间进行比较、恢复或合并。它主要用于软件开发过程中管理代码的变更,但也可以应用于任何需要跟踪文件变更的场景。 版本控…

【学习笔记二十一】EWM仓库两步拣配配置及操作展示

一、EWM两步拣配配置 1.定义两步拣配的WPT ①第一步:标准WPT2020,目标仓位是2010两步拣配的仓位,并创建存储类型2010的两步拣配的仓位 ②第二步,标准WPT2010,目标仓位9020发货区和发货的仓位 2.定义确定仓库处理类型的控制标识 3.确定仓库处理类型 4.仓库编码级别需要允…

路由引入、路由策略、路由过滤实验

实验拓扑 实验思路 配置ip地址,配置RIP,OSPF;在R2上分别在RIP下引入OSPF,在OSPF下引入RIP;在R2上配置acl 2000,拒绝R4的业务网段,同时允许其他网段访问(acl 2000 默认拒绝网段);通过配置路由过滤router-…

数据分析_数据分析思维(1)

数据分析_数据分析思维(1) 这篇文章具体的给大家介绍数据分析中最为核心的技术之一: 数据分析思维的相关内容。 一、数据分析的三种核心思维 作为新手数据分析师或数据运营, 在面对数据异常的时候, 好多小伙伴都会出现: “好像是A引起的”, “好像也和B渠道有关”, “也可能…

OpenCV与AI深度学习 | OpenCV如何读取仪表中的指针刻度

本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。 原文链接:OpenCV如何读取仪表中的指针刻度 最近遇到一个问题,如何读取仪表中的指针指向的刻度。 解决方法有多种,比如&#xff…

队列常规使用

文章目录 一、同步互斥改进方法二、队列实现同步三、队列实现互斥总结 一、同步互斥改进方法 在上一章同步互斥中,我们有两个实验。 同步实验: 我们创建了两个任务,任务1循环遍历一个比较大的数字,遍历完成后设置标志位置1。任务…

如何用网页绘制一个黑莓9900的键盘效果图

如何用网页绘制一个黑莓9900的键盘效果图 入了几个黑莓蓝牙键盘,出于喜好,想做一个跟实体键盘一模一样的网页界面。 最终的实现效果是这样的: 在线查看:http://kylebing.cn/tools/bb-keyboard 点击上面四个按键显示不同模型界面…

PDM在Office文档中的变量映射

在PDM数据管理软件中需要在数据卡中反馈出文件的一些属性信息,使得用户在不打开文件的情况下可以快速了解此文件的属性信息,或者需要用户在创建文档时填入相应内容,能够自动的填充到文档中,所以就需要在实施的过程中在SOLIDWORKS …

[C++][算法基础]求组合数(I)

给定 𝑛 组询问,每组询问给定两个整数 𝑎,𝑏,请你输出 的值。 输入格式 第一行包含整数 𝑛。 接下来 𝑛 行,每行包含一组 𝑎 和 𝑏。 输出格…

CSS布局 Flex 和 Grid

在 CSS 中,理解 flex 和 Grid 布局非常重要,今天把这两个重要知识点回顾一下。 Flexbox 弹性盒子布局 弹性布局支持 flex、inline-flex,支持块和内联。 容器 轴的概念,在 Flexbox,有主轴和侧轴的概念,轴…

自己写的加密案例4——某东方课程头部sign加密

网址:aHR0cHM6Ly9kc2FwaS54ZGYuY24vcHJvZHVjdC92Mi9jbGFzcy9zZWFyY2g 进行抓包分析,发现请求头中由sign加密,简单判断是消息摘要算法。 Sign:d7c68100ca508bb7c8ae284560754303 进行xhr断点,一下子就发现了位置。 s c.sign&…

“傻瓜”学计量——核密度估计KDE

提纲: 什么是核密度估计,是干什么的 代码 1 前言 参数估计vs非参数估计参数估计是样本数据来自一个具有明确概率密度函数的总体。非参数估计是样本数据的概率分布未知,这时,为了对样本数据进行建模,需要估计样本数据…