MicroCinema与CCEdit:让文生视频兼具创造性与可控性

编者按:随着视频生成技术的飞速进步,我们见证了人工智能技术在视频清晰度、长视频连贯性以及对物理变化理解和镜头转换处理能力方面的显著提升。不过,这些高质量的生成结果是否完全符合我们的需求呢?显然,并非总是如此。由于生成模型的不可预测性,其生成结果常常与用户预期偏离。

在微软亚洲研究院的研究员们看来,创造性与可控性兼备的视频生成模型才是人工智能技术落地应用的关键。基于这一理念,研究员们研发了两项创新的视频生成技术——文生视频模型 MicroCinema 和视频编辑框架 CCEdit,旨在让视频生成更加贴合用户的切身需求。相关论文已被 CVPR 2024 接收。


在这个个性化表达的时代,每个人都是社交媒体内容的创作者。想象一下,拥有一套自己情有独钟的动物表情包——无论是快乐奔跑、好奇探头、悲伤低头,还是悠闲躺卧,每个动作都栩栩如生,同时还能适应各种场景,在古代与现代、虚拟与现实中自由穿梭——这将让你的社交互动更加生动、有趣,也更能展现自我。微软亚洲研究院的 MicroCinema 和 CCEdit 让这一创意想法成为了可能。

其中,MicroCinema 能够将根据文字描述生成的图片变为动态视频。例如,一只正在吃瓜看戏的松鼠:

microcinema-ccedit-1

当你对生成的视频有部分不满意,却又不希望重新生成不一样的视频时,CCEdit的视频编辑能力,可以进一步对动态视频进行个性化编辑。例如,更改背景:当松鼠吃的“大瓜”已经震惊银河系时:

microcinema-ccedit-2

当你感觉松鼠还不够威风凛凛时,可以给它披上吃瓜的盔甲:

microcinema-ccedit-3

或者,你希望它更可爱一点,那就调整主体,将松鼠变成二次元形象:

microcinema-ccedit-4

你也可以进行整体风格的转换,将松鼠置身于中国画中:

microcinema-ccedit-5

地球上动物种类在急剧减少。如果你想尽快制作一些珍惜动物的宣传短片,但却没有足够的时间亲自进行实地拍摄,那么 MicroCinema 和 CCEdit 也可以快速帮你完成这项工作。先让 MicroCinema 把根据文字描述生成的图片转化为动态视频。例如,一只高高兴兴弹着吉他的大熊猫:

microcinema-ccedit-6

再利用 CCEdit 进一步对动态视频进行个性化编辑,例如,更改背景,让这只熊猫走进梵高的世界中弹唱:

microcinema-ccedit-7

你还想制作一段金丝猴的视频,也可以直接在 CCEdit 中更改主体,将大熊猫修改为金丝猴:

microcinema-ccedit-8

或者,你希望制作一段中国画风格的视频片段,那么墨竹与黑白的大熊猫会更匹配:

microcinema-ccedit-9

为什么由文生视频模型 MicroCinema 和视频编辑框架 CCEdit 生成的视频,能够更精准地匹配文字描述,尤其在视频运动效果上满足用户的具体需求?关键在于它们的“可控性”

微软亚洲研究院首席研究员罗翀表示:“尽管现有的生成技术极大地拓宽了创造的边界,但如果天马行空的创意不能准确地满足用户的实际需求,那么技术的潜力就无法被完全发挥出来并实现落地应用。理想的生成模型应当能够在精确理解用户指令和适应多变场景的基础上,根据用户的特定需求进行实时调整,确保创造力的可控性。

MicroCinema:分而治之,实现视频按需生成

MicroCinema 之所以能够生成与文本描述高度匹配且流畅连贯的高质量视频,在于其采取了“分而治之”的策略。当前文生视频扩散模型(diffusion model)的主流方法是采用级联时空扩散模型,在文本-视频对之间进行学习,并通过在文本到图像生成模型中加入时间维度,再对文本和视频数据进行微调以创建文本到视频的模型。但是这种方法生成的视频常常会出现外观与时间不一致、不连贯的问题。

MicroCinema 通过将文本到视频的生成过程分为两个阶段来解决这一挑战:首先是文本到图像的生成,其次是图像加文本到视频的生成。在第一阶段,用户可以灵活利用先进的文本到图像模型(如 Stable Diffusion、Midjourney 和 DALL-E)来生成逼真且细节丰富的图像,这些图像作为视频的关键帧,为之后的视频片段生成提供了基础。在第二阶段,通过将这些生成的图像与初始文本一同作为输入,模型便可以减少对细节外观的关注,更专注于学习动态变化。

为了有效实施这一策略,研究员们引入了两项核心技术:利用外观注入网络(Appearance Injection Network)来增强保持给定图像外观的能力;通过外观噪声先验机制(Appearance Noise Prior)保持预训练的 2D 扩散模型的能力。

图1:MicroCinema架构示意图

图1:MicroCinema架构示意图

两段式的设计策略不仅使 MicroCinema 能够生成根据文本提示精确控制动作的高质量视频,而且显著降低了模型从头训练的成本。

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

论文链接:https://arxiv.org/abs/2311.18829

GitHub 链接:https://wangyanhui666.github.io/MicroCinema.github.io/

以下两个示例展示了 MicroCinema 是如何精确捕捉和再现文本描述:

microcinema-ccedit-11

一辆黄色的车在类似梵高画作风格的现代城市夜景中行驶

microcinema-ccedit-12

耀眼的阳光下,行走在金色麦田中的巨型恐龙骨架

CCEdit:三叉戟网络,让视频编辑更可控

尽管现有视频生成模型拥有强大的创造力,但其生成的视频结果并不是总能精确符合用户的编辑意图或艺术构想,特别是无法对结果进行二次编辑。CCEdit 通过其创新的三叉戟网络结构,有效分离结构控制和外观控制,为用户提供了一系列广泛的编辑功能,包括前景替换、背景修改、风格转换和特效添加等。

图2:CCEdit 三叉戟网络示意图

图2:CCEdit 三叉戟网络示意图

CCEdit 网络由三个关键组件构成:负责文本到视频生成的主分支,以及两个专门用于结构和外观控制的辅助分支。

主分支利用预训练的文本到图像扩散模型,通过插入时间序列层将其转换为文本到视频模型。除了使用文本提示进行外观图像控制,CCEdit 还允许用户调用 Stable Diffusion 社区的个性化文本到图像模型(如 ToonYou、LoRA、Rev Animated)来增强内容的创造性与灵活性。结构分支采用多样的 ControlNet 架构,从输入视频中提取每帧的结构信息和动作轨迹,以实现无缝的结构继承和不同粒度上的结构控制。外观分支则会把通过特征提取处理编辑后的关键帧信息,有效地融入到主分支,支持将用户自己设计的图像作为关键帧,进行细粒度的外观调整。而所有这些控制选项都是在同一框架内无缝集成的。

CCEdit 网络的设计策略为用户提供了广泛的控制权,使视频生成不仅拥有无限的创造潜力,同时也具备高度的可控性,满足了用户从细节到整体的个性化编辑需求。

CCEdit: Creative and Controllable Video Editing via Diffusion Models

论文链接:https://arxiv.org/abs/2309.16496

GitHub 链接:https://ruoyufeng.github.io/CCEdit.github.io/

以下是使用 CCEdit 进行视频编辑的几个示例,展现了其在不同场景下的应用能力:

microcinema-ccedit-14

全局修改,将一个年轻女孩对着镜头微笑的场景转变成漫画风格

microcinema-ccedit-15

全局修改,将城市夜景转化为赛博朋克风格

microcinema-ccedit-16

前景编辑,把一只行走的老虎转换成2D动画风格

microcinema-ccedit-17

背景编辑,把一名女性在春日的田野里享受美酒的背景改为绿色的田野

microcinema-ccedit-18

综合编辑,将一只可爱的狗狗变成一条霸气的喷火龙,背景是雷雨交加的悬崖顶

microcinema-ccedit-19

通过控制结构生成不同样式的视频,比如线稿图、PiDi 边界图、草图、深度图等

microcinema-ccedit-20

通过插入关键帧,将视频修改为自定义风格

多轮互动修改将是未来视频生成模型必不可少的功能

在这个技术革新的时代,文生视频模型凭借其独有的创造力和强大的性能,“创作”出了许多令人瞩目的作品,同时也引发了大众的广泛关注。然而,在对技术进行前沿探索的同时,微软亚洲研究院智能多媒体组的研究员们深入思考了一个关键问题:如果无法对生成结果进行按需求的精确编辑和调整,那么这些先进工具在日常生活中的实际应用价值又有多大?

正是基于这样的思考,研究员们在开发 MicroCinema 和 CCEdit 的过程中,特别强调了“可控性”这一核心原则。这不仅体现了对技术性能的追求,也反映了他们对人工智能技术未来发展方向的期待。“未来,视频编辑和生成技术将不仅限于单次指令的响应。相反,它们需要能够通过多轮对话与用户进行互动,准确地理解并实施用户的具体需求,从而逐步精细化并满足用户的个性化编辑意图,创造出更加匹配需求的内容。”罗翀说。

MicroCinema 和 CCEdit 的开发标志着研究员们在可控视频生成技术领域的初步探索。未来,研究员们将继续沿着这一思路,进一步推动人工智能视频生成技术的发展,使其更贴近用户的实际需求和创意愿景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/535674.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何借助AI高效完成写作提纲

AI变革力量:未来数据中心的智能化之旅! 在当今这个信息爆炸的时代,人工智能(AI)在众多领域展现出了它的能力,特别是在写作领域。AI写作工具不仅能够帮助我们高效地生成内容,还能在一定程度上提升…

利用弱监督定位的高分辨率乳腺癌筛查图像的可解释分类器

标准筛查乳房 X 光检查由每个乳房的两张高分辨率 X 射线组成,分别从侧面(“中外侧”或 MLO 视图)和上方(“头尾”或 CC 视图)拍摄,总共四张图像。 乳房X光照片的分辨率非常高,而大多数无症状癌症…

WebGL异步绘制多点

异步绘制线段 1.先画一个点 2.一秒钟后&#xff0c;在左下角画一个点 3.两秒钟后&#xff0c;我再画一条线段 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"…

[2024年4月最新]Python安装教程

一、Python下载 1、进入Python官网 官网地址&#xff1a;https://www.python.org 2、点击【Downloads】展开后点击【Windows】跳转到下载python版本页面&#xff0c;选择"Stable Releases"稳定版本&#xff0c;我下载的是Python 3.10.10版本&#xff0c;所以找到【…

IDEA中无法保存设置 Cannot Save Settings

确定原因: 在IDEA中父工程不应该存在有子工程的相关东西 首先,这是我的DCYJ项目(观察右侧的Content Root) 其次,这是我的EAPOFode项目(观察右侧的Content Root爆红处) 最后我将DCYJ项目右侧的Content Root全部删掉

共享单车到底是什么通信原理

我们经常骑的共享单车到底是什么通信原理&#xff0c;有人了解过吗&#xff1f; 一、智能车锁 共享单车最核心的硬件是智能车锁&#xff0c;主要用于实现控制和定位功能。 车锁内集成了嵌入式芯片&#xff08;通信模块&#xff09;&#xff0c;GPS模块和物联网SIM卡。 智能锁制…

DP例题详解(二)最短编辑距离和编辑距离

902. 最短编辑距离 - AcWing题库 #include<bits/stdc.h>using namespace std;const int N1010;int n,m; char a[N],b[N]; int f[N][N];int main() {cin>>n>>a1;cin>>m>>b1;for(int i0;i<m;i)f[0][i]i;for(int i0;i<n;i)f[i][0]i;//先初始化…

用户状态保持机制-Session

0、业务需求 会话&#xff1a;web应用中的会话是指一个客户端浏览器和服务器之间连续发生的一系列请求和响应的过程。 会话状态&#xff1a;web应用中的会话状态是指web服务器与浏览器在会话过程中产生的状态信息&#xff0c;借助会话状态&#xff0c;服务器能够把属于同一会话…

线性表概念及实现1

文章目录 前言一、线性表1.定义2.特点3.一般线性表的抽象数据类型定义 二、线性表的顺序存储&#xff08;顺序表&#xff09;1.基本概念2.数组实现顺序表3.顺序表中基本操作的具体实现 总结 前言 T_T此专栏用于记录数据结构及算法的&#xff08;痛苦&#xff09;学习历程&#…

纯小白蓝桥杯备赛笔记--DAY14(计算几何)

文章目录 计算几何基础平面几何距离圆的周长和面积圆与圆之间的关系&#xff1a;海伦公式计算三角形面积点到直线的距离 点积和叉积例题&#xff1a; 点和线的关系点的表示形式和代码判断点在直线的那边点到线的垂足点到线的距离例题-1242例题-1240升级--点到线段的距离--1285 …

指定世界TOP名校|医学研究学者公派美国麻省理工学院做博士后

W医生公派博士后条件为&#xff1a;世界TOP100的知名高校&#xff0c;研究方向相符且前沿。最终我们用世界顶级高校-美国麻省理工学院&#xff08;MIT&#xff09;的博士后邀请函助其获得单位资助&#xff0c;顺利通过签证并出国。 W医生背景&#xff1a; 申请类型&#xff1a…

LC 501.二叉搜索树中的众数

501.二叉搜索树中的众数 给你一个含重复值的二叉搜索树&#xff08;BST&#xff09;的根节点 root &#xff0c;找出并返回 BST 中的所有 众数&#xff08;即&#xff0c;出现频率最高的元素&#xff09;。 如果树中有不止一个众数&#xff0c;可以按 任意顺序 返回。 假定 …

全国贫困县DID数据(2008-2022年)

数据来源&#xff1a;国W院扶贫开发领导小组办公室 时间跨度&#xff1a;2008-2022年 数据范围&#xff1a;各县域 数据指标 年份 县域名称 所属地市 所属省份 县域代码 是否贫困县(是为1&#xff0c;否为0) 参考文献&#xff1a; [1]马雯嘉,吴茂祯.从全面脱贫到乡村振兴…

VQ-BeT: Behavior Generation with Latent Actions 代码复现(Mujoco 安装)

代码地址&#xff1a;https://github.com/jayLEE0301/vq_bet_official.git 创建环境 conda create -n vq-bet python3.9 conda activate vq-bet拉取库 git clone https://github.com/jayLEE0301/vq_bet_official.git export PROJ_ROOT$(pwd)安装pytorch conda install pyto…

AI论文速读 | 线性时间序列预测模型分析

论文标题&#xff1a;An Analysis of Linear Time Series Forecasting Models 作者&#xff1a; William Toner&#xff0c; Luke Darlow 机构&#xff1a;爱丁堡大学&#xff08;Edinburgh&#xff09;&#xff0c;华为研究中心&#xff08;爱丁堡&#xff09; 论文链接&am…

开源项目若依放大招了?

前言 鉴于之前写了篇插件式相关的文章&#xff0c;阅读量比起其它文章可不要好太多&#xff0c;所以我决定继续这个主题&#xff01; 以前我们公司用的就是Ruoyi&#xff0c;代码比较简单易懂。但是有些功能确实用不上&#xff0c;比如部门和岗位&#xff0c;每次新项目我拉了…

Docker安装及开启远程访问

这几天有人问我docker是怎么开启远程服务的&#xff1f; 正好之前我做过这件事情&#xff0c;并且写了相关的笔记&#xff0c;现在整理为一篇博客发出来。 安装Docker 首先更新一下自己的yum版本 yum update安装一下所需要的软件包 yum-config-manager --add-repo http://…

Java复习第十七天学习笔记(转发、重定向,GET,POST),附有道云笔记链接

【有道云笔记】十七 4.3 转发、重定向、Get、POST、乱码 https://note.youdao.com/s/GD5TRksQ 一、转发 转发&#xff1a;一般查询了数据之后&#xff0c;转发到一个jsp页面进行展示 req.setAttribute("list", list); req.getRequestDispatcher("student_lis…

套接字通信模型

本文内容主要参考《Android图形显示系统》 套接字也就是socket&#xff0c;一般用于网络中两个主机之间应用进程进行通信&#xff0c;在同一个主机也可以使用套接字完成进程之间的通信。 在图形显示系统中&#xff0c;用到套接字进行通信的地方主要有VSync信号的分发以及输入事…

Linux:动态库加载、编址

目录 一、库的概念 二、动静态库的加载 2.1绝对编址与相对编址 2.1一般程序的加载 三、动态库的加载 一、库的概念 库默认就是一个磁盘级文件&#xff0c;所以在执行代码时&#xff0c;库和可执行程序都会被加载到内存中&#xff0c;从原理上&#xff0c;库函数的调用依旧…