52个AIGC视频生成算法模型介绍

cb4b09c79904c61c602fa64d80dd87c7.gif

基于Diffusion模型的AIGC生成算法日益火热,其中文生图,图生图等图像生成技术普遍成熟,很多算法从业者开始从事视频生成算法的研究和开发,原因是视频生成领域相对空白。

1c4428405eb4326ffd97d5cbdbd82510.png

AIGC视频算法发展现状

从2023年开始,AIGC+视频的新算法层出不穷,其中最直接的是把图像方面的成果引入视频领域,并结合时序信息去生成具有连续性的视频。随着Sora的出现,视频生成的效果又再次上升了一个台阶,因此有必要将去年一年到现在的视频领域进展梳理一下,为以后的视频方向的研究提供一点思路。

89c56ad60d1947e9e9f4396669cefb70.png

AIGC视频算法分类

AIGC视频算法,经过梳理发现,可以大体分为:文生视频,图生视频,视频编辑,视频风格化,人物动态化,长视频生成等方向。具体的输入和输出形式如下:

  1. 文生视频:输入文本,输出视频

  2. 图生视频:输入图片(+控制条件),输出视频

  3. 视频编辑:输入视频(+控制条件),输出视频

  4. 视频风格化:输入视频,输出视频

  5. 人物动态化:输入图片+姿态条件,输出视频

  6. 长视频生成:输入文本,输出长视频



51287f0d075d356969d1ab42d62df34d.png

具体算法梳理

  文生视频
  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

机构:清华

时间:2022.5.29

https://github.com/THUDM/CogVideo.

简单介绍:基于两阶段的transformer(生成+帧间插值)来做文生视频

ed514daa38b20aecd74c7bbe28d3ef5c.png

  • IMAGEN VIDEO

机构:Google

时间:2022.10.5

简单介绍:基于google的Imagen来做的时序扩展,而Imagen和Imagen video都没有开源

bbabe3ca53eaf850b5c572bfcf0fd2ef.png

  • Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

机构:Picsart AI Resarch

时间:2023.3.23

https://github.com/Picsart-AI-Research/Text2Video-Zero

简单介绍:基于图像diffusion model引入corss-frame attention来做时序建模,其次通过显著性检测来实现背景平滑。

259d391173d47f7eaa05edc1a1840f02.png

  • MagicVideo: Efficient Video GenerationWith Latent Diffusion Models

机构:字节

时间:2023.5.11

简单介绍:直接将图像SD架构扩展成视频,增加了时序信息

4b0eec415d523dd0d813e11eb173fd9d.png

  • AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

机构:上海 AI Lab

时间:2023.7.11

https://animatediff.github.io/

简单介绍:基于图像diffusion model,训练一个运动建模模块,来学习运动信息

f11dc8e8e9708c67ee75f2fd5badd579.png

  • VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

机构:腾讯 AI Lab

时间:2023.10.30

https://ailab-cvc.github.io/videocrafter

简单介绍:基于diffusion模型,网络架构采用空间和时序attention操作来实现视频生成

68bdbf6c9e459513e19e9754482e6eae.png

  图生视频
  • AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

机构:上海 AI Lab

时间:2023.7.11

https://animatediff.github.io/

  • VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

机构:腾讯 AI Lab

时间:2023.10.30

https://ailab-cvc.github.io/videocrafter

  • stable video diffusion

机构:Stability AI

时间:2023.11.21

https://stability.ai/news/stable-video-diffusion-open-ai-video-model

简单介绍:基于SD2.1增加时序层,来进行视频生成

  • AnimateZero: Video Diffusion Models are Zero-Shot Image Animators

机构:腾讯 AI Lab

时间:2023.12.6

https://github.com/vvictoryuki/AnimateZero(未开源)

简单介绍:基于Animate Diff增加了位置相关的attention

4385371a623e9c5918c3b5197cb74776.png

  • AnimateAnything: Fine-Grained Open Domain Image Animation with Motion Guidance

机构:阿里

时间:2023.12.4

https://animationai.github.io/AnimateAnything/

简单介绍:可以针对特定位置进行动态化,通过学习运动信息实现时序信息生成

cd349d295a04bbad29315c1e01971c05.png

  • LivePhoto: Real Image Animation with Text-guided Motion Control

机构:阿里

时间:2023.12.5

https://xavierchen34.github.io/LivePhoto-Page/(未开源)

简单介绍:将参考图,运动信息拼接作为输入,来进行图像的动态化

29beda70ab49845c758504fbd5143105.png

  视频风格化
  • Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

机构:南洋理工

时间:2023.12.17

https://www.mmlab-ntu.com/project/rerender/

简单介绍:基于SD+controlnet,结合cros-frame attention来风格化视频序列

2151b085cd71ce3141e6b1560fbcde54.png

  • DCTNet

机构:阿里达摩院

时间:2022.7.6

https://github.com/menyifang/DCT-Net/

简单介绍:基于GAN的框架做的视频风格化,目前支持7种不同的风格

a7fffd1e98db4db35b1ba95a0e9ec234.png

  视频编辑

主要是将深度图或者其他条件图(canny/hed),通过网络注入Diffusion model中,控制整体场景生成,并通过prompt设计来控制主体目标的外观。其中controlnet被迁移进入视频编辑领域,出现了一系列controlnetvideo的工作。

  • Structure and Content-Guided Video Synthesis with Diffusion Models

机构:Runway

时间:2023.2.6

https://research.runwayml.com/gen1

b37bc72dd60293313435c99edb409dd3.png

  • Animate diff+ControlNet(基于WebUI API)

  • Video-P2P: Video Editing with Cross-attention Control

机构:港中文,adobe

时间:2023.3.8

https://video-p2p.github.io/

85fae37f95016438e57851810786471b.png

  • Pix2Video: Video Editing using Image Diffusion

机构:Abode

时间:2023.3.22

https://duyguceylan.github.io/pix2video.github.io/

1bd8bf1cc7e918ba10ba83fb7e600ff1.png

  • InstructVid2Vid: Controllable Video Editing with Natural Language Instructions

机构:浙大

时间:2023.5.21

16abe2b75e0126c01702bb18ab544abd.png

  • ControlVideo: Training-free Controllable Text-to-Video Generation

机构:华为

时间:2023.5.22

https://github.com/YBYBZhang/ControlVideo

50d8e39632b3e1a0986f0a0475589392.png

  • ControlVideo: Conditional Control for One-shot Text-driven Video Editing and Beyond

机构:清华

时间:2023.11.28

https://github.com/thu-ml/controlvideo

5453f3be4f045507f85066c4cca86500.png

  • Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

时间:2023.12.6

https://controlavideo.github.io/

9aca6c877971a73243115938b090ce65.png

  • StableVideo: Text-driven Consistency-aware Diffusion Video Editing

机构:MSRA

时间:2023.8.18

https://github.com/rese1f/StableVideo

efe59831eacf94ee49efaf098cd5df1d.png

  • MagicEdit: High-Fidelity and Temporally Coherent Video Editing

机构:字节

时间:2023.8.28

https://magic-edit.github.io/(未开源)

645434c6c0e5f3bcbcb14b6b28940fed.png

  • GROUND-A-VIDEO: ZERO-SHOT GROUNDED VIDEO EDITING USING TEXT-TO-IMAGE DIFFUSION MODELS

机构:KAIST

时间:2023.10.2

https://ground-a-video.github.io/

079ea47002f01d6a73f4ad57626dcce4.png

  • FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

机构:腾讯AI Lab

时间:2023.10.11

https://fate-zero-edit.github.io

6ad95f1fc0c6af8c42f97a7bf456ecdc.png

  • Motion-Conditioned Image Animation for Video Editing

机构:Meta

时间:2023.11.30

facebookresearch.github.io/MoCA(未开源)

af2a386e6a652c9584ab060d32b159e9.png

  • VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing

机构:Sorbonne Université, Paris, France

时间:2023.12.15

https://videdit.github.io

ee91ce97234473fa0057da1c90c8f023.png

  • Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models

时间:2024.1.4

https://github.com/baaivision/vid2vid-zero

433ee0231dc975bcb213f54c7d86831b.png

  人物动态化

主要是通过人体姿态作为条件性输入(结合controlnet等),将一张图作为前置参考图,或者直接使用文本描述生成图片。其中阿里和字节分别有几篇代表性论文,其中字节的代码有两篇已经开源,阿里的代码还在等待阶段。

  • Follow Your Pose

机构:腾讯AI Lab

时间:2023.4.3

https://follow-your-pose.github.io/

53410d0779eb44d606e3ee6749023bbd.png

  • DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

机构:google,nvidia

时间:2023.5.4

https://grail.cs.washington.edu/projects/dreampose/

eb02a1d216df570e3f4b5e8504392c4b.png

  • DISCO: Disentangled Control for Realistic Human Dance Generation

机构:微软

时间:2023.10.11

https://disco-dance.github.io

e35df2720df43665594bc4c9b390e3f2.png

  • MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

机构:字节

时间:2023.11.27

https://showlab.github.io/magicanimate/

47bfeac42699e27498cad77ac27be36e.png

  • MaigcDance

机构:字节

时间:2023.11.18

https://boese0601.github.io/magicdance/

57e6ce3b7bb06cb0870f41cc1daebc0e.png

  • Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

机构:阿里

时间:2023.12.7

https://humanaigc.github.io/animate-anyone/(未开源)

56891634766a32c976bb74a4615436fb.png

  • DreaMoving: A Human Video Generation Framework based on Diffusion Model

机构:阿里

时间:2023.12.11

https://dreamoving.github.io/dreamoving(未开源)

ee81f94b764c3424437942769027d1a5.png

  长视频生成
  • NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation

机构:微软亚研院

时间:2023.3.22

https://msra-nuwa.azurewebsites.net/

06b0ed7cde1049fe9132352b2a35c980.png

  • Latent Video Diffusion Models for High-Fidelity Long Video Generation

机构:腾讯AI Lab

时间:2023.3.20

f86e02227936df180de817055443b3eb.png

  • Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

机构:上海AI Lab

时间:2023.3.29

https://github.com/G-U-N/Gen-L-Video

74e1dfdb95803238ba93e8c94fa31855.png

  • Sora(OpenAI)

时间:2024.2

https://openai.com/sora(未开源)

0a7c57fd44a5b62b9df8b3eba4522070.png


  • Latte: Latent Diffusion Transformer for Video Generation

机构:上海AI Lab

时间:2024.1.5

https://maxin-cn.github.io/latte_project

a9bcfe8b09c4cbde19fe9e86ef986764.png

18912a6cd1cc465065654094c7595747.png

算法效果分析

本章节选择了一些代表性的方法进行效果分析

  • Animate Diff

效果:https://animatediff.github.io/,支持文生视频,图生视频,以及和controlnet结合做视频编辑


  • Animate Diff+ControlNet

输入视频:moonwalk.mp4

输出样例

2b2a430fcb3abec184ddadc648f26b72.gif

462e4cace92e179decf532fbbed0c6f0.gif

d712dd0df11fc76b47de52a349f166e7.gif

344165979bde887beb7d711d8da1584a.gif

canny和openpose

注意:要输入主语保证主体一致性(比如michael jackson或者a boy)

  • AnimateAnything

能够指定图片的运动区域,根据文本进行图片的动态化

效果:

  • Stable Video Diffusion

能够基于静止图片生成25帧的序列(576x1024)

效果:

20af25f6e0877cf382440a45b391c583.gif

ControlVideo

输入+输出样例:500.mp4,300.mp4,整体效果不错

问题:因为推理过程需要额外的训练,消耗时间久,第一个视频需要50min(32帧),第二个视频需要14min(8帧)

300

500

  • Rerender A Video

输入:

输出:

输入:

输出:

整体效果还可以,运行速度和视频帧数有关,10s视频大约在20min左右。

  • DCTNet

效果:整体画面稳定,支持7种风格,显存要求低(6-7G),上面视频40s左右就可以处理完

  • DreamPose

6c056b76117e5481cab3e8203c1014c8.png

  • Animate Anyone

  • MagicDance

输入图片:

0a71ce03b5c41156ebc88587daeeb682.png

输出:

40b047b225b2aeba50c7101fd6d4be05.gif

ba35c54aa8893835382f46a6d759f1c6.gif

  • Sora

效果:https://openai.com/sora

能够生成长视频,质量很好,但是尚未开源

616dea105688ab302a2e9f5218297496.png

总结和展望

  1. 文生视频和图生视频算法:其中Animate Diff,VideoCrafter等已经开源,支持文/图生成视频,并且经过测试效果还不错,同时图生视频还支持通过结合不同的base模型实现视频的风格化。不过生成的视频帧数基本都在2s以内,可以作为动图的形式进行展示。其中Stable Video Diffusion是stability ai开源的一个图生视频的算法,效果相对更加逼真,视频质量更高,但是视频长度依旧很短。

  2. 视频编辑算法:比如基于controlnet的可控生成视频可以初步达到预期的效果,支持实现特定目标或者属性(颜色等)的更换,也支持人物的换装(比如颜色描述)等等,其中生成的视频长度和GPU显存相关。

  3. 视频风格化:基于diffusion 模型的视频风格化效果最好的是rerender a video,可以支持prompt描述来进行视频的风格化,整体来讲这个方法对人脸和自然环境有比较好的效果,运行成本也相对较低(相较于视频编辑算法)

  4. 特定的人物动态化算法:目前demo效果最好的animate anyone和dream moving都还没有开源。不过这两个算法都对外开放了使用接口,比如通义千问app以及modelscope平台。重点介绍一下通义实验室的Dream moving,https://www.modelscope.cn/studios/vigen/video_generation/summary是其开放的使用平台,里面支持同款的动作生成,图生视频,视频的风格化以及视频贺卡等功能,整体来讲效果很好。而目前开源的方法中,测试的效果最好的是MagicDance,但是人脸有一定的模糊,距离animate anyone和dream moving展示的效果还有差距。

  5. 长视频算法:随着Sora的出现,Diffusion Transformer的架构后续会备受关注,目前大部分算法都局限于2s左右的短视频生成,而且质量上不如Sora。后续会有更多的算法将Sora的思路融入现有的方法中,不断提升视频质量和视频长度。不过目前sora的模型和实现细节并没有在技术报告中公开,因此在未来还会有一段的摸索路要走。

  6. 整体总结:


是否可用

优势

劣势

适用场景

代表性方法

文/图生视频

视频质量高

视频长度短

短视频动态封面

Animate Diff(可扩展性强)

VideoCrafter(质量较好)

Stable Video Diffusion(质量更好)

视频编辑算法

待定

算法种类多,可实现的功能多(修改任意目标的属性)

推理速度较慢,显存要求高,视频长度短

人物换装(最简单的改变衣服颜色),目标编辑,用户体验

ControlVideo(效果好但运行时间久)

视频风格化

显存要求相对视频编辑更低,推理速度更快。

画面存在一定的不稳定问题。但是基于GAN的DCTNet相对更稳定

用户体验

Rerender-A-Video(更灵活)

DCTNet(效果更稳定)

人物动态化

待定

用户可玩性高

效果最好的代码暂时没有开源,开源的代码生成的人脸会有一定的模糊

用户体验

Animate Anyone(待开源)

DreamMoving(待开源)

MagicDance(已开源)

长视频生成

视频长度远超2s

整体质量偏差

(Sora还没开源)

影视制作

Sora



¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/491143.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python判断当前日期是全年哪一天

设计者:ISDF 版本:v3..0 日期:04/01/2019设计者:ISDF 版本:v4..0 日期:03/27/2024 import datetime#闰年判断函数 def ys_leep_year(year):ys_leep Falseif (year % 400 0) or ((year % 4 0) and (year …

Window10无法收到Windows11更新推送的问题

参考文章:如何在更改设备硬件后检查设备是否满足 Windows 11 系统要求 问题描述: 已经使用 PC Health Check 工具检查,确认电脑可以升级 Windows 11,但是在 Windows 更新界面无法收到 Windows 11 更新的提示。 解决方案 按 Win…

鸿蒙OS封装【axios 网络请求】(类似Android的Okhttp3)

Okhttp.ets /*** 网络请求*/ import axios from ohos/axios import httpConstants from ../net/HttpConstants import errorCode from ../utils/errorCode import toast from ../utils/ToastUtils import router from ../utils/RouterUtils import SPUtils from ../utils/SPUt…

【环境配置】Ubuntu MySQL 8.0.28 安装并允许外部客户端连接

文章目录 MySQL 安装步骤配置 MySQL Server 允许外部连接 MySQL 安装步骤 步骤一:在 MySQL 官网找到 apt 仓库,下载最新的仓库 点击 Download: 输入如下命令: sudo wget -c https://dev.mysql.com/get/mysql-apt-config_0.8…

Unity 打包真机脚本丢失的问题

记录Bug Bug详情分析解决方案附录 Bug详情 项目中导入了UI Particle的Package,用于处理特效层级 unity 运行效果正常,打包真机后运行时发现特效并没有正确显示,真机Log如下图 需要接入查看真机Log工具的点这里 查看图中Log发现对应的Prefab上挂载的脚本…

NFTScan 正式上线 Polygon zkEVM NFTScan 浏览器和 NFT API 数据服务

2024 年 3 月 26 号,NFTScan 团队正式对外发布了 Polygon zkEVM NFTScan 浏览器,将为 Polygon zkEVM 生态的 NFT 开发者和用户提供简洁高效的 NFT 数据搜索查询服务。NFTScan 作为全球领先的 NFT 数据基础设施服务商,Polygon zkEVM 是继 Bitc…

RabbitMQ 《简单消息》

package com.xzp.rabbitmq.simple; import com.rabbitmq.client.Channel; import com.rabbitmq.client.Connection; import com.xzp.rabbitmq.util.ConnectionUtil; /** * "Hello World!" * 简单消息 * 消息发送者 - R - 发送消息(生产者) …

OpenCV 形态学

1 腐蚀 import cv2 import numpy as npimgcv2.imread(C:/Users/Administrator/Desktop/kai.jpg) kerneal cv2.getStructuringElement(cv2.MORPH_RECT,(5,5))#腐蚀 dstcv2.erode(img,kerneal,iterations2)cv2.imshow("img",np.hstack((img,dst))) cv2.waitKey(0) c…

pytorch简单的优化问题实战

目录 1. Himmelblau函数2. python画出函数图3. 梯度优化代码 1. Himmelblau函数 如下图: 从图中的碗一样的图中可以看出有4个极值点,那么经过优化后,会有4个结果。 4个点的结果见下图: 2. python画出函数图 3. 梯度优化代码 源…

「12」浏览器:以浏览器方式显示网址内容

「12」浏览器以浏览器方式显示网址内容 如果您想在直播间展示某一个网页的内容,那么您可以用OBS软件里的来源组件「浏览器」,它对特定来源网页地址页面进行抓取。如:数字时钟和圆形时钟。 操作方法 一、添加浏览器源 第1步 添加浏览器 在O…

【JavaScript】数组 ① ( JavaScript 数组概念 | 数组创建 | 使用 new 关键字创建数组 | 使用 数组字面量 创建数组 )

文章目录 一、JavaScript 数组概念二、数组创建1、使用 new 关键字创建数组2、使用 数组字面量 创建数组 一、JavaScript 数组概念 在 JavaScript 中 提供了一种 特殊的对象 " 数组 " , " 数组 " 对象 可以 在一个 " 连续的内存空间 " 中 &quo…

用 JavaScript 发起 HTTP 请求的几种方法

JavaScript 具有非常棒的模块和方法,可以用来建立可从服务器端资源发送或接收数据的 HTTP 请求。本文会带着大家一起看看在 JavaScript 中常用的建立 HTTP 请求的方式有哪些。 Ajax Ajax 是最常规的建立异步 HTTP 请求的方式。你可以使用 HTTP POST 方法来发送数据…

ElasticSearch、java的四大内置函数式接口、Stream流、parallelStream背后的技术、Optional类

第四周笔记 一、ElasticSearch 1.安装 apt-get install lrzsz adduser -m es 创建用户组: useradd *-m* xiaoming(用户名) *PS:追加参数-m* passwd xiaoming(用户名) passwd xiaoming 输入新的 UNIX 密码: 重新输入新的 UNIX 密码&…

【免费】面向多微网网络结构设计的大规模二进制矩阵优化算法

目录 1 主要内容 节点故障网络拓扑变化示意 约束条件 目标函数 2 部分代码 3 结果一览 4 下载链接 1 主要内容 当前电力系统中微电网逐步成为发展的主力军,微网中包括分布式电源和负荷,单一的微电网是和外部电源进行连接,即保证用电的…

STL —— string(3)

目录 1. 使用 1.1 c_str() 1.2 find() & rfind() 1.3 substr() 1.4 打印网址的协议域名等 1.5 find_first_of() 2. string() 模拟实现 2.1 构造函数的模拟实现 2.2 operator[] 和 iterator 的模拟实现 2.3 push_back() & append() & 的模拟实现 2.4 ins…

海外媒体宣发:商务视频推广数字化变革全解析-华媒舍

在当今数字化时代,商务视频推广正迎来一场革命性的数字化变革。本文将为您解析这场变革的核心元素和相关内容。 商务视频推广 商务视频推广是一种通过视频形式来宣传和推广产品、服务或品牌的方法。传统的推广方式主要是通过文字和图片进行,而商务视频推…

【真题解析】题目 3151: 蓝桥杯2023年第十四届省赛真题-飞机降落【C++ DFS 超详解注释版本】

爆搜冥想 暴力枚举每一辆飞机对于每一个飞机都只存在两种情况,可以降落和不可以降落如果可以降落,计算降落后最早可以降落的时间pre,作为下一次递归的传参如果不可以降落,枚举下一辆飞机 注意这辆的降落有盘旋这种量子叠加态&…

Vant Weapp小程序 van-uploader 文件上传点击无反应,删除无反应

Vant Weapp 1.0 版本开始支持van-uploader组件&#xff0c;请先确认好版本号和引用路径正确&#xff01;&#xff01; <van-uploader file-list"{{ fileList }}" deletable"{{ true }}" />1. 上传无反应 微信小程序用了van-uploader&#xff0c;但是…

无人直播(视频推流)

环境搭建 我这里采用的是ffmpeg来进行推流直播 yum -y install wgetwget --no-check-certificate https://www.johnvansickle.com/ffmpeg/old-releases/ffmpeg-4.0.3-64bit-static.tar.xztar -xJf ffmpeg-4.0.3-64bit-static.tar.xzcd ffmpeg-4.0.3-64bit-staticmv ffmpeg /u…

【Linux】线程同步{死锁/线程同步相关接口/由浅入深理解线程同步}

文章目录 1.死锁1.1概念1.2死锁的必要条件 2.线程同步相关接口2.1pthread_cond_init/destroy()2.2int pthread_cond_wait2. 3linux下的条件变量及其作用2.4int pthread_cond_signal/broadcast();2.5Linux下 阻塞和挂起的异同2.6阻塞&#xff0c;挂起&#xff0c;和进程切换的关…