今天要聊一聊AI文生视频的最新进展。一直以来,AI生成视频对硬件的要求都让人望而却步,尤其是家用显卡,总是感觉“心有余而力不足”。
AI文生视频以前 基本需要的显存大概几十上百G
但最近,阿里开源的 Wan2.1 彻底改变了这一局面!它不仅让普通消费级GPU也能轻松生成视频,还能在短短10分钟左右搞定一段480P的视频。这让我这个技术爱好者忍不住想跟大家分享一下它的魅力,顺便奉上 离线一键包 和 本地部署教程,让你零门槛上手!
我生成猫猫打拳
我生成怪兽打奥特曼(这个指定是失败作品)
最新动态:Wan2.1强势来袭
就在几天前,2025年3月3日,Wan2.1迎来了一次大更新:它的 T2V(文本转视频) 和 I2V(图像转视频) 功能正式集成到了 Diffusers 框架中(T2V | I2V)。这意味着你可以用更简洁的方式调用它,社区支持也更丰富了。如果你还没试过,现在正是时候!
Wan2.1是什么?为什么这么火?
Wan2.1 是由阿里团队打造的一款开源大型视频生成模型,基于目前最流行的 扩散变换器(Diffusion Transformer) 技术。它通过一系列创新,比如独特的 时空变分自编码器(Wan-VAE)、高效的训练策略和海量数据处理,硬是把视频生成能力推到了一个新高度。简单来说,它不仅性能炸裂,还特别“亲民”,让家用显卡也能玩得转。
核心亮点
- SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
- 支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。它可在约 4 分钟内(未使用量化等优化技术)在 RTX 4090 上生成 5 秒的 480P 视频。其性能甚至可与一些闭源模型相媲美。
- 多项任务:Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色,推动了视频生成领域的发展。
- 视觉文本生成:Wan2.1是第一个能够生成中英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。
- 强大的视频 VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。
技术细节揭秘
- 3D因果VAE(Wan-VAE)
Wan团队设计了一种全新的架构,通过时空压缩和优化内存使用,让视频生成既高效又稳定。相比其他开源VAE,它的性能提升不是一点半点。 - 视频扩散DiT
Wan2.1 用的是 Flow Matching 框架,搭配 T5 编码器处理多语言输入,再加上跨注意力机制和共享MLP调制参数,硬生生把生成质量拉到了新高度。 - 与顶尖模型的较量
他们用1035个内部测试提示,覆盖14个大维度和26个子维度,做了全面对比。结果显示,Wan2.1 不管是开源还是闭源对手,都能稳稳胜出。
本地部署教程:手把手教你玩转 Wan2.1
好了,废话不多说,直接上干货!以下是我整理的本地部署步骤,简单易懂,保证你能快速上手。
1. 准备环境
首先,我们得搭个干净的运行环境,用 Conda 创建一个虚拟环境是个好习惯:
conda create -n wan python=3.10
conda activate wan
2. 克隆项目
把 Wan2.1 的代码拉下来:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
3. 安装依赖
依赖文件在 requirements.txt 里,但有些细节得注意:
打开 requirements.txt,先把这3行注释掉,避免安装出错:
# flash_attn
# torch>=2.4.0
# torchvision>=0.19.0
然后运行:
pip install -r requirements.txt
单独安装 Torch 和 Torchvision
如果你用的是 CUDA 12.6,可以这样:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126
对应上你自己本地cuda版本即可
4. 安装基于Windows的flash_attn,下载对应的cuda124 torch2.6 版本 到当前目录
我本地电脑的cuda是12.6,但是高版本兼容低版本,没有问题
下载完,复制到当前文件目录安装即可
pip install flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl
5. 下载模型
用 ModelScope 下载 T2V-1.3B 模型:
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B
6. 生成你的第一个视频
用官方示例跑一下试试:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
生成后,你会在目录里找到一个 MP4 文件,打开看看效果吧!
7. 启动 Gradio 界面
想更方便地操作?试试 Gradio 的本地界面:
这里顺便启动qwen模型的API接口,丰富提示词
阿里云百炼API申请地址
https://bailian.console.aliyun.com/?spm=a2c4g.11186623.0.0.266b4823b4SU8P#/model-market
cd gradio
Windows:
set DASH_API_KEY=sk-xxxxxxxxx
python t2v_1.3B_singleGPU.py --prompt_extend_method dashscope --ckpt_dir ./Wan2.1-T2V-1.3B
Linux:
DASH_API_KEY=your_key python t2v_1.3B_singleGPU.py --prompt_extend_method dashscope --ckpt_dir ./Wan2.1-T2V-1.3B
一键启动包:懒人福音
为了让大家少折腾,我还准备了一个 一键启动包,直接解压运行就能用。
英伟达显卡30系及以上的的显卡,8G及以上。显卡不好还是不要尝试了。
如果需要丰富提示词的,就去申请,申请后填入文本即可。
类似这样的
sk-xxxxxxxxxxxx
申请地址
阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台
一键包获取方式:
底部公众号名片扫码关注
发送: wan
也可以丢给AI去丰富提示词,那就不用管他。直接一键启动即可
几个关键参数说明一下:
- frame_num(默认81):控制视频帧数,必须是 4n+1 的形式。帧数多视频就长,但生成时间也增加。
- shift(默认5.0):调整噪声调度,影响动态效果。调小点会更平滑,调大点动态更明显。
- sample_solver(默认'unipc'):采样算法,unipc 又快又好,其他选项像 ddim 也可以试试。
- sampling_steps(默认50):去噪步数,越多质量越好,但也越慢。
- guide_scale(默认5.0):控制提示词的严格程度,值越大越贴近描述。
提示RuntimeError: FlashAttention only supports Ampere GPUs or newer
那就是
GTX 10xx/20xx 等较旧的 GPU 不适用于此版本的 FlashAttention,那只能另找途径,或者去万人同骑的huggingface和modelscope官网玩儿。
在线体验:
https://huggingface.co/spaces/Wan-AI/Wan2.1
魔搭社区
AI文生视频的“江湖”现状
Wan2.1 这么强,你觉得 它在AI文生视频领域算老几?
- Sora (OpenAI)
高质量、电影感强,但目前门槛高,普通人摸不到。 - Pika Labs
易用又灵活,社区口碑好,适合个人创作者。 - Vidu (清华大学)
国产黑马,长视频和高动态性很强,中文用户福音。 - 智谱清言 (CogVideoX)
高清快生成,专业玩家首选,但硬件要求不低。 - Runway Gen-2
多功能创意工具,设计圈的宠儿。 - 快手可灵
短视频利器,接地气又好上手,社交媒体创作者的最爱。