从家用显卡到AI文生视频——Wan2.1本地部署教程与一键包分享

今天要聊一聊AI文生视频的最新进展。一直以来，AI生成视频对硬件的要求都让人望而却步，尤其是家用显卡，总是感觉“心有余而力不足”。

AI文生视频以前基本需要的显存大概几十上百G

但最近，阿里开源的 Wan2.1 彻底改变了这一局面！它不仅让普通消费级GPU也能轻松生成视频，还能在短短10分钟左右搞定一段480P的视频。这让我这个技术爱好者忍不住想跟大家分享一下它的魅力，顺便奉上 离线一键包 和 本地部署教程，让你零门槛上手！

我生成猫猫打拳

我生成怪兽打奥特曼（这个指定是失败作品）

最新动态：Wan2.1强势来袭

就在几天前，2025年3月3日，Wan2.1迎来了一次大更新：它的 T2V（文本转视频） 和 I2V（图像转视频） 功能正式集成到了 Diffusers 框架中（T2V | I2V）。这意味着你可以用更简洁的方式调用它，社区支持也更丰富了。如果你还没试过，现在正是时候！

Wan2.1是什么？为什么这么火？

Wan2.1 是由阿里团队打造的一款开源大型视频生成模型，基于目前最流行的 扩散变换器（Diffusion Transformer） 技术。它通过一系列创新，比如独特的 时空变分自编码器（Wan-VAE）、高效的训练策略和海量数据处理，硬是把视频生成能力推到了一个新高度。简单来说，它不仅性能炸裂，还特别“亲民”，让家用显卡也能玩得转。

核心亮点

SOTA 性能：Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
支持消费级 GPU：T2V-1.3B 型号仅需 8.19 GB VRAM，可兼容几乎所有消费级 GPU。它可在约 4 分钟内（未使用量化等优化技术）在 RTX 4090 上生成 5 秒的 480P 视频。其性能甚至可与一些闭源模型相媲美。
多项任务：Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色，推动了视频生成领域的发展。
视觉文本生成：Wan2.1是第一个能够生成中英文文本的视频模型，具有强大的文本生成功能，可增强其实际应用。
强大的视频 VAE：Wan-VAE提供卓越的效率和性能，可对任意长度的 1080P 视频进行编码和解码，同时保留时间信息，使其成为视频和图像生成的理想基础。

技术细节揭秘

3D因果VAE（Wan-VAE）
Wan团队设计了一种全新的架构，通过时空压缩和优化内存使用，让视频生成既高效又稳定。相比其他开源VAE，它的性能提升不是一点半点。
视频扩散DiT
Wan2.1 用的是 Flow Matching 框架，搭配 T5 编码器处理多语言输入，再加上跨注意力机制和共享MLP调制参数，硬生生把生成质量拉到了新高度。
与顶尖模型的较量
他们用1035个内部测试提示，覆盖14个大维度和26个子维度，做了全面对比。结果显示，Wan2.1 不管是开源还是闭源对手，都能稳稳胜出。

本地部署教程：手把手教你玩转 Wan2.1

好了，废话不多说，直接上干货！以下是我整理的本地部署步骤，简单易懂，保证你能快速上手。

1. 准备环境

首先，我们得搭个干净的运行环境，用 Conda 创建一个虚拟环境是个好习惯：

conda create -n wan python=3.10

conda activate wan

2. 克隆项目

把 Wan2.1 的代码拉下来：

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

3. 安装依赖

依赖文件在 requirements.txt 里，但有些细节得注意：

打开 requirements.txt，先把这3行注释掉，避免安装出错：
# flash_attn
# torch>=2.4.0
# torchvision>=0.19.0

然后运行：
pip install -r requirements.txt

单独安装 Torch 和 Torchvision

如果你用的是 CUDA 12.6，可以这样：
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

对应上你自己本地cuda版本即可

4. 安装基于Windows的flash_attn，下载对应的cuda124 torch2.6 版本到当前目录

Windows 用户可以去  https://github.com/kingbri1/flash-attention/releases?page=2 下载适合的版本，比如我用的是 CUDA 12.4 + Torch 2.6 的轮子：

我本地电脑的cuda是12.6，但是高版本兼容低版本，没有问题

下载完，复制到当前文件目录安装即可

pip install flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl

5. 下载模型

用 ModelScope 下载 T2V-1.3B 模型：

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

6. 生成你的第一个视频

用官方示例跑一下试试：

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

生成后，你会在目录里找到一个 MP4 文件，打开看看效果吧！