从家用显卡到AI文生视频——Wan2.1本地部署教程与一键包分享

今天要聊一聊AI文生视频的最新进展。一直以来,AI生成视频对硬件的要求都让人望而却步,尤其是家用显卡,总是感觉“心有余而力不足”。

AI文生视频以前 基本需要的显存大概几十上百G

但最近,阿里开源的 Wan2.1 彻底改变了这一局面!它不仅让普通消费级GPU也能轻松生成视频,还能在短短10分钟左右搞定一段480P的视频。这让我这个技术爱好者忍不住想跟大家分享一下它的魅力,顺便奉上 离线一键包本地部署教程,让你零门槛上手!

我生成猫猫打拳

我生成怪兽打奥特曼(这个指定是失败作品)

最新动态:Wan2.1强势来袭

就在几天前,2025年3月3日,Wan2.1迎来了一次大更新:它的 T2V(文本转视频)I2V(图像转视频) 功能正式集成到了 Diffusers 框架中(T2V | I2V)。这意味着你可以用更简洁的方式调用它,社区支持也更丰富了。如果你还没试过,现在正是时候!

Wan2.1是什么?为什么这么火?

Wan2.1 是由阿里团队打造的一款开源大型视频生成模型,基于目前最流行的 扩散变换器(Diffusion Transformer) 技术。它通过一系列创新,比如独特的 时空变分自编码器(Wan-VAE)、高效的训练策略和海量数据处理,硬是把视频生成能力推到了一个新高度。简单来说,它不仅性能炸裂,还特别“亲民”,让家用显卡也能玩得转。

核心亮点
  • SOTA 性能Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
  • 支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。它可在约 4 分钟内(未使用量化等优化技术)在 RTX 4090 上生成 5 秒的 480P 视频。其性能甚至可与一些闭源模型相媲美。
  • 多项任务Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色,推动了视频生成领域的发展。
  • 视觉文本生成Wan2.1是第一个能够生成中英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。
  • 强大的视频 VAEWan-VAE提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。

技术细节揭秘

  • 3D因果VAE(Wan-VAE)
    Wan团队设计了一种全新的架构,通过时空压缩和优化内存使用,让视频生成既高效又稳定。相比其他开源VAE,它的性能提升不是一点半点。
  • 视频扩散DiT
    Wan2.1 用的是 Flow Matching 框架,搭配 T5 编码器处理多语言输入,再加上跨注意力机制和共享MLP调制参数,硬生生把生成质量拉到了新高度。
  • 与顶尖模型的较量
    他们用1035个内部测试提示,覆盖14个大维度和26个子维度,做了全面对比。结果显示,Wan2.1 不管是开源还是闭源对手,都能稳稳胜出。

本地部署教程:手把手教你玩转 Wan2.1

好了,废话不多说,直接上干货!以下是我整理的本地部署步骤,简单易懂,保证你能快速上手。

1. 准备环境

首先,我们得搭个干净的运行环境,用 Conda 创建一个虚拟环境是个好习惯:

conda create -n wan python=3.10

conda activate wan

2. 克隆项目

把 Wan2.1 的代码拉下来:

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

3. 安装依赖

依赖文件在 requirements.txt 里,但有些细节得注意:

打开 requirements.txt,先把这3行注释掉,避免安装出错:
# flash_attn
# torch>=2.4.0
# torchvision>=0.19.0


然后运行:
pip install -r requirements.txt


单独安装 Torch 和 Torchvision

如果你用的是 CUDA 12.6,可以这样:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

对应上你自己本地cuda版本即可

4. 安装基于Windows的flash_attn,下载对应的cuda124 torch2.6 版本 到当前目录
Windows 用户可以去  https://github.com/kingbri1/flash-attention/releases?page=2 下载适合的版本,比如我用的是 CUDA 12.4 + Torch 2.6 的轮子:

我本地电脑的cuda是12.6,但是高版本兼容低版本,没有问题

下载完,复制到当前文件目录安装即可

pip install flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl

5. 下载模型

用 ModelScope 下载 T2V-1.3B 模型:

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

6. 生成你的第一个视频

用官方示例跑一下试试:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

生成后,你会在目录里找到一个 MP4 文件,打开看看效果吧!

7. 启动 Gradio 界面

想更方便地操作?试试 Gradio 的本地界面:

这里顺便启动qwen模型的API接口,丰富提示词

阿里云百炼API申请地址

https://bailian.console.aliyun.com/?spm=a2c4g.11186623.0.0.266b4823b4SU8P#/model-market

cd gradio

Windows: 

set DASH_API_KEY=sk-xxxxxxxxx

python t2v_1.3B_singleGPU.py --prompt_extend_method dashscope --ckpt_dir ./Wan2.1-T2V-1.3B

Linux: 

DASH_API_KEY=your_key python t2v_1.3B_singleGPU.py --prompt_extend_method dashscope --ckpt_dir ./Wan2.1-T2V-1.3B

一键启动包:懒人福音

为了让大家少折腾,我还准备了一个 一键启动包,直接解压运行就能用。

英伟达显卡30系及以上的的显卡,8G及以上。显卡不好还是不要尝试了。

如果需要丰富提示词的,就去申请,申请后填入文本即可。

类似这样的 

sk-xxxxxxxxxxxx

申请地址

阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台

一键包获取方式:

底部公众号名片扫码关注

发送: wan

也可以丢给AI去丰富提示词,那就不用管他。直接一键启动即可

几个关键参数说明一下:

  • frame_num(默认81):控制视频帧数,必须是 4n+1 的形式。帧数多视频就长,但生成时间也增加。
  • shift(默认5.0):调整噪声调度,影响动态效果。调小点会更平滑,调大点动态更明显。
  • sample_solver(默认'unipc'):采样算法,unipc 又快又好,其他选项像 ddim 也可以试试。
  • sampling_steps(默认50):去噪步数,越多质量越好,但也越慢。
  • guide_scale(默认5.0):控制提示词的严格程度,值越大越贴近描述。
如果启动报错,尤其是显卡不支持 FlashAttention

提示RuntimeError: FlashAttention only supports Ampere GPUs or newer

那就是

 GTX 10xx/20xx 等较旧的 GPU 不适用于此版本的 FlashAttention,那只能另找途径,或者去万人同骑的huggingface和modelscope官网玩儿。

在线体验:

https://huggingface.co/spaces/Wan-AI/Wan2.1

魔搭社区

AI文生视频的“江湖”现状

Wan2.1 这么强,你觉得 它在AI文生视频领域算老几?

  1. Sora (OpenAI)
    高质量、电影感强,但目前门槛高,普通人摸不到。
  2. Pika Labs
    易用又灵活,社区口碑好,适合个人创作者。
  3. Vidu (清华大学)
    国产黑马,长视频和高动态性很强,中文用户福音。
  4. 智谱清言 (CogVideoX)
    高清快生成,专业玩家首选,但硬件要求不低。
  5. Runway Gen-2
    多功能创意工具,设计圈的宠儿。
  6. 快手可灵
    短视频利器,接地气又好上手,社交媒体创作者的最爱。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/982994.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Facebook营销自动化—— Python脚本 + 代理IP实现内容高效分发

目录 1. 引言:内容分发与Facebook营销的现状与痛点 2. 环境搭建与前期准备 2.1 开发环境与工具选择 2.2 获取代理IP 2.3 Facebook账号与开发者平台配置 3. Facebook内容分发的基本流程与策略 3.1 内容规划与策略制定 3.2 内容分发方式选择 3.3 风控与风险防…

TypeError: JSON.stringify cannot serialize cyclic structures

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

Manus邀请码申请与获取全攻略

大家好,我是吾鳴。 之前吾鳴给大家分享过一篇Manus的介绍文章——《全网疯抢邀请码的Manus到底是个啥?看完这篇你就懂了!》,介绍了Manus是什么、与DeepSeek有些什么区别、生活中的应用场景以及工作中的应用场景。 今天吾鳴给大家分…

c++实现最大公因数和最小公倍数

最大公因数和最小公倍数的介绍 读这篇文章,请你先对最大公因数以及最小公倍数进行了解: 最大公因数(英文名:gcd) 定义:最大公因数,也称最大公约数,指两个或多个整数共有约数&…

Jetpack Compose — 入门实践

一、项目中使用 Jetpack Compose 从此节开始,为方便起见,如无特殊说明,Compose 均指代 Jetpack Compose。 开发工具: Android Studio 1.1 创建支持 Compose 新应用 新版 Android Studio 默认创建新项目即为 Compose 项目。 注意:在 Language 下拉菜单中,Kotlin 是唯一可…

PAM4信号技术

概述 PAM4(4-Level Pulse Amplitude Modulation)是一种四电平脉冲幅度调制技术,广泛应用于高速数据传输,特别是在100Gbps及以上的通信系统中。与传统的NRZ(Non-Return-to-Zero)相比,PAM4通过在每个符号周期内传输2个比特的信息,显著提升了数据传输效率。随着5G网络的发…

Visual Studio 2022新建c语言项目的详细步骤

步骤1:点击创建新项目 步骤2:到了项目模板 --> 选择“控制台应用” (在window终端运行代码。默认打印"Hello World") --> 点击 “下一步” 步骤3:到了配置新项目模块 --> 输入“项目名称” --> 更改“位置”路径&…

【UCB CS 61B SP24】 Lecture 25 26 - Minimum Spanning Trees 学习笔记

本文介绍了图论中的另一个经典问题:最小生成树(MST),讲解并用 Java 实现了用于求解 MST 的两个经典算法 Prim 与 Kruskal。 1. 最小生成树介绍 最小生成树(Minimum Spanning Tree,MST)是图论中…

“此电脑”中删除WPS云盘方法(百度网盘通用)

📣此方法适用于卸载WPS云盘后,WPS云盘图标依然在此电脑中显示的问题。 原理:通过注册来进行删除 步骤: WIN键R,打开运行窗口,输入regedit命令,来打开【注册表编辑器】; 从左侧,依…

鸿蒙跨平台框架ArkUI-X

01 引言 目前,移动端主流跨平台方案有Flutter、React Native、uni-app等等,还有刚推出不久的Compose-Multiplatform,真所谓是百花齐放。这些框架各有特点,技术实现各有差异,比如Flutter通过Dart编写的UI描述对接Flutte…

关于更新字段为空值——MybatisPlus框架

背景:我们在项目开发过程中,可能会经常遇到这样的问题,某个前端的字段,用户把原本有值的改为空值了,用户的意愿肯定是要去更新的,前端此时会把这个字段传"null"或空字符串,但我们后端…

CherryStudio调用DeepSeek API实现AI对话

目录 一、CherryStudio是什么?二、下载安装CherryStudio三、调用DeepSeek API(以华为云为例)1.新建服务模型2.获取API Key和API 地址3.添加模型检查连接 四、体验刚建立成功的deepseek五、总结 一、CherryStudio是什么? CherrySt…

夜莺监控 v8.0 新版通知规则 | 对接钉钉告警

对新版本通知规则还不太了解的用户可以阅读文章:《夜莺监控巨大革新:抽象出通知规则,增强告警通知的灵活性》。下面我们将以钉钉通知为例,介绍如何使用新版通知规则来对接钉钉通知。 上图是通知规则对接钉钉通知的示意逻辑图。 在…

pycharm找不到conda可执行文件

conda 24.9.2 在pycharm的右下角就可以切换python解释器了

第六课:数据库集成:MongoDB与Mongoose技术应用

本文详细介绍了如何在Node.js应用程序中集成MongoDB数据库,并使用Mongoose库进行数据操作。我们将涵盖MongoDB在Ubuntu 20系统中的安装、Bash命令的CRUD操作、Mongoose数据建模(Schema/Model)、关联查询与聚合管道,以及实战案例—…

小谈java内存马

基础知识 (代码功底不好,就找ai优化了一下) Java内存马是一种利用Java虚拟机(JVM)动态特性(如类加载机制、反射技术等)在内存中注入恶意代码的攻击手段。它不需要在磁盘上写入文件&#xff0c…

Swift系列01-Swift语言基本原理与设计哲学

本文将深入探讨Swift的核心原理、设计理念以及与Objective-C的对比 1. Swift与Objective-C的架构差异分析 Swift和Objective-C尽管可以无缝协作,但它们的架构设计存在本质差异。 1.1语言范式 Objective-C是一种动态语言,建立在C语言之上并添加了Smal…

解决:Word 保存文档失败,重启电脑后,Word 在试图打开文件时遇到错误

杀千刀的微软,设计的 Word 是个几把,用 LaTex 写完公式,然后保存,卡的飞起 我看文档卡了很久,就关闭文档,然后 TMD 脑抽了重启电脑 重启之后,文档打不开了,显示 杀千刀的&#xff…

把握好自己的节奏, 别让世界成为你的发条匠

我见过凌晨两点还在回复工作群消息的职场妈妈,也见过凌晨三点抱着手机刷短视频的年轻人。 地铁站台的上班族永远在狂奔,连刚会走路的小孩都被早教班塞满了日程表。 现如今生活节奏快,像一只巨大的发条,每个人都被拧得紧紧的&#…

大型语言模型训练的三个阶段:Pre-Train、Instruction Fine-tuning、RLHF (PPO / DPO / GRPO)

前言 如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。 当前的大型语言模型训练大致可以分为如下三个阶段: Pre-train:根据大量可获得的文本资料&#…