AI视频王者归来-[ComfyUI]PyramidFlow：快手开源视频模型，与Mochi比拼谁更强？8G可运行10秒768P与24帧视频生成

在人工智能视频生成的领域，ComfyUI的PyramidFlow和Mochi两款模型一直是业界关注的焦点。而最近，快手开源了PyramidFlow模型，引发了与Mochi模型的新一轮比拼。那么，究竟哪一款模型更胜一筹呢？

在这里插入图片描述

PyramidFlow和Mochi的比拼

性能对比
PyramidFlow模型以其出色的性能在视频生成领域崭露头角。它可以在8G显存下，仅用10秒就能生成768P分辨率、24帧的视频，大大提高了视频生成的效率。而Mochi模型虽然在性能上也有优异的表现，但在相同条件下，生成同样分辨率的视频所需时间可能更长。
应用场景
PyramidFlow模型在快手等短视频平台上有着广泛的应用，能够快速生成各种类型的短视频内容，满足用户多样化的需求。而Mochi模型则更擅长于生成高质量的长视频，如电影、电视剧等。

Pyramid Flow简介

在之前的文章中介绍过最新文生视频模型：Mochi 1([ComfyUI]Mochi：可商用！迄今最大开源视频生成模型，100亿参数&高保真动作&高提示遵循)，有同学反馈希望介绍下快手最新开源的Pyramid Flow视频模型，故此有了今天文章。首先Pyramid Flow视频模型是由北京大学、北京邮电大学和快手科技共同研发的开源视频模型。是一个基于流匹配的高效自回归视频生成方法，采用了金字塔流匹配算法，优化了视频生成的效率和质量。这一算法将视频生成过程分解为多个阶段，每个阶段对应着不同的分辨率。仅通过训练开源数据集，就能生成高质量的 10 秒 768p 分辨率和 24 帧每秒的视频，并原生的支持提升视频方法。该模型在GPU 内存小于 8GB，也能使用，并且在多 GPU 上有显著加速。

另外，研发团队提到：现有的视频扩散模型在全分辨率下运行，花费大量计算资源在非常嘈杂的潜在变量上。与之相反，Pyramid Flow的方法利用流匹配的灵活性，在不同分辨率和噪声水平的潜在变量之间进行插值，允许同时生成和解压缩视觉内容，具有更好的计算效率。整个框架通过 单一的 DiT 进行端到端优化，生成高质量的 10 秒 768p 分辨率和 24 帧每秒的视频，仅需 20.7k A100 GPU 训练小时。

性能评估

官方称：在VBench性能评估上，Pyramid Flow方法超过了所有比较的开源基线。即使仅使用公共视频数据，它也达到了与商业模型如 Kling（Kuaishou, 2024）和 Gen-3 Alpha（Runway, 2024）相当的性能，特别是在质量得分（84.74 vs. Gen-3 的 84.11）和运动平滑度方面。在20多名用户参与的用户调查中，比 Open-Sora 和 CogVideoX-2B 等开源模型更受青睐，特别是在运动平滑度方面。

VBench性能评估:

在这里插入图片描述

用户偏好评估：

在这里插入图片描述

案例演示

01. 烧烤

Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours

在这里插入图片描述

02. 东京雪景

Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls

03. 水下爆炸

A series of underwater explosions, creating bubbles and splashing water

在这里插入图片描述

Pyramid Flow ComfyUI体验

首先感谢社区大佬 @kijai 研发了ComfyUI插件ComfyUI-PyramidFlowWrapper 为 Pyramid-Flow 提供了一套易于使用的ComfyUI插件体系，可以更加容易的使用Pyramid-Flow模型进行图像生成和处理。无需下载模型，首次运行时候会自动下载。

• 插件地址：https://github.com/kijai/ComfyUI-PyramidFlowWrapper
• pyramid-flow-sd3：模型需放置目录ComfyUI/models/pyramidflow/pyramid-flow-sd3。https://huggingface.co/rain1011/pyramid-flow-sd3/tree/main

(不想自己下载的小伙伴这里整理好了相关模型插件安装包需要的同学可自行扫描获取)

在这里插入图片描述

Flux 文生图工作流

在这里插入图片描述

Pyramid Flow视频工作流

在这里插入图片描述

注意：除了使用使用文本编码器时可能会达到约 12GB VRAM 的峰值外，当使用 1280x768 分辨率时，整个流程应该在 9-10GB VRAM 范围内运行。使用 fp8 和 384p 模型时，甚至可以低于 6GB VRAM。

01. Flux文生图：小和尚

此处文生图采用Flux-绮梦流光-小和尚禅意世界观模型，详情参见：[ComfyUI]Flux：爆火禅语小和尚素材！禅意人生，享受自在

pl, A cartoonish image of a bald headed Asian boy sitting in the middle of the ground. He is wearing a white robe with a brown sash around his neck. His eyes are closed and his hands are clasped together in front of him in a meditating position. His head is turned to the side with his eyes closed. His ears are perked up and he has a slight smile on his face. The ground he is sitting on is covered in fallen orange leaves. Behind him is a tree with orange leaves on it.,

在这里插入图片描述