在人工智能视频生成的领域,ComfyUI的PyramidFlow和Mochi两款模型一直是业界关注的焦点。而最近,快手开源了PyramidFlow模型,引发了与Mochi模型的新一轮比拼。那么,究竟哪一款模型更胜一筹呢?
PyramidFlow和Mochi的比拼
-
性能对比
PyramidFlow模型以其出色的性能在视频生成领域崭露头角。它可以在8G显存下,仅用10秒就能生成768P分辨率、24帧的视频,大大提高了视频生成的效率。而Mochi模型虽然在性能上也有优异的表现,但在相同条件下,生成同样分辨率的视频所需时间可能更长。 -
应用场景
PyramidFlow模型在快手等短视频平台上有着广泛的应用,能够快速生成各种类型的短视频内容,满足用户多样化的需求。而Mochi模型则更擅长于生成高质量的长视频,如电影、电视剧等。
Pyramid Flow简介
在之前的文章中介绍过最新文生视频模型:Mochi 1([ComfyUI]Mochi:可商用!迄今最大开源视频生成模型,100亿参数&高保真动作&高提示遵循),有同学反馈希望介绍下快手最新开源的Pyramid Flow视频模型,故此有了今天文章。首先Pyramid Flow视频模型是由 北京大学、北京邮电大学和快手科技共同研发的开源视频模型。是一个基于流匹配的高效自回归视频生成方法,采用了金字塔流匹配算法,优化了视频生成的效率和质量。这一算法将视频生成过程分解为多个阶段,每个阶段对应着不同的分辨率。仅通过训练开源数据集,就能生成高质量的 10 秒 768p 分辨率和 24 帧每秒的视频,并原生的支持提升视频方法。该模型在GPU 内存小于 8GB,也能使用,并且在多 GPU 上有显著加速。
另外,研发团队提到:现有的视频扩散模型在全分辨率下运行,花费大量计算资源在非常嘈杂的潜在变量上。与之相反,Pyramid Flow的方法利用流匹配的灵活性,在不同分辨率和噪声水平的潜在变量之间进行插值,允许同时生成和解压缩视觉内容,具有更好的计算效率。整个框架通过 单一的 DiT 进行端到端优化,生成高质量的 10 秒 768p 分辨率和 24 帧每秒的视频,仅需 20.7k A100 GPU 训练小时。
性能评估
官方称:在VBench性能评估上,Pyramid Flow方法超过了所有比较的开源基线。即使仅使用公共视频数据,它也达到了与商业模型如 Kling(Kuaishou, 2024)和 Gen-3 Alpha(Runway, 2024)相当的性能,特别是在质量得分(84.74 vs. Gen-3 的 84.11)和运动平滑度方面。在20多名用户参与的用户调查中,比 Open-Sora 和 CogVideoX-2B 等开源模型更受青睐,特别是在运动平滑度方面。
VBench性能评估:
用户偏好评估:
案例演示
01. 烧烤
Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours
02. 东京雪景
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls
03. 水下爆炸
A series of underwater explosions, creating bubbles and splashing water
Pyramid Flow ComfyUI体验
首先感谢社区大佬 @kijai 研发了ComfyUI插件ComfyUI-PyramidFlowWrapper 为 Pyramid-Flow 提供了一套易于使用的ComfyUI插件体系,可以更加容易的使用Pyramid-Flow模型进行图像生成和处理。无需下载模型,首次运行时候会自动下载。
-
• 插件地址:https://github.com/kijai/ComfyUI-PyramidFlowWrapper
-
• pyramid-flow-sd3:模型需放置目录ComfyUI/models/pyramidflow/pyramid-flow-sd3。https://huggingface.co/rain1011/pyramid-flow-sd3/tree/main
(不想自己下载的小伙伴这里整理好了相关模型插件安装包需要的同学可自行扫描获取)
Flux 文生图工作流
Pyramid Flow视频工作流
注意:除了使用使用文本编码器时可能会达到约 12GB VRAM 的峰值外,当使用 1280x768 分辨率时,整个流程应该在 9-10GB VRAM 范围内运行。使用 fp8 和 384p 模型时,甚至可以低于 6GB VRAM。
01. Flux文生图:小和尚
此处文生图采用Flux-绮梦流光-小和尚禅意世界观模型,详情参见:[ComfyUI]Flux:爆火禅语小和尚素材!禅意人生,享受自在
pl, A cartoonish image of a bald headed Asian boy sitting in the middle of the ground. He is wearing a white robe with a brown sash around his neck. His eyes are closed and his hands are clasped together in front of him in a meditating position. His head is turned to the side with his eyes closed. His ears are perked up and he has a slight smile on his face. The ground he is sitting on is covered in fallen orange leaves. Behind him is a tree with orange leaves on it.,
02. 文生视频:熊熊烈火
A campfire burning with flames and embers, gradually increasing in size and intensity before dying down towards the end, hyper quality, Ultra HD, 8K
03. 图生视频:小和尚打坐
人物未动,背景微微闪烁。
A young monk sat in meditation under an autumn tree, whispering and concentrating on his spiritual practice
04. Mochi VS PyramidFlow:小熊猫
nature video of a red panda eating bamboo in front of a waterfall
05. Mochi VS PyramidFlow:厨师
A slow-motion shot of a chef sprinkling spices over a sizzling dish in a kitchen. The camera captures the steam and aroma.
最后两个视频模型的比对结果一目了然,必究模型的weight和参数大小差距,这可能也存在模型内置训练数据因素影响。两者都是社区开源视频模型的最新里程碑代表,只有开源社区更多的视频模型竞争,AI视频领域发展则会更加迅速。
资料软件免费放送
次日同一发放请耐心等待
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!
需要的可以扫描下方CSDN官方认证二维码免费领取【保证100%免费】
**一、AIGC所有方向的学习路线**
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
这份完整版的学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】