AI视频王者归来-[ComfyUI]PyramidFlow:快手开源视频模型,与Mochi比拼谁更强?8G可运行10秒768P与24帧视频生成

在人工智能视频生成的领域,ComfyUI的PyramidFlow和Mochi两款模型一直是业界关注的焦点。而最近,快手开源了PyramidFlow模型,引发了与Mochi模型的新一轮比拼。那么,究竟哪一款模型更胜一筹呢?

在这里插入图片描述

PyramidFlow和Mochi的比拼

  1. 性能对比
    PyramidFlow模型以其出色的性能在视频生成领域崭露头角。它可以在8G显存下,仅用10秒就能生成768P分辨率、24帧的视频,大大提高了视频生成的效率。而Mochi模型虽然在性能上也有优异的表现,但在相同条件下,生成同样分辨率的视频所需时间可能更长。

  2. 应用场景
    PyramidFlow模型在快手等短视频平台上有着广泛的应用,能够快速生成各种类型的短视频内容,满足用户多样化的需求。而Mochi模型则更擅长于生成高质量的长视频,如电影、电视剧等。

Pyramid Flow简介

在之前的文章中介绍过最新文生视频模型:Mochi 1([ComfyUI]Mochi:可商用!迄今最大开源视频生成模型,100亿参数&高保真动作&高提示遵循),有同学反馈希望介绍下快手最新开源的Pyramid Flow视频模型,故此有了今天文章。首先Pyramid Flow视频模型是由 北京大学、北京邮电大学和快手科技共同研发的开源视频模型。是一个基于流匹配的高效自回归视频生成方法,采用了金字塔流匹配算法,优化了视频生成的效率和质量。这一算法将视频生成过程分解为多个阶段,每个阶段对应着不同的分辨率。仅通过训练开源数据集,就能生成高质量的 10 秒 768p 分辨率24 帧每秒的视频,并原生的支持提升视频方法。该模型在GPU 内存小于 8GB,也能使用,并且在多 GPU 上有显著加速。

另外,研发团队提到:现有的视频扩散模型在全分辨率下运行,花费大量计算资源在非常嘈杂的潜在变量上。与之相反,Pyramid Flow的方法利用流匹配的灵活性,在不同分辨率和噪声水平的潜在变量之间进行插值,允许同时生成和解压缩视觉内容,具有更好的计算效率。整个框架通过 单一的 DiT 进行端到端优化,生成高质量的 10 秒 768p 分辨率和 24 帧每秒的视频,仅需 20.7k A100 GPU 训练小时

性能评估

官方称:在VBench性能评估上,Pyramid Flow方法超过了所有比较的开源基线。即使仅使用公共视频数据,它也达到了与商业模型如 Kling(Kuaishou, 2024)和 Gen-3 Alpha(Runway, 2024)相当的性能,特别是在质量得分(84.74 vs. Gen-3 的 84.11)和运动平滑度方面。在20多名用户参与的用户调查中,比 Open-Sora 和 CogVideoX-2B 等开源模型更受青睐,特别是在运动平滑度方面。

VBench性能评估:

在这里插入图片描述

用户偏好评估

在这里插入图片描述

案例演示

01. 烧烤

Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours

在这里插入图片描述

02. 东京雪景

Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls
在这里插入图片描述

03. 水下爆炸

A series of underwater explosions, creating bubbles and splashing water

在这里插入图片描述

Pyramid Flow ComfyUI体验

首先感谢社区大佬 @kijai 研发了ComfyUI插件ComfyUI-PyramidFlowWrapperPyramid-Flow 提供了一套易于使用的ComfyUI插件体系,可以更加容易的使用Pyramid-Flow模型进行图像生成和处理。无需下载模型,首次运行时候会自动下载。

  • 插件地址:https://github.com/kijai/ComfyUI-PyramidFlowWrapper

  • pyramid-flow-sd3:模型需放置目录ComfyUI/models/pyramidflow/pyramid-flow-sd3。https://huggingface.co/rain1011/pyramid-flow-sd3/tree/main

(不想自己下载的小伙伴这里整理好了相关模型插件安装包需要的同学可自行扫描获取)

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Flux 文生图工作流

在这里插入图片描述

Pyramid Flow视频工作流

在这里插入图片描述

注意:除了使用使用文本编码器时可能会达到约 12GB VRAM 的峰值外,当使用 1280x768 分辨率时,整个流程应该在 9-10GB VRAM 范围内运行。使用 fp8 和 384p 模型时,甚至可以低于 6GB VRAM。

01. Flux文生图:小和尚

此处文生图采用Flux-绮梦流光-小和尚禅意世界观模型,详情参见:[ComfyUI]Flux:爆火禅语小和尚素材!禅意人生,享受自在

pl, A cartoonish image of a bald headed Asian boy sitting in the middle of the ground. He is wearing a white robe with a brown sash around his neck. His eyes are closed and his hands are clasped together in front of him in a meditating position. His head is turned to the side with his eyes closed. His ears are perked up and he has a slight smile on his face. The ground he is sitting on is covered in fallen orange leaves. Behind him is a tree with orange leaves on it.,

在这里插入图片描述

02. 文生视频:熊熊烈火

A campfire burning with flames and embers, gradually increasing in size and intensity before dying down towards the end, hyper quality, Ultra HD, 8K

在这里插入图片描述

03. 图生视频:小和尚打坐

人物未动,背景微微闪烁。

A young monk sat in meditation under an autumn tree, whispering and concentrating on his spiritual practice

在这里插入图片描述

04. Mochi VS PyramidFlow:小熊猫

nature video of a red panda eating bamboo in front of a waterfall

在这里插入图片描述

05. Mochi VS PyramidFlow:厨师

A slow-motion shot of a chef sprinkling spices over a sizzling dish in a kitchen. The camera captures the steam and aroma.

在这里插入图片描述

最后两个视频模型的比对结果一目了然,必究模型的weight和参数大小差距,这可能也存在模型内置训练数据因素影响。两者都是社区开源视频模型的最新里程碑代表,只有开源社区更多的视频模型竞争,AI视频领域发展则会更加迅速。

资料软件免费放送

次日同一发放请耐心等待

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

需要的可以扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

**一、AIGC所有方向的学习路线**

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
这份完整版的学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/905116.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vivo开奖了,劝退价。。

vivo 也开奖了,不过有小伙伴反馈是个劝退价,甚至不如隔壁的 oppo,要说这两家也是渊源颇深,一家是绿厂,一家是蓝厂,高管也都是早期步步高出来的。 给大家盘一下开奖的信息,方便大家横向做个对比&…

【C++】哈希表模拟:闭散列技术与哈希冲突处理

C语法相关知识点可以通过点击以下链接进行学习一起加油!命名空间缺省参数与函数重载C相关特性类和对象-上篇类和对象-中篇类和对象-下篇日期类C/C内存管理模板初阶String使用String模拟实现Vector使用及其模拟实现List使用及其模拟实现容器适配器Stack与QueuePriori…

SketchUp 云渲染—助力您的渲染

目前市面上的渲染平台有很多,但是能支持SketchUp云渲染的特别少,大部分云渲染是还是不支持的,今天就给大家介绍国内支持Sketchup渲染的云渲染——【渲染101】云渲染的使用方法。 1、官网下载最新的客户端并且安装。 2、登录客户端配置好对应…

栈和队列(2)——队列

队列的基本概念 1. 队列定义:只允许在一端进行插入,在另一端进行删除的线性表。 2. 队列特点:先进先出(FIFO)。 3. 队列基本操作:初始化队列、销毁队列、入队、出队、读队头元素、判队列空等。 InitQueue…

凭什么你说不是就不是-zzj杯·UMLChina建模答题赛第6赛季第2轮

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 参考潘加宇在《软件方法》和UMLChina公众号文章中发表的内容作答。在本文下留言回答。 只要最先答对前3题,即可获得本轮优胜。 如果有第4题,第4题为附加题&am…

【hacker送书第14期】AI训练师算法与模型训练从入门到精通

全面精通人工智能训练,成为行业领先、更懂AI的人! 前言内容简介总结参与方式 前言 在人工智能(AI)技术日益成熟的今天,AI训练师成为了一个新兴且重要的职业。他们不仅需要掌握AI的核心技术,还要能够将这些…

一文详细讲解进销存系统(附架构图、流程、功能介绍)

企业经营的七大要素是“人、财、物、产、供、销、存”,进销存管理就占到了其中的多项。然而,许多企业在进销存管理方面面临着诸多痛点问题,例如库存管理混乱、采购销售流程不清晰、数据不准确等。这些问题不仅影响企业的运营效率,…

如何在Python爬虫等程序中设置和调用http代理

在Python爬虫中为了更好地绕过反爬机制,获取网页信息,有时可能需要在Python中应用代理服务,这样做的目的就是防止自己的ip被服务器封禁,造成程序运行时中断连接,那么如何在python中设置代理呢? 我们通过几个…

2024年【浙江省安全员-C证】试题及解析及浙江省安全员-C证复审考试

题库来源:安全生产模拟考试一点通公众号小程序 2024年【浙江省安全员-C证】试题及解析及浙江省安全员-C证复审考试,包含浙江省安全员-C证试题及解析答案和解析及浙江省安全员-C证复审考试练习。安全生产模拟考试一点通结合国家浙江省安全员-C证考试最新…

8、Node.js Express框架

五、Express框架 5.1概念 Express框架是一个基于Node.js平台的极简、灵活的WEB开发框架:www.express.com.cn 简单来说,Express是一个封装好的工具包,封装了很多功能,便于我们开发WEB应用 5.2安装 npm i express5.3 Express初体验 //01-express初体验.js //1.导入exrp…

Python(包和模块)

包 定义 包是将模块以文件夹的组织形式进行分组管理的方法,以便更好地组织和管理相关模块。 包是一个包含一个特殊的__init__.py文件的目录,这个文件可以为空,但必须存在,以标识目录为Python包。 包可以包含子包(子…

万方数据库功能亮点介绍及个人下载万方论文的方法

一、万方数据库介绍 万方数据知识服务平台是北京万方数据股份有限公司主要产品之一。该平台整合数亿条全球优质学术资源,集成期刊、学位、会议、标准、专利等十余种资源类型、品质知识资源、先进的发现技术、人性化设计于一身,是国内一流的品质知识资源…

18 实战:基于Tkinter和OpenCV的视频编码器:实现MPEG4矩形帧编码器

引言 在视频处理领域,视频编码器的设计与实现一直是研究的热点。本文将深入解析一段基于Python的代码,该代码利用Tkinter、OpenCV和NumPy库构建了一个MPEG4矩形帧编码器的图形用户界面(GUI)。通过详尽的代码讲解,帮助读者全面理解视频编码的基本原理及其在实际应用中的实…

12-Docker发布微服务

12-Docker发布微服务 Docker发布微服务 搭建SpringBoot项目 新建一个SpringBoot项目 选择依赖项Spring Web和Spring Boot Actuator 在com.qi.docker_boot下创建controller目录,并在该目录下创建OrderController的java类 OrderControllerjava类的内容如下&#xf…

【IEEE出版|:IEEE Xplore,EI Compendex,Scopus检索|征稿正在进行中!】

第七届机械工程与智能制造国际会议(WCMEIM 2024) 2024 7th World Conference on Mechanical Engineering and Intelligent Manufacturing 【会议信息】 会议日期:2024年11月15-17日 会议地点:中国武汉(武汉纺织大学…

如何成为开源代码库Dify的contributor:解决issue并提交PR

前言 Dify 是一个开源的大语言模型(LLM)应用开发平台,它融合了后端即服务(Backend as Service)和LLMOps的理念,旨在简化和加速生成式AI应用的创建和部署。Dify提供了一个用户友好的界面和一系列强大的工具…

前端如何安全存储密钥,防止信息泄露

场景 把公钥硬编码在前端代码文件里,被公司安全检测到了要整改,于是整理几种常见的前端密钥存储方案。 1. 设置环境变量再读取 在打包或部署前端应用时,可以将密钥配置为环境变量,在应用运行时通过环境变量读取密钥。这样可以将密…

深入了解 Three.js 中的材质与光照

开发领域:前端开发 | AI 应用 | Web3D | 元宇宙 技术栈:JavaScript、React、ThreeJs、WebGL、Go 经验经验:6年 前端开发经验,专注于图形渲染和AI技术 开源项目:github 晓智元宇宙、数字孪生引擎、前端面试题 大家好&am…

【Linux】网络基础常识{OSI七层模型 TCPIP 端口号 各种协议}_哪种nat类型适用于多个内部设备共享有限的公共ip地址

文章目录 1.网络常识 1.0DHCP协议1. 1IP地址/MAC地址/ARP协议是什么? IP/MACARP:IP ⇒ MAC 1.2手机连接wifi的原理 SSID与BSSID 手机连接wifiSSID与BSSID 1.3手机如何通过“数据/流量”上网?1.4电脑连接wifi的原理?电脑通过热点…

uniapp使用uni-push模拟推送

uniapp使用uni-push模拟推送 第一步先去uniapp开发者中心添加开通uni-push功能 这里的Android 应用签名可以先用测试的官网有,可以先用这个测试 官方测试链接文档地址 在项目中的配置文件勾选 组件中使用 如果要实时可以去做全局ws //消息推送模版uni.createPushMessage(…