Pyramidal Flow使用指南:快手、北大、北邮,开源可免费商用视频生成模型,快速上手教程

什么是 Pyramidal Flow?

Pyramidal Flow 是由快手科技、北京大学和北京邮电大学联合推出的开源视频生成模型,它是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。该模型能够通过文本描述生成最高10秒、分辨率为1280x768、帧率24帧的视频。其核心技术是金字塔流匹配算法,将视频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量。

功能特色

    1. 文本到视频生成:用户可以输入文本提示,模型生成与描述相符的视频内容。
    2. 高分辨率输出:支持生成高达768p分辨率的视频。
    3. 自回归视频生成:支持连续帧生成,确保视频的连贯性和流畅度。
    4. 端到端优化:在统一框架内进行优化,简化训练和部署。
    5. 高效生成:采用流匹配技术,降低计算复杂度。

Pyramidal Flow 与其他视频生成模型的不同之处

  1. 金字塔流匹配技术
    • Pyramidal Flow 采用了一种名为金字塔流匹配的技术,将视频生成分解为多个不同分辨率的阶段,开始时生成低分辨率的草图,然后逐步提升到高分辨率。这种技术降低了计算负担,同时提高了生成的灵活性。
  2. 自回归框架和块状因果注意力机制
    • 模型利用自回归框架和块状因果注意力机制,确保视频的连贯性和逻辑性。每一帧都能基于之前的帧进行生成,提高了生成视频的质量和一致性。
  3. 高效训练与计算资源
    • Pyramidal Flow 在 A100 GPU 上仅经过了 20,700 小时的训练,能耗和效率远超市面上的同类模型。这对于没有庞大算力的中小企业和个人开发者来说,是一个巨大的助力。
  4. 开源性质
    • Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。这使得它非常适合开发者和内容创作者使用,尤其是希望避免高额订阅费用的用户。
  5. 高质量视频生成
    • 在官方的 VBench 基准测试中,Pyramidal Flow 的总评分为 81.72,与众多商业模型并驾齐驱。尽管在动态流畅度和画面稳定性方面略低于某些商业模型,但其质量非常接近于商业模型。
  6. 硬件要求
    • 由于模型基于大型 Transformer 架构,运行时对硬件要求较高。运行 768p 视频生成时需要 40GB 显存,384p 视频生成则需要 26GB 显存。

定价信息

Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。

如何使用

Pyramidal Flow 已在 Hugging Face 平台上线,用户可以通过以下方式使用:

  • Pyramid Flow项目官网 | MeoAI
  • Pyramid Flow在线体验demo
  • Pyramid Flow论文地址
  • GitHub代码:;
  • Hugging Face模型下载
  • ComfyUI 插件:通过安装插件在 ComfyUI 中使用。

使用 Pyramidal Flow 模型的详细步骤

在本地环境中使用 Pyramidal Flow 模型来生成视频。这涉及到在本地机器上安装必要的软件、下载模型、运行模型生成视频等操作。这种方法适用于那些希望在本地机器上直接运行模型、进行实验或者开发应用的用户。

安装

首先,你需要克隆 Pyramidal Flow 的官方 GitHub 仓库,并按照说明创建一个新的 conda 环境,并安装必要的依赖项

# 克隆 Pyramidal Flow 的 GitHub 仓库
git clone https://github.com/jy0205/Pyramid-Flow
cd Pyramid-Flow

# 创建一个新的 conda 环境,并安装 Python 3.8.10
conda create -n pyramid python==3.8.10

# 激活新创建的环境
conda activate pyramid

# 安装所需的 Python 库
pip install -r requirements.txt
下载模型

从 Huggingface 模型库下载预训练模型:

# 从 Huggingface 模型库下载预训练模型
from huggingface_hub import snapshot_download
model_path = 'PATH'   # 本地保存下载的检查点路径
snapshot_download("rain1011/pyramid-flow-sd3", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')
使用模型生成视频

加载下载的模型,并使用提供的文本提示生成视频:

import torch
from PIL import Image
from pyramid_dit import PyramidDiTForVideoGeneration
from diffusers.utils import load_image, export_to_video

# 设置 CUDA 设备
torch.cuda.set_device(0)

# 初始化模型
更多代码内容访问教程地址:https://www.meoai.net/pyramidal-flow.html

# 定义文本提示
prompt = "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors"

# 使用模型生成视频
更多代码内容访问教程地址

# 将生成的帧导出为视频文件
更多代码内容访问教程地址
使用技巧
  • guidance_scale 参数控制视觉质量,建议对 768p 检查点使用 [7, 9] 以内的指导。
  • video_guidance_scale 参数用于控制运动,数值越大,动态程度越高。

Pyramidal Flow 模型的训练数据

Pyramidal Flow 模型的训练数据来源主要是开源数据集。具体来说,模型在训练过程中使用了以下数据集:

  1. LAION-5B:这是一个用于多模态AI研究的大型数据集。
  2. CC-12M:由网络爬虫收集的图像文本对的数据集。
  3. SA-1B:一个具有高质量、无模糊图像的数据集。
  4. WebVid-10M 和 OpenVid-1M:这两个数据集被广泛用于文本到视频生成的视频数据集。

Pyramidal Flow 模型在训练时仅使用了开源数据集,总计使用了 20,700 小时的 A100 GPU 计算资源。这种开源的训练数据策略使得模型可以供广大开发者和研究者免费使用,并便于进行进一步的研究和开发。

适用场景

  1. 娱乐和社交媒体:用于生成有趣的视频内容,适合在社交平台分享。
  2. 电影和电视制作:生成特定场景或背景,降低实际拍摄成本。
  3. 游戏开发:生成游戏内动画和视频内容,提高设计效率。
  4. 广告和营销:快速生成吸引人的广告视频。
  5. 教育和培训:生成教学视频,帮助解释复杂概念。

Pyramidal Flow 提供了高效、灵活的视频生成解决方案,适合开发者、艺术家和创作者使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/900865.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

铜业机器人剥片 - SNK施努卡

SNK施努卡有色行业电解车间铜业机器人剥片 铜业机器人剥片技术是针对传统人工剥片效率低下、工作环境恶劣及生产质量不稳定的痛点而发展起来的自动化解决方案。 面临人工剥片的诸多挑战,包括低效率、工作环境差、人员流动大以及产品质量控制不精确等问题。 人工剥片…

Idea基于JRbel实现项目热部署修改Java、Xml文件无需重启项目

Idea基于JRbel实现项目热部署修改Java、Xml文件无需重启项目 1.JRbel服务安装2.JRbel插件安装3.JRbel配置 1.JRbel服务安装 直接装插件的话,需要用到一个服务地址,服务下载链接:(现在没时间搞,会尽快加上)…

合合信息亮相PRCV大会,探讨生成式AI时代的内容安全与系统构建加速

一、前言 在人工智能技术的飞速发展下,生成式AI已经成为推动社会进步的重要力量。然而,随着技术的不断进步,内容安全问题也日益凸显。如何确保在享受AI带来的便利的同时,保障信息的真实性和安全性,已经成为整个行业待解…

Jmeter自动化实战

前言 由于系统业务流程很复杂,在不同的阶段需要不同的数据,且数据无法重复使用,每次造新的数据特别繁琐,故想着能不能使用jmeter一键造数据 创建录制模板 录制模板参考 首先创建一个录制模板 因为会有各种请求头,cookies,签名,认证信息等原因,导致手动复制粘贴的的全面导致接…

Flutter TextField和Button组件开发登录页面案例

In this section, we’ll go through building a basic login screen using the Button and TextField widgets. We’ll follow a step-bystep approach, allowing you to code along and understand each part of the process. Let’s get started! 在本节中,我们…

NVIDIA发布Nemotron-70B-Instruct,超越GPT-4o和Claude 3.5的AI模型

一、Nemotron-70B-Instruct 是什么 Nemotron-70B-Instruct 是由 NVIDIA 基于 Meta 的 Llama 3.1-70B 模型开发的先进大语言模型(LLM)。该模型采用了新颖的神经架构搜索(Neural Architecture Search,NAS)方法和知识蒸馏…

【华为HCIP实战课程二十】OSPF特殊区域NSSA配置详解,网络工程师

一、NSSA(Not So Stubby Area)区域 在NSSA区域内可以拥有ASBR,并且重分发进入OSPF的路由是以7类LSA形式存在,该类型的LSA只能存在于NSSA区域内不接收5类LSA,ABR过滤外部进入该区域的4 5类LSA,可以引入外部…

题解 力扣 LeetCode 739 每日温度 C++

题目传送门: 739. 每日温度 - 力扣(LeetCode)https://leetcode.cn/problems/daily-temperatures/description/ 思路: 就是单调栈的思路,具体见代码 不知道单调栈的,可以看我的这篇文章: 数…

web3对象如何连接以太网络节点

实例化web3对象 当我们实例化web3对象,我们一般开始用本地址,如下 import Web3 from web3 var web3 new Web3(Web3.givenProvider || ws://localhost:5173)我们要和以太网进行交互,所以我们要将’ws://localhost:5173’的本地地址换成以太…

【Linux学习】(6)编译器gcc/g++

前言 本节重点:掌握gcc/g编译器的使用,并了解其过程,原理 一、Linux编译器-gcc/g使用 1. gcc/g的基本使用 在前面我们学习了vim,知道如何在Linux中编写代码。但又是如何编译代码的?——在Linux中我们编译代码使用的是…

UDP(用户数据报协议)端口监控

随着网络的扩展,确保高效的设备通信对于优化网络功能变得越来越重要。在这个过程中,端口发挥着重要作用,它是实现外部设备集成的物理连接器。通过实现数据的无缝传输和交互,端口为网络基础设施的顺畅运行提供了保障。端口使数据通…

Linux中安装配置SQLite3,并实现C语言与SQLite3的交互。

前言 SQLite 是一个软件库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是在世界上最广泛部署的 SQL 数据库引擎。本次实验介绍在Linux上实现C语言和SQLite3的交互,利用C语言编写相关语句,连接数据库、操作数…

【数据结构初阶】二叉树---堆

二叉树-堆的实现 一、树的概念(什么是树)二、二叉树的概念及结构2.1 二叉树的概念2.2 二叉树的性质2.3 二叉树存储结构 三、二叉树的顺序结构3.1 堆的概念及结构3.2 堆的向下调整算法3.3堆的创建 四、堆的代码实现4.1 堆的初始化4.2 堆的销毁4.3 堆的插入…

如何从iconfont中获取字体图标并应用到微信小程序中去?

下面我们一一个微信小程序的登录界面的制作为例来说明,如何从iconfont中获取字体图标是如何应用到微信小程序中去的。首先我们看效果。 这里所有的图标,都是从iconfont中以字体的形式来加载的,也就是说,我们自始至终没有使用一张…

jenkins 自动化部署Springboot 项目

一、安装docker 1.更新yum命令 yum -y update2.查看机器有残留的docker服务,有就卸载干净 查看docker 服务 rpm -qa |grep docker卸载docker sudo yum remove docker-ce docker-ce-cli containerd.io sudo rm -rf /var/lib/docker sudo rm -rf /var/lib/contai…

linux下的进程等待(wait、waitpid)

目录 引言 进程等待的必要性 见见猪跑:是什么 怎么办 多个子进程时 阻塞等待 非阻塞轮询 参数一: 参数二 进程等待的原理 进程退出相关的宏 第三个参数option(设置等待的方式) 引言 在Linux操作系统中,进程…

Jmeter实际应用

环境准备 JDK1.8Jmeter 5.6.3 下载地址Jmeter 插件 下载地址 放到lib/ext下 常用命令 # 启动 sh jmeter# 集群模式下启动节点,不启动用不了集群 sh jmeter-server#生成ssl需要的证书, 这里会要求输入个密码,是要在jmeter中用的 keytool -import -ali…

Claude Financial Data Analyst:基于Claude的金融数据分析工具!免费开源!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工…

基于SSM+小程序的垃圾分类管理系统(垃圾2)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 基于SSM小程序的垃圾分类管理系统实现了管理员及用户。 1、管理员功能结构图,管理员功能有个人中心,管理员管理,基础数据管理、论坛管理、垃圾信息管理…

钰泰ETA4553电压电平转换器IC

描述 ETA4553 是两位同相转换器,是一种双向电压电平转换器,可用于建立混合电压系统之间的数字开关兼容性。它使用两个独立的可配置电源轨,A 端口支持 1.65V 至 5.5V 的工作电压,同时跟踪 VCCA 电源,B 端口支持 2.3V 至…