ComfyUI中运行Stable Audio Open,实现背景音乐、音效自由

🧨背景

stability在一个月之前默默的发布了Stable Audio Open 1.0的音频音效生成模型,不过好像影响力一般,也没有太多文章分享测试,而今天看comfyui作者的一篇介绍文档,他已经让comfyui默认支持了这个模型。

原开源地址:https://huggingface.co/stabilityai/stable-audio-open-1.0

Stable Audio Open 1.0根据文本提示生成 44.1kHz 的可变长度(最长 47 秒)立体声音频。它由三个组件组成:将波形压缩为可管理序列长度的自动编码器、用于文本调节的基于 T5 的文本嵌入,以及在自动编码器的潜在空间中运行的基于变换器的扩散 (DiT) 模型。

实际测试下来,在音效生成方面,其实还可以,结合sd3或许可以生成不错的解压视频,所以这里介绍给大家。


✨训练集与应用限制

训练素材

数据集包含 486492 条录音,其中 472618 条来自 Freesound,13874 条来自免费音乐档案馆 (FMA)。所有音频文件均根据 CC0、CC BY 或 CC Sampling+ 获得许可。这些数据用于训练我们的自动编码器和 DiT。我们使用公开的预训练 T5 模型 ( t5-base ) 进行文本调节。

限制

  • 该模型无法生成逼真的声音。
  • 该模型已使用英语描述进行训练,在其他语言中的表现不会那么好。
  • 该模型并不适用于所有音乐风格和文化。
  • 该模型在生成音效和现场录音方面比音乐更出色。
  • 有时很难评估哪种类型的文本描述可以提供最佳的生成效果。可能需要及时进行工程设计才能获得令人满意的结果。


🎊使用方法

第一步,首先更新ComfyUI到最新的版本;

第二步,下载音频生成相关的两个模型:

【音频生成模型资源】

 https://pan.quark.cn/s/83bc2652d05e

第三步,从第二步的网盘下载工作流;

第四步,把stable-audio-open-1.0.safetensors模型放在models文件夹下的checkpoints文件夹下,可以有二级目录;

把t5-base模型放在models下clip文件夹下(注意,这里不能直接用sd3的t5xxl模型,这两个不通用)

第五步,打开工作流,选择大模型的地址,输入提示词就可以正常生成音频了。

注意:如果最右下角的mixlab的节点你没有安装,直接删掉这个节点也可以,这个节点的作用是在comfyui中直接播放音乐,比较方便而已,并不影响生成。

如果没有这个节点,可以到output文件夹下找到生成的音频:

测试下来,音频效果还不错,以下是几个可以尝试的音频提示词:

非常轻松的爵士小调:Very relaxing and pleasant jazz music, suitable for vlogs.

蛙鸣:A summer night with many frogs croaking.

雷电交加:Thunder and lightning, accompanied by the sounds of the wind and waves.

😄玩的开心,如果对你有帮助的话,记得点赞哦~ 


✨写在最后

之前一直讲的都是webUI的课程,这次针对ComfyUI的新手开了一门图文课程,目前还在持续更新中,欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

感谢大家的支持~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/750495.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux 基于sqlite3数据库的学生管理系统

一、数据库 sqlite官网:www.sqlite.org 1.1 数据库的安装 离线安装: sudo dpkg -i sqlite3_3.22.0-1ubuntu0.4_amd64.deb //数据库软件 sudo dpkg -i libsqlite3-dev_3.22.0-1ubuntu0.4_amd64.deb //数据库的库函数 在线安装: sudo apt-get …

【Linux】Linux下使用套接字进行网络编程

🔥博客主页: 我要成为C领域大神🎥系列专栏:【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞👍收藏⭐评论✍️ 本博客致力于知识分享,与更多的人进行学习交流 ​ 用于网络应用开…

知识图谱——Neo4j数据库实战

数据与代码链接见文末 1.Neo4j数据库安装 JDK 安装:https://www.oracle.com/java/technologies/javase-downloads.html Neo4j 安装:https://neo4j.com/download-center/ 配置好 JDK 和 Neo4j 的环境变量

嵌入式Linux系统编程 — 4.1 字符串输入输出

目录 1 字符串输出 1.1 字符串输出函数简介 1.2 示例程序 2 字符串输入 2.1 字符串输入简介 2.2 示例程序 程序运行时,需打印信息至标准输出 stdout 设备 或标准错误 stderr设备(譬如屏幕),如调试信息、报错信息、中间产生的…

数据库课程知识点总结

数据库概述 数据库基本特点:数据结构化,数据独立性,数据冗余小,易扩充,统一管理和控制,永久存储,有组织,可共享 三级模式 模式:一个数据库只有一个模式,是对…

将idea项目代码部署到Linux系统中

目录 1. 将idea与虚拟机建立连接 2. 设置上传到虚拟机的目录 3.上传项目代码 1. 将idea与虚拟机建立连接 打开idea要上传的项目,找到Tools -> Development -> Configuration 设置一个连接的名称,我这里设置为centos 将Type设置为SFTP,点击SSH configuration 开始配…

数据库物理结构设计-定义数据库模式结构(概念模式、用户外模式、内模式)、定义数据库、物理结构设计策略

一、引言 如何基于具体的DBMS产品,为数据库逻辑结构设计的结果,即关系数据库模式,制定适合应用要求的物理结构 1、在设计数据库物理结构前,数据库设计人员首先 要充分了解所用的DBMS产品的功能、性能和特点,包括提供…

抖音集成:通过MessageBox引领数字化营销新潮流

抖音集成:通过MessageBox引领数字化营销新潮流 在数字化营销的大潮中,企业需要不断探索新的方式来优化其营销策略,以抓住更多的市场机会。抖音作为一款全球知名的短视频社交平台,凭借其庞大的用户群体和高度互动的特性&#xff0…

亿发进销存管理系统+:多终端无缝协同,实现经营销售场景全覆盖

亿发软件凭借产品、市场、业务的深入理解,在进销存基础上进行了延伸,推出多终端、一体化的“进销存管理系统”多元产品矩阵。对企业经营中进货、出货、销售、付款等进行全程跟踪管理。有效辅助企业解决业务管理、销售管理、库存管理、财务管理等一系列问…

【论文阅读】-- TSR-TVD:时变数据分析和可视化的时间超分辨率

TSR-TVD: Temporal Super-Resolution for Time-Varying Data Analysis and Visualization 摘要1 引言2 相关工作3 我们的循环生成方法3.1 损失函数3.2 网络架构 4 结果与讨论4.1 数据集和网络训练4.2 结果4.3 讨论 5 结论和未来工作致谢参考文献附录1 训练算法及优化2 网络分析…

02.Ambari自定义服务开发-metainfo.xml介绍

文章目录 metainfo.xml 介绍配置说明Hbase metainfo.xml配置说明配置参数详细介绍配置文件样例DORIS metainfo.xml 介绍 ​ 在Ambari自定义开发中,metainfo.xml 配置文件起着至关重要的作用。它用于定义服务的元数据信息,包括服务的版本、组件、执行脚本…

RabbitMQ基本概念

RabbitMQ是AMQP协议的一个开源实现,所以其基本概念也就是的 AMQP 协 议中的基本概念。如图3-1所示是 RabbitMQ 的整体架构图。 Message(消息):消息是不具名的,它由消息头和消息体组成。消息体是不透明的, 而消息头则由一系列可选属性组成&…

六西格玛绿带可以跳过,直接学六西格玛黑带吗?真实情况告诉你

在现代企业管理中,六西格玛(Six Sigma)已经成为提升质量和效率的重要工具。对于很多企业而言,培养内部的六西格玛专家,特别是黑带(Black Belt),是推动持续改进的关键。然而&#xff…

如何用Vue3和Plotly.js实现一个交互式世界地图动画

本文由ScriptEcho平台提供技术支持 项目地址:传送门 利用 Plotly.js 创建交互式世界生命预期地图 应用场景 本代码展示了如何使用 Plotly.js 创建一个交互式世界生命预期地图,允许用户按年份浏览不同国家和地区的生命预期数据。该地图可以用于研究世…

电脑文件concrt140.dll丢失要怎么恢复?靠谱修复方法分析

电脑文件concrt140.dll丢失这种情况,相对来说还是比较少见的!但是不代表没有,既然有人出现这种情况了,那么小编势必要给大家详细的讲解一下concrt140.dll这个文件,以及我们要怎么去解决concrt140.dll文件丢失的问题。下…

技术贴 | RNA甲基化修饰m6A的检测——MeRIP-seq

01 m6A是什么 目前在细胞RNA中已经识别到了超过100种化学修饰,其中RNA甲基化修饰在生命活动中有着非常重要的作用(Xu et al 2020)。RNA甲基化是指在甲基转移酶的催化下,在RNA分子上的某一个原子上添加一个甲基基团(CH3)。RNA甲基化修饰类型有很多&#…

架构师篇-5、架构语言-ArchiMate

内容摘要: TOGAF内容元模型TOGAF架构语言ArchiMate3ArchiMate实践案例分享 TOGAF内容框架【核心内容元模型】 作为一个通用且开放式的标准,TOGAF需要采用一种非常灵活的方式来对其内容元模型进行定义,从而使得不同的企业可以根据自身需要对…

Swagger2及常用校验注释说明

Api(value "后台用户管理") RestController RequestMapping("bossuser") public class BossUserController {ApiOperation(value "测试接口")PostMapping("test")public String testUser(Valid RequestBody TestUser user) {LOG.inf…

vue表头字段添加鼠标悬浮提示

<el-table-column prop"jfScore" align"center" min-width"100px"><template slot"header" slot-scope"scope"><div><span>信用积分</span><el-tooltip:aa"scope"class"it…

nodepad 中换行符、tab替换

1 nodepad 主要符号 换行符: \r\n&#xff08;windows&#xff09; tab: \t 2 展示符号 3 相互替换 tip:需要点击扩展 参考&#xff1a; https://blog.csdn.net/lijing742180/article/details/85174564