GptSoVits音频教程

这个号称5秒克隆,或者用1分钟音频训练10分钟就能达到原声效果。

5秒的号称,只要是,什么几秒的,大家可以完全不要想了,什么知更鸟,什么火山,包括本次的GptSoVits的效果肯定是不行的,数据太短效果不可能达到。所以这些都听不出来本人的声音。

重点关注1分钟的音频训练10分钟,是否能赶超阿里的kantts。阿里1分钟音频训练10分钟出来,音色是比较像的,但是杂音和混响严重。这也是本文的目的。

由于是测试这里就不部署linux版本,直接用作者提供的整合包


资源位置(123网盘)

GPT-SoVITS官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘

环境:

win10,我显卡是3060ti(12g显存),装了nvida驱动。内存建议16G(2条8g才60块钱,很便宜,9成新)

1.安装

由于是整合包,解压就行,这里用7z解压,因为rar压缩包里面有2个7z的文件,是2个版本的。

2.数据集准备

2.1去混响

我是干净的人声,但是有空调声,我试一下这个功能

然后会自动弹出一个新页面,进行下图操作

然后点转换,等待每一条处理完成

完毕后,UVR5-WebUI(关闭这个页面,取消对钩就行)

2.2切分文件,降低显存,用于每条每条训练

我已经是切分过的了,就不用切分了,我以前写了个程序更方便切分

https://shiao.blog.csdn.net/article/details/133700129

2.3使用funAsr进行文本标注

这边是我以前写的单独做asr标注的,这个中文效果比openAi的whisper好。

中文语音标注工具FunASR(语音识别)-CSDN博客

本文中是用他集成好的asr,修改输入和输出

之后点击开启批量ASR,看黑窗口,他会去下载模型(第一次比较慢,请耐心等待

成功后

2.4文本校对,就是用耳朵听,看看哪个地方不对

输入刚刚合成的【文件路径】,然后勾选启动打标WebUI

稍后会弹出新页面

听声音,看哪个不对,就改掉。觉得声音完全不对的,可以勾选yes然后点deleteAudio按钮删除。

想听下一批点击next index。最后点击SaveFile。

3.训练

进入训练步骤

3.1执行特征提取

和sovits一样,推理的同样会默认保存在logs中

输入实验名,然后给定标注路径还有音频路径,点击一键三连开始训练。

3.2训练微调

参数的话我显存12G,我就调高了一点,大家也可以用默认。

点击开始sovits训练,然后看窗口,没有报错就行。

训练完成后,然后,开始GPT训练,我GPU占用率百分之40。

4.推理

4.1推理模型配置

点击推理界面,先刷新模型,然后点击推理,然后打钩

打钩后,稍等一会儿就会弹出一个推理界面

4.2推理测试

刷新模型路径,上传语音,然后输入文本,点击合成语音

结果:

效果很不错,清晰度居然超过了kantts-sambert预训练16k。但是有个别吐字错误的情况。不过效果确实不错,我训练的数据是300句录音棚数据。

参考:

语音克隆神器GPT-SoVITS,只需一分钟素材训练模型,AI文字转语音效果堪比真人 | 科技与狠活

耗时两个月自主研发的低成本AI音色克隆软件,免费送给大家!【GPT-SoVITS】_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/394806.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

盲盒小程序开发:创新科技与消费者心理的完美结合

随着科技的飞速发展,小程序已经深入到我们生活的方方面面。而在众多小程序中,盲盒小程序以其独特的魅力,吸引了大量消费者的关注。本文将探讨盲盒小程序的发展背景、市场需求、开发流程以及未来趋势,以期为相关行业的从业者提供一…

IDEA导入外部项目的系列问题:java代码文件不识别以及the output path is not specified for module

IDEA导入外部项目的系列问题:java代码文件不识别以及the output path is not specified for module 引言导入后java代码不识别the output path is not specified for module 引言 分享一点Java使用的经验。 java小白引入外部项目(zip类型的项目&#xf…

电商数据分析数据统计数据监控必备-电商API电商数据接口

API,全称Application Programming Interface,是一种用于不同应用程序间通信的接口,它允许不同的应用程序之间交换数据和功能。API可以理解为应用程序提供给其他应用程序或开发者的接口,通过这个接口,其他应用程序或开发…

代理IP是什么?如何选择?使用指纹浏览器为什么需要代理?

随着跨境电商行业竞争的加剧,多账号运营成为了一种普遍的策略,旨在最大化市场覆盖面和用户参与度。但是,这种策略带来了一个不容忽视的问题:如何保护您的在线隐私和安全性?这就是代理IP发挥作用的地方。代理IP是一种技…

2023年【四川省安全员B证】最新解析及四川省安全员B证新版试题

题库来源:安全生产模拟考试一点通公众号小程序 2023年四川省安全员B证最新解析为正在备考四川省安全员B证操作证的学员准备的理论考试专题,每个月更新的四川省安全员B证新版试题祝您顺利通过四川省安全员B证考试。 1、【多选题】《建筑施工安全检查标准…

第九篇:node静态文件服务(中间件)

🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! 📘 引言: 当今互联网时代&am…

【ARM架构】ARMv8-A 系统中的安全架构概述

一个安全或可信的操作系统保护着系统中敏感的信息,例如,可以保护用户存储的密码,信用卡等认证信息免受攻击。 安全由以下原则定义: 保密性:保护设备上的敏感信息,防止未经授权的访问。有以下几种方法可以做…

2023年10月计算机系统结构真题

一、填空题 1.直接执行微指令的是 A.硬件 B.汇编程序 C.编译程序 D.微指令程序 2. 支持动态地址定位的寻址方式是 A.基址寻址 B.间接寻址 C.变址寻址 D.直接寻址 3.当浮点数尾数基值rm16,除尾符外的位数机器位数为8位时,可表示的规格化最大尾数值为 A.1/256 B.…

全国工商企业名录

全国2023年12月份企业名录2.5亿条

查询获取SMBIOS的方法

一、用于在本地查询 SMBIOS 的示例 PowerShell 脚本 Microsoft网站参考 以下 ChassisTypes 列表是从最新的 DMTF SMBIOS 规范复制的。 # Set-ExecutionPolicy or Script Signing documentation needs to be reviewed # Current script is designed to run on individual mach…

SpringMVC回顾总结笔记

MVC是一种思想而SpringMVC是具体的实现(Ioc和DI的关系) 在创建项目的时候勾选的SpringWeb框架就是SpringMVC框架 与浏览器建立连接 默认返回的是一个 view 视图。需要添加ResponseBody说明返回的是json数据。RestController是ControllerResponseBody…

Spring6学习技术|简要介绍+安装环境+入门案例+log4j2日志

学习材料 尚硅谷Spring零基础入门到进阶,一套搞定spring6全套视频教程(源码级讲解) 碎碎念一下吧,javaWeb跟完了全程。还是感觉啥也不知道,啥也没学会。2025年春天能找到实习吗?真的好担心。 环境安装 纠…

Recorder 实现语音录制并上传到后端(兼容PC和移动端)

Recorder 首页&#xff1a;https://github.com/xiangyuecn/Recorder 一、安装 npm install recorder-core二、代码部分 1. HTML页面 <template><div><el-inputv-model"ttsText"type"textarea"placeholder"请输入内容"><…

Java三大框架简介与比较

一、引言 在Java开发领域&#xff0c;三大框架——Spring、Hibernate和MyBatis&#xff0c;各自扮演着重要的角色。它们为开发者提供了不同的解决方案&#xff0c;使得开发者能够更高效地构建企业级应用。本文将分别介绍这三大框架的特点、优势以及适用场景&#xff0c;并对它…

对尾递归的理解(有哪些应用场景)

文章目录 一、递归二、尾递归三、应用场景参考文献 一、递归 递归&#xff08;英语&#xff1a;Recursion&#xff09; 在数学与计算机科学中&#xff0c;是指在函数的定义中使用函数自身的方法 在函数内部&#xff0c;可以调用其他函数。如果一个函数在内部调用自身本身&am…

初次安装Android Studio卡在gradle的解决方法

原因 国外的下载的地址无法访问才导致无法下载 解决方案 找到新建项目的保存位置找到gradle文件夹 进入文件夹 用文本打开 如图 大概一样&#xff0c;将国外地址改为国内地址 选中的这一条 国内的地址有 腾讯云提供了 Gradle 的国内镜像&#xff0c;您可以通过访问腾讯云…

4核8G服务器支持多少人同时在线访问?

腾讯云4核8G服务器支持多少人在线访问&#xff1f;支持25人同时访问。实际上程序效率不同支持人数在线人数不同&#xff0c;公网带宽也是影响4核8G服务器并发数的一大因素&#xff0c;假设公网带宽太小&#xff0c;流量直接卡在入口&#xff0c;4核8G配置的CPU内存也会造成计算…

【笔记------STM32】MX_RTC_Init()初始化RTC时RTC_ISR_INITF位超时失败的解决方法

RTC和flash有点像&#xff0c;有些功能需要解锁才能配置&#xff0c;虽然cubeMX生成的RTC部分的解锁配置正确&#xff0c;但却没有配置好前提条件&#xff1a;关闭PWR模块的备份域写保护使能&#xff0c;有点奇怪&#xff0c;手动关掉就好了 现象&#xff1a;进入RTC_EnterInit…

【C++】编译器如何识别重载函数

文章目录 前言 前言 我们都知道&#xff0c;函数重载即一个函数拥有了多个版本&#xff0c;我们使用时可以通过不同的数据类型区分我们调用的时哪一个重载函数&#xff0c;但编译器编译链接阶段对函数的调用时通过在符号表中寻找唯一名称来确定地址&#xff0c;c时怎么解决了符…

动态规划(算法竞赛)--线性DP数字三角形

1、B站视频链接&#xff1a;E01 记忆化搜索 数字三角形_哔哩哔哩_bilibili 题目要求&#xff1a;求累加的最大值 #include <bits/stdc.h> using namespace std; int n4; int a[9][9]{{1},{4,6},{8,3,9},{5,7,2,1}};//搜索树 int f[9][9];//记录从下向上的累加和 int dfs…