【超详细教程】GPT-SoVITs从零开始训练声音克隆教程(主要以云端AutoDL部署为例)

目录

一、前言

二、GPT-SoVITs使用教程

2.1、Windows一键启动

2.2、AutoDL云端部署

2.3、人声伴奏分离

2.4、语音切割

2.5、打标训练数据

2.6、数据集预处理

2.7、训练音频数据

2.8、推理模型

三、总结


一、前言


近日,RVC变声器的创始人(GitHub昵称为RVC-Boss)与AI音色转换技术专家Rcell合作,共同开发并开源了一款创新的跨语言音色克隆工具——GPT-SoVITS。这个项目在互联网上迅速获得了广泛关注和好评,众多业界大佬和知名博主都对其给予了推荐。自项目上线以来,短短两天内,它在GitHub上的Star数就达到了1.4k,而现在这个数字已经飙升至6.5k。

GPT-SoVITS的开发历时半年,期间RVC-Boss和Rcell面临了诸多挑战。这款工具不仅具有低成本和易用性的特点,而且在音色克隆领域展现出了新颖的技术创新。

项目地址:https://github.com/RVC-Boss/GPT-SoVITS

二、GPT-SoVITs使用教程

2.1、Windows一键启动

首先下载软件包,解压后双击打开“go-webui.bat”即可。

GPT-SoVITs安装包下载

2.2、AutoDL云端部署

首先打开AutoDL网页,注册登录后进入到“算力市场”,选择一个性价比高的显卡,CUDA版本需要大于11.8,这里我选择RTX3090显卡为示例。

接着来到创建实例界面,点击“社区镜像”,输入“GPT-SoVITs”,选择最新的镜像文件,比如我这里的v2.1版本,然后点击“立即创建”即可。

来到容器实例界面,点击刚刚创建好的容器,点击“JupyterLab”进入终端操作界面。

点击第二个选项框,进入使用界面,拉到最下面,运行前两个命令,选择命令框点击运行即可。

最后打开下方图片链接即可打开GPT-SoVITs界面啦~

2.3、人声伴奏分离

首先准备一段1分钟以上的音频文件,必须是同一个人说话的声音喔,点击开启UVR5-WebUI,回到AutoDL的终端操作界面,查看命令行中的链接,点击进入WebUI界面。

来到人声分离WebUI界面,上传1分钟以上的音频文件进行声音分离,选择好模型,选择好导出的文件格式,点击“转换”即可,转换好的文件位于output/uvr5_opt。

转换好后,记得关闭UVR5-WebUI,这样可释放一些内存。

2.4、语音切割

第一步,上传刚刚分离好的音频文件,填写好音频输入文件路径,这里跟着我填写input就可以了,点击开启语音切割。

接着进行开启离线批量ASR,填写好输出文件夹的路径,然后点击左边的“开启离线批量ASR”按钮。

然后填写好打标数据文件路径,点击开启打标WebUI,返回到AutoDL终端操作界面,查看命令行输出,点击下方链接即可进入到打标数据界面。

2.5、打标训练数据

点击播放▶️按钮,试听一下对应文本是否正确,如果不正确进行文本的修改,这一页整理好数据后,点击“Save File”和“Submit Text”这两个按钮,接着点击“Next Index”下一页,重复以上的步骤进行校对。

全部校对完毕后,返回WebUI界面,关闭打标WebUI

2.6、数据集预处理

点击“1-GPT-SoVITS-TTS”,来到训练操作界面,更改实验名字,可随意命名,然后填写好文本标注文件和训练集音频文件路径,这里跟我的一模一样就可以了。

接着分别点击这四个按钮即可。

2.7、训练音频数据

然后来到了微调训练数据这个界面,保持默认参数不变,也可以自行调整参数的,点击开启SOVITS训练和开启GPT训练。

2.8、推理模型

来到1C-推理,首先点击刷新模型路径,才能出现刚刚训练好的模型。

接下来选择刚刚训练好的模型文件,然后开启TTS推理WebUI

查看AutoDL的终端界面,找到最后一行的网页链接,点击这个链接即可到TTS推理的界面。

首先上传一段几秒的参考音频,填写参考音频的所输出的语音文本,然后再填写需要合成的文本,点击合成语音,一会儿就会出现了输出的语音音频文件了,点击试听,效果确实很惊艳!!!

三、总结

GPT-SoVITS是一款支持多语言的先进技术,融合了声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)以及文本标注等多种辅助工具。令人印象深刻的是,它仅需一分钟的训练数据,就能对模型进行微调,显著提升语音的相似度和真实感。整体而言,GPT-SoVITS提供了一种极为出色的体验。期待其在未来的应用范围能不断扩大,而且在更新迭代过程中能实现更加完善和优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/357073.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

网络安全防御保护 Day4

要点一:防火墙的智能选路 就近选路: 在访问不同运营商的服务器时直接通过对应运营商的链路,以此来提高通信效率,避免绕路。 策略路由(PBR): 这是一种基于用户定义的策略(如业务需求、…

嵌入式中Qt5.7.1添加支持openssl方法

1、openssl编译 版本:openssl-1.0.2g 一定要选对Qt版本对应的openssl版本,由于开始选的openssl版本不对,导致编译Qt时出现很多错误。 交叉编译 ./config no-asm shared --prefix/opt/Xilinx2018_zynq/zynq_openssl_1.0.2/ --cross-compile…

Unity-WebGL

问题:提示gzip压缩报错解决:关闭打包的地方压缩,如下图问题:窗口未全屏解决:使用百分比画布替换固定尺寸画布 参考:新版Unity打包Webgl端进行屏幕自适应_unity webgl分辨率自适应-CSDN博客问题:…

光学3D表面轮廓仪服务超精密抛光技术发展

随着技术的不断进步,精密制造领域对材料表面的处理要求越来越高,超精密抛光技术作为当下表面处理的尖端技术,对各种高精密产品的生产起到了至关重要的作用,已广泛应用于集成电路制造、医疗器械、航空航天、3C电子、汽车、精密模具…

ubuntu gedit主题更改

ubuntu16.04 gedit 编辑器又有首选项如何设置主题 这里下载主题 将主题XML复制到 /usr/share/gtksourceview-3.0/styles 文件夹内; 使用gsettings 命令设置喜欢的配色方案,使用方式如下:(实测不带.xml后缀哦) gsettings set org.gnome.gedi…

【UVM源码】UVM Config_db机制使用总结与源码解析

UVM Config_db机制使用总结与源码解析 UVM Config_db机制介绍UVM Config_db 机制引入的背景基本介绍使用方法优缺点: UVM Config_db机制使用示例:UVM Config_db使用高阶规则Config_db资源优先级 UVM Config_db 源码解析 UVM Config_db机制介绍 UVM Conf…

微信小程序上传时报错message:Error: 系统错误,错误码:80051,source size 2148KB exceed max limit 2MB

问题: 微信小程序上传时错误码:80051,source size 2248KB exceed max limit 2MB 问题原因: 由于代码中的静态资源 图片大小超了200k以及主包的体积超出1.5M 解决办法 分包 tabBar 是主包的,不需要分包处理,以下是分…

gitlib部署及应用

一. 下载源网址 Index of /gitlab-ce/yum/el7/ | 清华大学开源软件镜像站 | Tsinghua Open Source MirrorIndex of /gitlab-ce/yum/el7/ | 清华大学开源软件…

Onvif协议5: 预置位的操作

目录 1. 介绍 2. GetPreset 3. SetPreset 4.预置位的索引 5. GotoPreset 1. 介绍 球机的云台预置位控制主要包含的内容有:预置位的设置、预置位的调用、预置位的删除以及预置位的名称修改等 云台预置位的设置:调用Onvif协议中云台预置位设置接口&a…

【云原生】docker-compose单机容器集群编排工具

目录 一、docker-compose容器编排的简介 二、docker-compose的使用 1、docker-compose的安装 2、docker-compose的配置模板文件yaml文件的编写 (1)布尔值类型 (2)字符串类型 (3)一个key有多个值 &am…

成都直播产业园解析直播供应链金融服务,天府锋巢直播产业基地打造“金融+产业+生态”新型模式

天府锋巢直播产业基地如何打造“金融产业生态”新型模式? 本文将为您全面解析基地提供的成都直播产业园供应链金融服务 锋巢资讯~每周准时报道~~ 赶紧下拉,阅读全文 Q:企业入驻园区能获得哪些直播供应链金融服务&…

【gcc】RtpTransportControllerSend学习笔记 5:OnTransportPacketsFeedback及测试程序

【gcc】RtpTransportControllerSend学习笔记 4:码率分配 中阅读了大神的文章,依旧云雾中,因此,反复阅读大神的文章,结合代码,继续。本次是 基于m98的代码。src\modules\congestion_controller\goog_cc\goog_cc_network_control.cc GoogCcNetworkController 是核心类,其处…

基于UDP的套接字通信(附通信代码)

基于UDP的套接字通信 udp是一个面向无连接的,不安全的,报式传输层协议,udp的通信过程默认也是阻塞的。 不需要建立连接 UDP通信过程中,每次都需要指定数据接收端的IP和端口 UDP不对收到的数据进行排序,在UDP报文的…

【vue】defineModel在vue3.4中的最新用法和详解

在2023年12月28日,尤大发布了vue3.4版本,这个版本主要对一些实验性特性的改进(比如defineModel),大量重写了模板编译器并重构了响应式系统,可以说是大大提升了运行速度和效率。 之前在vue3.3中defineModel…

erp读书笔记20240129

ERP 计划中的时间概念,包括计划期、时段、时区与时界,以及五种作业时间。 计划期的定义是为了实现对产品全流程的控制,提高计划的预见性,实现供需链计划。时段的划分是为了区别优先级,满足滚动计划的需求。 时区与时界…

信创联盟--朗思科技加入证券基金行业信息技术应用创新联盟,共促金融信创发展

近期,证券基金行业信息技术应用创新联盟(以下简称:信创联盟)新一批成员单位名单公布,朗思科技LanSive凭借产品创新以及实践案例成功入选,正式成为信创联盟成员单位。 信创联盟由上交所联合行业券商倡议发起…

STM32控制DHT11温湿度传感器模块获取温湿度数据

时间记录:2024/1/29 一、DHT11引脚介绍 (1)VCC:电源引脚,3.3-5.5V (2)DATA:数据输入输出引脚 (3)NC:保留引脚,悬空即可 (…

MicrosoftEdge浏览器打开网页出现“此网站被人举报不安全”问题时解决办法

1:有时候不知怎么回事用电脑自带的微软浏览器进行搜索会出现以下的问题 这可能是由于我们的浏览器安全审查过于严格引起的 Windows10正式版系统下,使用Edge浏览器浏览网页时候,发现整个页面突然变成了红色,显示“已有人举报此网站…

springboot3+vue支付宝在线支付案例-解决跨域请求的问题

springboot3vue支付宝在线支付案例-解决跨域请求的问题!为了使用外网地址,跨域请求业务接口。我们需要设置一个类。配置一下。 我们采用的方案是。借助于 WebMvcConfigurer package com.example.demo.config;import org.springframework.context.annot…

el-upload子组件上传多张图片(上传为files或base64url)

场景: 在表单页,有图片需要上传,表单的操作行按钮中有上传按钮,点击上传按钮。 弹出el-dialog进行图片的上传,可以上传多张图片。 由于多个表单页都有上传多张图片的操作,因此将上传多图的el-upload定义…