AI 克隆声音,只需 3 分钟(附最全教程)

作者:寒斜

继生成式文本大模型 Chatgpt,生成式图片 Stablediffusion 之后生成式语音 Text To Speech 在开源社区也出现了一匹黑马,就是 GPT-Sovits [ 1]

之所以说他是黑马,让人觉得惊艳,是因为在语音效果克隆上做的足够真实和简单,只需要小样本的声音数据源,就可以实现高度相似的的仿真效果,也正是因为足够简单和好的效果,GPT-Sovits 的社区也异常火爆,github 的 star 数迅速飙升,目前已达 27.2K。

然而,无论是 C 端的内容生产者,想要使用进行内容生产,还是 B 端用户做商业化落地,部署这套 GPT-Sovits 软件都需要面临一些技术挑战,今天我们就来给大家介绍一下,如何通过阿里云函数计算快速托管 GPT-Sovits 来解决这些挑战。

图片

有奖体验正在进行中

声音也能被完美复制!用 AI 实现声音克隆,让喜欢的声音喊出动画片经典台词。函数计算 FC 一键部署 GPT-Sovits 语音生成模型,最高赢小米蓝牙音响礼!立即参与:https://developer.aliyun.com/topic/june/fcnas

应用场景

在进行 GPT-Sovits 的实践之前,为了能够进一步说明他的价值,我们先来聊聊关于他的应用场景,更确切的来说是生成式语音的应用场景:

  • 教育:在教育场景下对声音的诉求尤其重要,对于学生而言,有感情色彩的交流,价值远大于纯文本的交换,个人教育比如英语培训也是跟语音强相关的。
  • 游戏娱乐:游戏娱乐场景就更加明确,个性化的声音是吸引人的关键因素。
  • 新能源:在车载系统,导航里,希望实时对话查询目的地相关的信息是有刚性需求的,比如使用高德导航,正在路上开车的时候,通过实时对话。
  • 新媒体:在数字人直播场景下,构建差异性专业的声音是直播效果好坏的关键。
  • 农业:比如农业智能化,技术人员在田间工作的时候,打字是一定没有语音交互方便的。
  • 机器人:机器人要有耳朵和嘴巴,需要声音的输出。

以上的场景都是跟 TTS 强相关的,或者说 TTS 作为核心的基础能力被使用,当然构建完整效果还需要更多工程化的实现和其他基础模型,后续我们再展开讲讲。

动手部署一个 AI 克隆大模型

通过函数计算部署 GPT-Sovits 模型的好处有两个:

  1. 无需关心 GPU 服务器维护和环境配置,即可快速部署和体验模型。

  2. 可以充分利用函数计算按量付费,弹性伸缩等优势,高效地为用户提供基于 GPT-Sovits 模型的文本到语音生成服务。

技术架构概览

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本方案的技术架构包括以下基础设施和云服务:

  • 函数计算:用于提供 GPT-Sovits 模型的应用服务。
  • 文件存储 NAS:用于存放预训练的 GPT-Sovits 模型。
  • 专有网络 VPC:用于配置专有网络,方便函数计算访问文件存储 NAS。

🔔 重要:

  1. 阿里云不对第三方模型的合法性、安全性、准确性进行任何保证,阿里云不对由此引发的任何损害承担责任。

  2. 您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规,并就使用第三方模型的合法性、合规性自行承担相关责任。

部署 GPT-Sovits模型

  1. 登录函数计算 3.0 控制台 [ 2]

  2. 请确认访问的控制台是函数计算 3.0,否则您需要在右上角单击体验函数计算 3.0

图片

  1. 在左侧导航栏,单击应用

4.(可选)在应用页面,单击创建 应用

🔔 说明: 如果您之前未使用过应用中心,请跳过本步骤,可直接进入下一步。

图片

  1. 应用页面,选择人工智能>语音克隆生成 GPT-SoVITS,单击立即创建

图片

  1. 创建应用页面,部署类型选择直接部署角色名称请确认所需要的权限均已获取(若缺失权限请按照页面引导进行操作),服务状态请确认函数计算 FC 和文件存储 NAS 已开通,其他配置保持默认即可,然后单击创建应用

图片

  1. 活动应用创建提醒对话框中,选中函数计算 FC 和文件存储 NAS 两个收费项,选中我已经了解上面的内容,并同意上述描述, 单击同意并进行部署

图片

  1. 等待约 1 分钟,部署状态变为部署成功,表示应用部署成功,并生成访问域名,单击访问域名后的链接开始体验应用。

***.devsapp.net 域名是 CNCF SandBox 项目 Serverless Devs 社区所提供,仅供学习和测试使用,不可用于任何生产使用;社区会对该域名进行不定期地拨测,并在域名下发 30 天后进行回收,强烈建议您绑定自定义域名以获得更好的使用体验。

图片

快速体验

部署完成后,您可以使用已经准备好的 DEMO 声音样例,进行声音的合成和体验。

我们准备了一些童年经典动画片的台词,您可以合成试试:

  • 既然你诚心诚意的发问了,我们就大发慈悲的告诉你,为了防止世界被破坏,为了守护世界的和平,贯彻爱与真实的邪恶,可爱又迷人的反派角色,武藏、小次郎!我们是穿梭在银河的火箭队,白洞,白色的明天在等着我们!——《小精灵》
  • 成为全国第一是我从小的梦想,我不会放弃,这点小伤根本不能让我放弃。——《灌篮高手》
  • 舒克舒克舒克舒克开飞机的舒克,贝塔贝塔贝塔贝塔开坦克的贝塔。——《舒克和贝塔》
合成操作步骤
  1. 选择默认语音模板,输入需要生成的文本,单击合成语音

图片

  1. 等待语音合成之后,可以单击播放。

图片

声音训练

您可以通过声音源文件微调 GPT-Sovits 大模型,生成您期望的声音。在微调训练过程中,训练步骤的所有中间产物将置于 NAS 的 output 文件夹下。训练将使用默认的 UVR5 和 ASR 模型。若需要使用其他的 UVR5 和 ASR 模型,可根据官方 README [ 3] 下载,并分别置于 NAS 的 tools/asr/models 和 tools/uvr5/uvr5_weights 目录下。

  1. 数据预处理。准备一个较长的您需要克隆的原始声音,单击数据预处理,输入您需要上传的语音文件,单击开始数据预处理

图片

  1. 微调文本。单击训练语音文本校对,调整原始文本的内容。

图片

  1. 开始训练,单击模型微调,开启 SoVITS 训练和 GPT 训练。训练后的模型将存储在 NAS 下的 GPT_weights 和 SoVITS_weights 文件夹内。

图片

  1. 训练完之后,在语音克隆&推流页签,刷新和选择自己训练的模型,再体验合成语音。

如果您需要了解更多,请使用钉钉进入“阿里函数计算官网客户 2 群”(群号:64970014484)。

相关链接:

[1] GPT-Sovits

https://github.com/RVC-Boss/GPT-SoVITS

[2] 函数计算 3.0 控制台

https://fcnext.console.aliyun.com/

[3] 官方 README

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/724791.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

之所以选择天津工业大学,因为它是双一流、报考难度适宜,性价比高!天津工业大学计算机考研考情分析!

天津工业大学(Tiangong University),简称“天工大”,位于天津市,是教育部与天津市共建高校、国家国防科技工业局和天津市共建的天津市重点建设高校、国家“双一流”建设高校、天津市高水平特色大学建设高校、中国研究生…

引领未来建筑潮流:轻空间设计团队打造“淄博珍珠”

作为国内单体最大的气膜会展场馆,“淄博珍珠”自四年前启用以来,已成为淄博市的重要地标和经济引擎。该场馆首次亮相于第二十届中国(淄博)国际陶瓷博览会,凭借其独特的设计和先进的建筑理念,吸引了社会各界…

AD层次原理图绘制

一、在原理图中添加端口 二、添加层次图 三、更新层次图 四、也可以先画层次图,再绘制原理图,这里就不做演示了

电影美学复古胶片特效视频转场模板 | Premiere Pro 项目工程文件

这个Premiere Pro项目工程文件是一个电影美学胶片特效视频转场模板,每个过渡效果都散发出一种有机的怀旧魅力,让人回忆起经典电影卷轴和模拟摄影的独特美感。 项目特点: 胶片烧伤过渡效果:包括从微妙的闪烁到大胆的爆发&#xff…

第九届信也科技杯全球AI算法大赛——语音深度鉴伪识别参赛A榜 0.968961分

遗憾没有进复赛,只是第41名。先贴个A榜的成绩。A榜的前三十名晋级,个个都是99分的大佬,但是B榜的成绩就有点低了,应该是数据不同源的问题,第一名0.78分。官网链接:语音深度鉴伪识别 官方baselin:https://g…

Centos7.9安装Python3.8.16解决yum无法使用问题

Centos7.9安装Python3.8.16解决yum无法使用问题 文章目录 前言一、前期准备1.下载到新建目录2.安装依赖 二、编译1.解压2.编译安装3.建立命令软链接3-1.查看默认的python及新安装的python3都安装在哪?3-2.修改python3的软链接3-3.修改pip的软链接 三、修复yum1.查看…

SolidWorks科研版更快地开发产品创意

在当今竞争激烈的市场环境中,产品创新的速度和质量直接决定了企业的生死存亡。对于科研人员和设计师来说,如何能够快速、准确地实现产品创意的转化,是摆在面前的一大挑战。SolidWorks科研版作为一款功能强大的三维设计软件,为科研…

金鸣识别系统:PDF转Excel的高效利器

在日常办公中,我们经常需要将PDF文档转换为Excel表格以便进行数据分析。然而,当有些PDF转换过程可能会变得复杂,因为许多转换工具无法完美处理图片元素,导致转换后的准确率不高或排版错乱。幸运的是,金鸣识别系统以其卓…

引领潮流!Xinstall创新技术让App免填邀请码成为可能,轻松吸引海量用户!

在快速变化的互联网环境下,App推广和运营面临着诸多挑战。如何迅速搭建起满足用户需求的运营体系,提高获客转化的效率和用户留存,成为了众多企业急待解决的问题。而邀请码作为App推广中常见的手段,其繁琐的填写过程常常让用户望而…

【启明智显产品介绍】工业级HMI芯片Model3芯片详解(二)图像显示

Model3芯片是一款集大容量存储、宽温操作范围及多功能接口于一身的MCU,配备了 2D 图像加速引擎和 PNG 解码/JPEG 编解码引擎,可以满足各类交互设计场景和多媒体互动需求,具有高可靠性、高安全性、高开放度的特点,可以面向于泛工业…

基于PHP+MySQL组合开发的知识付费小程序源码系统 带完整的源代码包+搭建部署教程

系统概述 随着互联网的快速发展,知识付费逐渐成为了一种新型的经济模式。越来越多的用户愿意为高质量的内容付费,而开发者们也在不断探索和创新,以提供更加便捷、高效的知识付费平台。本文将详细介绍一个基于PHPMySQL组合开发的知识付费小程…

中国500米分辨率年平均LAI数据集(2000-2020)

叶面积指数LAI(Leaf Area Index)是描述植被冠层几何结构的基本参数之一,被定义为单位地表面积上所有叶片面积的倍数,它控制着植被的许多生物物理过程,如光合作用、呼吸作用、蒸腾作用、碳循环和降水截获等,是陆面过程一个十分重要…

pytorch基础【4】梯度计算、链式法则、梯度清零

文章目录 梯度计算计算图(Computational Graph)梯度求导(Gradient Computation)函数与概念 示例代码更多细节梯度求导的过程梯度求导的基本步骤示例代码注意事项总结 链式法则是什么?链式法则的数学定义链式法则在深度…

从粉丝基础到带货数据:全方位解读TikTok带货达人的选择之道

在如今的数字营销时代,TikTok已成为品牌推广和产品销售的重要平台。通过与合适的TikTok带货达人合作,品牌可以迅速吸引大量的潜在客户,实现销售转化。然而,选择合适的TikTok达人需要慎重考虑多个因素。本文Nox聚星将和大家详细阐述…

Ceph入门到精通-ceph边缘集群你听说过嘛?

边缘集群是一种经济高效的对象存储配置解决方案。 Red Hat 支持以下 Red Hat Ceph Storage 集群的最低配置: 具有两个 SSD 副本的三节点集群。 具有三个 HDD 副本的四节点群集。 具有 EC 池的四节点集群,具有 2+2 配置。 对于较小的群集,由于使用量和复原能力的损失,利用率…

瓦罗兰特教你怎么玩低价区+超适配低价区的免费加速器

《无畏契约》(VALORANT)是一款款英雄为核心的5V5第一人称战术射击PC游戏。在瓦罗兰特游戏中,玩家完成每日任务即可以获得大量的经验升级,另外我们也可以多多完成主线和支线任务,来加快升级的速度。玩家通过挑战副本&am…

朋友圈新功能:实现定时发圈,自动跟圈

1.多号同时发圈 可以选择多个号同时发圈,提高工作效率。 2.定时发布 可以一次性设置完很多天的朋友圈,选好发送时间就可以解放双手。 3.一键转发 点击转发,可直接跳转到编辑页面。无需复制粘贴。 4.自动转发(跟圈) …

Ubuntu server 24 (Linux) 安装客户端(windows/linux) Zabbix 7.0 LTS Zabbix agent2

一 Ubuntu(linux)安装客户端 1 Ubuntu 24 安装Zabbix agent2 #安装agent库 sudo wget https://repo.zabbix.com/zabbix/7.0/ubuntu/pool/main/z/zabbix-release/zabbix-release_7.0-1ubuntu24.04_all.deb sudo dpkg -i zabbix-release_7.0-1ubuntu24.04_all.deb sudo apt u…

极具吸引力的小程序 UI 风格

极具吸引力的小程序 UI 风格