AI工具推荐:开源TTS(文本生成语音)模型集合

在这里插入图片描述

XTTS

TTS是一个语音生成模型,可以通过一个简短的6秒音频片段将声音克隆到不同的语言。它不需要大量的训练数据,也不需要耗费大量时间。TTS支持17种语言,可以进行声音克隆、情感和风格转移、跨语言声音克隆以及多语言语音生成等功能。XTTS-v2相比XTTS-v1有两个新语言:匈牙利语和韩语。它还有架构改进、稳定性改进、更好的韵律和音频质量。XTTS-v2支持的语言包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文、日语、匈牙利语、韩语和印地语。XTTS是根据Coqui公共模型许可证许可的。XTTS的演示空间包括XTTS空间和XTTS语音聊天,用户可以在支持的语言上观察模型的表现,并可以使用自己的参考或麦克风输入进行尝试。XTTS还提供API和命令行的使用方法。XTTS是一个强大的语音生成模型,可以克隆声音、进行情感和风格转移,实现跨语言声音克隆和多语言语音生成。

YourTTS

该模型基于VITS模型,通过多种新颖的修改实现了零唱者多语言语音合成和训练。在VCTK数据集上,该方法取得了零唱者多语音语音合成的最新成果,并在零唱者语音转换方面取得了与最新成果相媲美的结果。此外,该方法在单一语音数据集中实现了有前景的结果,为低资源语言中的零唱者多语音语音合成和零唱者语音转换系统开辟了可能性。最后,可以用不到1分钟的语音进行YourTTS模型的微调,并获得语音相似性方面的最新成果,同时保证了合理的音质。

IMS-Toucan

IMS Toucan是德国斯图加特大学自然语言处理研究所(IMS)开发的一个工具包,用于教学、培训和使用最先进的语音合成模型。它的一切都是纯Python和基于PyTorch的,旨在尽可能简单和适合初学者使用,同时又尽可能强大。IMS Toucan提供了许多演示、预训练模型以及新功能,比如多语言和多说话者音频、克隆音调等。这些功能使得用户可以尝试使用预训练的检查点,或者利用提供的预训练检查点进行模型微调。IMS Toucan还提供了一些新特性,例如改进的生成器,以及一种很稳定且音质很好的ToucanTTS架构。IMS Toucan还支持从头训练模型,并提供了一系列的安装和使用说明。

VITS

VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种端到端语音合成模型,它可以根据输入的文本序列来预测语音波形。这是一个条件变分自动编码器(VAE),由后验编码器、解码器和条件先验组成。VITS模型通过基于Transformer的文本编码器和多个耦合层组成的流模块来预测一组基于声谱图的声学特征。声谱图使用一系列转置卷积层进行解码,类似于HiFi-GAN声码器的风格。为了解决TTS问题中一个文本输入可以以多种方式发音的特性,模型还包括一个随机持续时间预测器,允许模型从相同的输入文本中合成具有不同节奏的语音。模型通过变分下界和对抗训练导出的损失的组合进行端到端训练。为提高模型的表现力,对条件先验分布应用了正则化流。在推理过程中,文本编码根据持续时间预测模块进行上采样,然后通过一系列流模块和HiFi-GAN解码器映射到波形。由于持续时间预测器的随机性,模型是非确定性的,因此需要固定的种子来生成相同的语音波形。

TorToiSe

TorToiSe是一个文本转语音程序,其优先级是:

强大的多音色能力。
高度逼真的韵律和语调。 这个程序使用PyTorch实现,支持在NVIDIA GPU上运行。

Pheme

Pheme TTS模型是一种高效和对话式语音生成模型,可以在训练时使用比VALL-E或SoundStorm(例如,数据少10倍)更少的数据。它还具有参数效率、数据效率和推理效率等特点。此外,它使用了语义和声学标记的分离以及适当的语音标记器。另外,它还可以通过第三方提供商生成的(合成的)数据进行师生训练,以提高单一说话者的质量。

EmotiVoice

EmotiVoice是一款功能强大且现代的开源文本转语音引擎,支持英语和中文,并拥有2000多种不同的发音声音。它最显著的特点是情感合成,可以让你的语音具有多种情感,包括快乐、兴奋、悲伤、愤怒等。该引擎提供了易于使用的网络界面,同时也支持脚本接口进行批量生成结果。EmotiVoice还支持声音速度调整、语音克隆等功能,并正在开发支持更多语言的特性。

StyleTTS 2

StyleTTS 2是一种文本到语音(TTS)模型,利用大型语音语言模型(SLMs)进行风格扩散和对抗训练,以实现人类级别的TTS合成。StyleTTS 2通过建模风格为潜在随机变量,通过扩散模型生成最适合文本的风格,而无需参考语音,实现了高效的潜在扩散,并从扩散模型提供的多样化语音合成中受益。此外,它还利用大型预先训练的SLM,如WavLM,作为鉴别器,并结合新颖的可微分时长建模进行端到端训练,从而提高了语音的自然度。StyleTTS 2在单说话人LJSpeech数据集上超越了人类录音,在多说话人VCTK数据集上与之匹配。此外,当在LibriTTS数据集上进行训练时,该模型的性能超过了以前公开可用的零样本说话人自适应模型。这项工作在单个和多个说话人数据集上实现了第一个人类级别的TTS合成,展示了风格扩散和对抗训练与大型SLMs的潜力。

pflowtts_pytorch

P-Flow是由NVIDIA提出的一种快速、数据高效的零参考文本到语音合成(TTS)模型。它通过语音提示进行说话者自适应,包括语音提示文本编码器和流匹配生成解码器,以实现高质量且快速的语音合成。相比最近的大规模神经编解码器语言模型,P-Flow使用了两个数量级更少的训练数据,拥有更快的采样速度,并且在发音、人类相似性和说话者相似性方面都有更好的表现。

VALL-E

VALL-E是基于EnCodec tokenizer的一个非官方PyTorch实现。它是一个神经编解码语言模型,可以进行零样本文本到语音合成。该模型的预训练版本尚未发布,需要在DeepSpeed支持的GPU上进行训练,同时需要安装CUDA或ROCm编译器。您可以通过pip安装或者从GitHub上克隆VALL-E的代码库。训练过程包括将数据量化、生成音素、自定义配置以及使用训练脚本进行模型训练。训练完成后,需要将模型导出到指定路径。最后,您可以使用VALL-E进行语音合成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/325474.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Oracle-java下载、开源/商业许可证(收费、免费说明)、版本发布日志

Oracle-java下载、开源/商业许可证(收费、免费说明)、版本发布日志 下载开源/商业许可证(收费、免费说明)java8版本发布日志以上是一般情况,具体的以官网发布信息为准 下载 下载地址:https://www.oracle.c…

经纬恒润首个国产化4G T-BOX已获客户定点

近日,经纬恒润首个国产化4G T-BOX产品获得某头部整车厂定点,预计2024年开始量产。 经纬恒润自主研发的首个国产化4G T-BOX, 基于4G蜂窝通讯、GNSS卫星定位和车辆总线通信等核心技术,可以为整车客户提供包括行车数据采集、高精度位置信息、车…

openpose环境搭建

编程如画,我是panda! 最近学习要用要openpose,配了三天的环境,快疯了,踩了很多坑,在这里和大家分享一下 目录 前言 一、安装openpose 二、运行openpose 三、常见的两个错误 1. No module named pyopen…

RANSAC(Random sample consensus)随机抽样一致性

文章目录 算法介绍实现过程以直线拟合为例直线的描述源码参考连接 算法介绍 RANSAC(Random Sample Consensus)是一种迭代的参数估计算法,用于从包含噪声和异常值的数据中拟合数学模型。它最初由Fischler和Bolles于1981年提出,被广…

soso移动营业大厅(纯后端+MySQL数据库+JDBC)

一、项目需求 中国移动,中国联通,中国电信是国内3大通信运营商,每个运营商都提供了不同的品牌套餐来应对不同的用户群,比如北京移动主要有全球通,神州行,动感地带等3大品牌套餐,每种套餐的内容和费用不同,嗖嗖移动是一个假定的通信运营商,提供了话痨套餐,网虫套餐,超人套餐,各…

[HNCTF 2022 Week1]What is Web

flag 在源码里 <! 是 HTML 文档的注释格式&#xff0c;在源码里按 Ctrl F 搜索 <! 能帮你更快地找到提示。 将这个字符串 base64 解码得到 flag &#xff1a;

React Native 环境安装

Notion – The all-in-one workspace for your notes, tasks, wikis, and databases. 搭建开发环境 React Native 中文网 Homebrew&#xff08;包管理器&#xff09; → rvm&#xff08;ruby版本管理&#xff09; → ruby → cocoapods 安装 Homebrew Homebrew /bin/ba…

shell 循环 判断

for 循环 Shell 脚本里最简单的循环当属 for 循环。最简单的 for 循环如下所示&#xff0c;你只需将变量值依次写在 in 后面即可&#xff1a; #!/bin/bashfor num in 1 2 3 4 doecho $num done 如果要循环的内容是字母表里的连续字母或连续数字&#xff0c;那么就可以按以下语…

Matlab 使用 DH table 建立的 robot 和实际不符

机器人仿真 想借助 matlab robotics toolbox 来仿真机器人&#xff0c;但是直接输入自己的 DH table 显示出来的 robot 和实际不情况不符。 DH table 建立 robot Build Manipulator Robot Using Kinematic DH Parameters 主要使用 setFixedTransform&#xff0c;DH table 中…

智云谷再获资本市场青睐,完成数千万元A+轮融资

近日&#xff0c;深圳前海智云谷科技有限公司&#xff08;以下简称“智云谷”&#xff09;完成数千万元A轮融资&#xff0c;本轮融资由青松基金独家投资&#xff0c;多维资本担任独家融资财务顾问。本轮融资资金将用于扩大新技术研发投入、智能工厂扩产、加速产品交付&#xff…

K8S----YAML

kubernetes中资源可以使用YAML描述&#xff08;如果您对YAML格式不了解&#xff0c;可以参考YAML语法&#xff09;&#xff0c;也可以使用JSON。其内容可以分为如下四个部分&#xff1a; typeMeta&#xff1a;对象类型的元信息&#xff0c;声明对象使用哪个API版本&#xff0c…

Vue-20、Vue监测数组改变

1、数组调用以下方法Vue可以监测到。 arr.push(); 向数组的末尾追加元素 const array [1,2,3] const result array.push(4) // array [1,2,3,4] // result 4arr.pop(); 删除末尾的元素 const array [a, b] array.pop() // b array.pop() // a array.pop() // undefi…

【Shell编程练习】编写脚本测试 192.168.4.0/24 整个网段中哪些主机处于开机状态,哪些主机处于关机状态

系列文章目录 输出Hello World 通过位置变量创建 Linux 系统账户及密码 监控内存和磁盘容量&#xff0c;小于给定值时报警 猜大小 输入三个数并进行升序排序 系列文章目录编写脚本测试 192.168.4.0/24 整个网段中哪些主机处于开机状态,哪些主机处于关机状态 编写脚本测试 192.…

opencv_角点检测

文章内容 一个opencv检测角点的程序 运行效果 #include <opencv2/opencv.hpp> #include <opencv2/highgui/highgui.hpp> #include <opencv2/imgproc/imgproc.hpp> #include <iostream>using namespace cv; using namespace std;void detectCorners(M…

AI数字人短视频变现项目:打造短视频运营变现新模式

如今&#xff0c;随着科技的快速发展和人们对数字内容的增长需求&#xff0c;短视频成为了互联网用户最喜爱的娱乐方式之一。然而&#xff0c;在这个竞争激烈的市场中&#xff0c;如何为短视频创作者提供更多的变现机会成为了一个重要的问题。AI数字人短视频变现项目的出现&…

【RT-DETR改进涨点】MPDIoU、InnerMPDIoU损失函数中的No.1(包含二次创新)

前言 大家好&#xff0c;我是Snu77&#xff0c;这里是RT-DETR有效涨点专栏。 本专栏的内容为根据ultralytics版本的RT-DETR进行改进&#xff0c;内容持续更新&#xff0c;每周更新文章数量3-10篇。 专栏以ResNet18、ResNet50为基础修改版本&#xff0c;同时修改内容也支持Re…

深入解析多目标优化技术:理论、实践与优化

本文深入探讨了多目标优化技术及其在机器学习和深度学习中的应用&#xff0c;特别聚焦于遗传算法的原理和实践应用。我们从多目标优化的基础概念、常见算法、以及面临的挑战入手&#xff0c;进而详细介绍遗传算法的工作原理、Python代码实现&#xff0c;以及如何应用于实际的机…

【React源码 - Diff算法】

介绍 在React学习中&#xff0c;Diff算法(协调算法)&#xff0c;想必我们并不陌生&#xff0c;简单来说就是一个对比新老节点寻找差异&#xff0c;然后找出最小的一个变化集&#xff0c;最后对这个最小变化集进行最小的DOM操作&#xff0c;本文将从源码来分析在React(17.0.2)中…

四、任意文件读取漏洞

一、介绍 解释&#xff1a;任意文件读取漏洞就其本身来说就是&#xff0c;攻击者绕过网站防御者设置的防御&#xff0c;读取到了正常使用者不应该读取到的内容。网站开发者使用不同的语言&#xff0c;任意文件读取漏洞利用方式就不同。 二、不同开发语言的不同漏洞点 1.PHP …

韶音、南卡、Oladance开放式耳机值得买吗?超强机型对比环节!

​虽然很多耳机音频爱好者最近都爱上了使用开放式耳机&#xff0c;但是作为一个7年音频数码测评的老司机&#xff0c;我还是要提醒一下&#xff0c;目前有很多的开放式耳机过分强调外观颜值设计&#xff0c;在音质体验和佩戴舒适性上的效果极差&#xff0c;还会有很多漏音、破音…