突破开源天花板!最强文本转语音工具ChatTTS:对话式高可控的语音合成模型

ChatTTS 一夜爆火, 极速出圈, 3 天就斩获 9k 的 Star 量, 截止 2024.06.04, 已经 19.3k 的 star, 极速接近 GPT-soVITs 当天的 26.2k 的 star 数。

什么是ChatTTS?

TTS全称:Text To Speech(也就是文本转语音模型)。ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。

现在ChatTTS正式上线了官网,所有用户都可以直接在线体验了。

相关链接

ChatTTS中文官网:https://chattts.com/zh

GitHub项目地址:https://github.com/2noise/ChatTTS

Hugging Face模型地址:https://huggingface.co/2Noise/ChatTTS

使用页面

ChatTTS Web_UI链接:https://github.com/jianchang512/ChatTTS-ui

  • text:指的是需要转换成语音的文字内容。

  • Refine text:选择是否自动对输入的文本进行优化处理。

  • 随机度:一个控制输出随机性的参数,数值越大,生成的语音随机性越高,这可能导致生成的语音质量有时更好,有时更差。

  • 声音选择:默认值为2222,这是一个数字参数,用于选择声音的类型。可选的数字有2222、7869、6653、4099、5099,可以任选其一,或者输入其他数字以随机选择声音。

  • 定制声音:这是一个正整数参数,用于定制声音的音调和音色。如果设置了此值,将优先使用,而忽略声音选择参数。

  • 提示设置:用于添加笑声、停顿等效果。例如,可以设置为[oral_2][laugh_0][break_6]。

ChatTTS介绍

什么是ChatTTS?

TTS全称:Text To Speech(也就是文本转语音模型)

而ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。

ChatTTS亮点

  • 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。

  • 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。

  • 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。

计划路线

  • 开源4w小时基础模型和spk_stats文件

  • 开源VQ encoder和Lora 训练代码

  • 在非refine text情况下, 流式生成音频

  • 开源多情感可控的4w小时版本

  • ChatTTS.cpp

使用建议

对于30s的音频, 至少需要4G的显存. 对于4090, 1s生成约7个字所对应的音频. RTF约0.3.

模型稳定性不够好, 会出现其他说话人或音质很差的现象是由于自回归模型,说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免。可以多采样几次来找到合适的结果。

除了笑声还能控制什么吗? 还能控制其他情感吗? 在现在放出的模型版本中, 只有[laugh]和[uv_break], [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本.

免责声明

此repo仅用于学术目的。它旨在用于教育和研究用途,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。此 repo 中使用的信息和数据仅用于学术和研究目的。数据来自公开来源,作者不对数据主张任何所有权或版权。

ChatTTS 是一款功能强大的文本转语音系统。然而,负责任且合乎道德地使用这项技术非常重要。为了限制 ChatTTS 的使用,我们在 40,000 小时模型的训练过程中添加了少量高频噪音,并使用 MP3 格式尽可能压缩音频质量,以防止恶意行为者将其用于犯罪目的。同时,我们内部训练了一个检测模型,并计划在未来将其开源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/679329.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器视觉——找到物块中心点

首先先介绍一下我用的是HALCON中的HDevelop软件。 大家下载好软件后可以测试一下: 在程序编辑器窗口中输入下面指令: read_image(Image,monkey) 那么如果出现这样的图片,说明是没有问题的 那么本次编程采用的是下面这张图片 我们要达到的…

Rocky linux 搭建DNS主从服务器+keepalived实现高可用

接上两篇文章,这篇文章跟上两篇没有直接关系。 第一篇:linux rocky 搭建DNS服务和禁止AD域控DNS,做到独立DNS并加域_linux 域控-CSDN博客文章浏览阅读519次,点赞20次,收藏10次。使用linux rocky 搭建DNS服务&#xff…

景源畅信电商:抖音小店怎么做好运营?

在如今这个数字化时代,电商平台如雨后春笋般涌现,其中抖音小店以其独特的短视频营销模式迅速崛起。如何在这个竞争激烈的市场中占据一席之地,成为了许多商家和创业者思考的问题。下面,我们将深入探讨抖音小店的运营策略&#xff0…

淘宝镜像的https证书过期

错误原因: 淘宝镜像过期 早在 2021 年,淘宝就发文称,npm 淘宝镜像已经从 http://registry.npm.taobao.org 切换到了 http://registry.npmmirror.com。旧域名也将于 2022 年 5 月 31 日停止服务(直到 HTTPS 证书到期才真正不能用了…

一图读懂:Flink CDC如何流式写入Paimon?

一图读懂:Flink CDC如何流式写入Paimon? 以Mysql CDC至Paimon为例 整体架构 MySQL CDC SourceSnapshotReader读取快照全量数据,BinlogReader读取增量数据。 paimon sink 实现桶级别的写入,compactManager实现异步compaction co…

SpaceX: 太空火箭自主精准着陆

本文是根据Lars Blackmore在16年的一篇公开论文翻译而来,虽然有些早而且是科普文章,但是可以初见一些SpaceX火箭着陆的细节,后面我会对spaceX landing control 技术主管MIT博士期间研究火箭控制算法的论文进行讲解,敬请期待。 Lar…

【数据结构】二叉搜索树--BST,Binary Search Tree

文章目录 二叉搜索树1. 二叉搜索树的概念2. 二叉搜索树的接口2.1 查找非递归查找递归查找 2.2 中序遍历2.3 插入非递归插入递归插入 2.4 删除非递归删除递归删除 3. 二叉搜索树的应用key搜索模型kv搜索模型 5. oj题 二叉搜索树 1. 二叉搜索树的概念 二叉搜索树又称二叉排序树…

2021 hnust 湖科大 操作系统课设 报告+原代码+指导书+流程图源文件

2021 hnust 湖科大 操作系统课设 报告原代码指导书流程图源文件 详情 目录 验证类实验: 1 实验一:Windows进程管理 1 一、 实验题目: 1 二、 实验目的 1 三、 实验内容 1 四、 实验结果与分析 2 五、 小结与心得体会 5 实验二:L…

团队项目开发使用git工作流(IDEA)【精细】

目录 开发项目总体使用git流程 图解流程 1.创建项目仓库[组长完成] 2. 创建项目,并进行绑定远程仓库【组长完成】 3.将项目与远程仓库(gitee)进行绑定 3.1 创建本地的git仓库 3.2 将项目添加到缓存区 3.3 将项目提交到本地仓库&#…

【光谱特征选择】连续投影算法SPA(含python代码)

目录 一、背景 二、代码实现 三、项目代码 一、背景 连续投影算法(Successive Projection Algorithm,SPA)是一种用于光谱分离的简单且有效的算法。它主要应用于高光谱图像处理,用于提取混合光谱数据中的端元(endme…

从1.0到4.0,看看你公司的费控模式是第几代?

早在2021年9月,艾媒咨询在《2021H1企业费控报销服务专题研究报告》中,第一次对企业费用管控模式的进化历程进行了清晰的划代:1.0手工模式、2.0网报模式、3.0移动报销模式、4.0智能费控模式。 2022年,在《中国企业费用管理发展白皮…

边缘计算网关:企业数字化转型的重要支撑-天拓四方

在数字化浪潮席卷全球的今天,企业对于数据处理和传输的需求日益增强。然而,传统的数据处理模式往往依赖于中心化的数据中心,这种方式在处理大量数据时存在延迟高、成本高、安全性差等问题。数据量的激增和实时性要求的提高,使得传…

6个迹象表明你的电脑电缆管理很糟糕,看下你有没有中招

​清理电脑内部的电缆可能看起来像是徒劳的忙碌。毕竟,如果一切都正常,为什么还要麻烦呢?好吧,我有六个很好的理由可以说服你打开你的机箱,修复你电脑里的混乱。 你很难打开侧板 如果你的电缆离侧板的边缘太近,你将无法毫不费力地将它们滑开。虽然这不是你每天都要做的…

AUTOSAR术语表

AUTOSAR术语表 下面所有的缩写词汇均来自AUTOSAR官方资料AUTOSAR_TR_GLOSSARY.pdf,平常工作中遇到不知道意思的缩略词,编写代码取名称时都可以参考这个术语表。

vscode搭建esp-idf的esp32开发环境

一、安装esp-idf-tools-setup-offline-4.4.7 https://docs.espressif.com/projects/esp-idf/zh_CN/v5.1/esp32/get-started/windows-setup.html 二、vscode安装插件 ESP-IDF 安装完成点击左侧的图标 会自动查找系统中安装的ESP-IDF 自动完成配置 不成功的话 试着完成下面的操作…

Ubuntu server 24 (Linux) sudo 免输密码

1 sudo 使用要输入密码,费时费力。 2 sudo命令免输密码,需要修改/etc/sudoers文件 #本文以test用户为例,#允许不需要输入密码执行 sudo vi /etc/sudoers test ALL(ALL) NOPASSWD: ALL %sudo ALL(ALL:ALL) ALL --> #%sudo ALL(ALL:ALL) ALL#所有…

使用Python操作Redis

大家好,在当今的互联网时代,随着数据量和用户量的爆发式增长,对于数据存储和处理的需求也日益增加。Redis作为一种高性能的键值存储数据库,以其快速的读写速度、丰富的数据结构支持和灵活的应用场景而备受青睐。本文将介绍Redis数…

【猫狗识别系统】图像识别Python+TensorFlow+卷积神经网络算法+人工智能深度学习

猫狗识别系统。通过TensorFlow搭建MobileNetV2轻量级卷积神经算法网络模型,通过对猫狗的图片数据集进行训练,得到一个进度较高的H5格式的模型文件。然后使用Django框架搭建了一个Web网页端可视化操作界面。实现用户上传一张图片识别其名称。 一、前言 …

[第五空间 2021]WebFTP、[HCTF 2018]Warmup

目录 [第五空间 2021]WebFTP ​[SWPUCTF 2021 新生赛]Do_you_know_http [NCTF 2018]签到题 [HNCTF 2022 Week1]What is Web [HNCTF 2022 Week1]Interesting_http [HCTF 2018]Warmup [第五空间 2021]WebFTP 使用dirsearch扫描,发现有git泄露 使用GitHack克隆目…