当AI技术与语音合成相遇,开源技术众多,为什么 ChatTTS
能够一夜爆火?你有听说过能说情感真切文字的 AI 吗?
前言
想象一下,你只需输入一句话,AI就能念得声情并茂,不仅支持中英文混读,还能克隆声音,甚至在合适的地方加入语气词和停顿,听起来如同真人一般。
这并不是科幻小说中的场景,而是如今已经实现的技术。
近期,一款名为 ChatTTS
的开源文本转语音(TTS)工具一夜爆火,引起了广泛关注,现如今GitHub标星量已突破 24.1k
。
它究竟有何魅力,能在行业内外引起如此轰动呢?
ChatTTS 介绍
ChatTTS
,一个专为对话场景设计的文本转语音(TTS)模型,特别适用于大语言模型(LLM)助手对话任务、对话语音生成以及视频介绍等应用场景。
它不仅支持中英文混合文本的语音合成,更重要的是,音色表现极其逼真,几乎达到了真假难辨的程度。
与字节跳动最新推出的LLM语音合成工具相比,ChatTTS在音质之外的各个方面表现更为出色。
这个项目在GitHub上一夜爆火,引起了广泛的关注和讨论。
该模型经过了超过10万小时的中英文数据训练,目前在HuggingFace上开源的版本为经过4万小时训练且未进行后续微调的版本。
特色功能:
-
中英文混读: 无论是中文还是英文,ChatTTS都能流畅地进行语音合成,且能够在一句话中实现两种语言的自然切换。
-
情感表达: ChatTTS不仅能简单地读出文字,还能根据内容的需要,自动添加合适的语气词和停顿,使得语音听起来更有感情。
-
高保真音色: 通过大量数据训练,ChatTTS的语音输出极其逼真,甚至可以模仿特定人物的声音,让人难辨真假。
-
语速与停顿调节: 用户可以微调控制语速和加入停顿,满足个性化的语音需求。
-
开源与可扩展性: 作为开源项目,用户可以自行部署和测试ChatTTS,进行个性化调整和开发。
使用方法
要使用ChatTTS,你可以选择自行部署或使用已经搭建好的平台。
1、自行部署
-
**环境准备:**确保你有一张性能良好的显卡,并安装所需的软件环境。
-
**获取代码:**在GitHub上克隆ChatTTS项目代码
-
**安装依赖:**按照项目文档安装所有必要的依赖项。
-
**运行模型:**使用提供的脚本运行ChatTTS模型,输入文本即可生成语音。
-
**微调与测试:**根据需要对模型进行微调,测试不同的语速、停顿和音色设置,获取最佳效果。
2、第三方开发者搭建ChatTTS平台
自从ChatTTS这个项目爆火之前,很多个人开发者或者企业已经着手免费或付费的方式搭建了私有的平台。
接下来为大家提供几个ChatTTS免费使用平台。
ChatTTS.com 这款工具应该是使用人数比较多的一款在线ChatTTS了,毕竟它真的很官方,但听别人说是三方部署的,支持多国语言。
chattts.in 也是可以的,但是你会发现很多再搭建的平台都是基于chattts.com的模版来的。
那么应该如何使用它来帮助我们生成一个具有情感的音频呢,只需在输入栏输入想要转换成语音的文本,其他参数默认即可(纯中文、纯英文、中英混合都可以)
示例:Let’s practice writing now! 就像踢足球一样,各个方面都需要不断锻炼才能进步。Writing is like playing football, you need to keep practicing to improve.写作就是要不断积累词汇和句型,多读多写才能提高自己的写作水平。Don’t be afraid of making mistakes, making mistakes can help us learn more.不要害怕写错了,多犯错才能学到更多东西。Believe in yourself, persevere, and success is waiting for us ahead!相信自己,坚持下去,成功就在前方等着我们!
示例音频结果:
实际效果真的不骗人,比以往用的任何开源TTS效果都要好。还有就是如果文本太长,生成的语音超过30秒,ChatTTS会拆取前30秒音频片段作为结果,因为它最长就是支持30秒。
如果想要了解ChatTTS 其他各个参数代表什么意思,下面我也为大家罗列说明下,基于自己的理解可以一一尝试效果有什么不同之处。
Audio Seed: 用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。推荐 Seed: 3798-知性女、462-大舌头女、2424-低沉男。
Text Seed: 类似于 Audio Seed,在文本生成阶段用于初始化随机数生成器的种子值。
Refine Text: 勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。
Audio Temperature️: 控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。
Top_P: 核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
Top_K: 限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。
生成结果文本中,你会发现多出了这样[]的符号,它是表示一些预期、停顿以及笑声之类的控制。
[oral_(0-9)]:
控制口音强度
[laugh_(0-2)]:
控制笑声
[break_(0-7)]:
控制停顿时间
应用场景
无论输入中文还是英文,ChatTTS都能以不同音色将文字念出,更可以微调语速、加入停顿和语气词,甚至模仿口头禅。
ChatTTS的应用场景非常广泛,无论是智能助手对话任务、视频介绍,还是任何需要语音输出的场合,ChatTTS都能提供高质量的语音服务。它让机器的声音更加人性化,提升了用户体验。
-
**智能助手:**为智能助手提供更自然的语音交互体验,使用户感觉仿佛在与真人对话。
-
**教育领域:**为在线课程和教育平台生成高质量的语音内容,提升学习体验。
-
**视频制作:**为视频内容添加生动的语音解说,增加观众的参与感。
-
**客户服务:**在自动化客服系统中使用,提供更友好、更具互动性的服务体验。
-
**个性化语音服务:**为有特殊需求的用户,如视障人士,提供个性化的语音辅助。
总结
ChatTTS的爆火并非偶然, ChatTTS以其逼真的语音合成效果和强大的功能,彻底突破了开源TTS模型的天花板。
它不仅在中英文混读、情感表达等方面表现出色,还提供了高度的可调节性和个性化服务潜力。这款工具的出现,无疑为各类对话场景和语音应用带来了新的可能性。
如果你对语音合成技术感兴趣,不妨亲自体验一下ChatTTS的强大功能。只需输入文字,它便能为你生成如同真人一般的语音效果。赶快试试吧,探索AI技术带来的无穷可能!
GitHub项目地址:github.com/2noise/ChatTTS
小编也收集了一些三方ChatTTS搭建平台,如有需要文本资料可后台回复“ChatTTS”