概述
分享可以一个专门为对话场景设计的文本转语音模型ChatTTS,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本.
该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。标签有[laugh]和[uv_break], [lbreak]。在韵律上也有很好的表现。
github开源地址:ChatTTS
测试项目
原项目模型整合了一下,封装成一个带有测试页面的项目。
可以直接使用,github地址:测试项目github
需要下载模型,解压到项目下,放在百度云盘了。
模型下载链接:https://pan.baidu.com/s/1RjxJFM9N_PSMA468MQcICg
提取码:om8p
按照README步骤执行webui py文件。
页面效果如下
文字中可以穿插打断和大笑标签,[laugh],[uv_break],[lbreak],文字样例如下:
这是正常的说话是这样子[uv_break]。带笑的说话是这样[laugh],可以听出区别吗。