最近,一个名为 ChatTTS 文本转语音项目爆火出圈,短短三天时间,在 GitHub 上已经斩获了 9.2 k 的 Star 量。
ChatTTS:对话式文本转语音模型
项目地址:https://github.com/2noise/ChatTTS/tree/main
体验地址:https://huggingface.co/2Noise/ChatTTS
ChatTTS 是专门为对话场景设计的文本到语音 TTS 模型。它支持中文和英语,包括中英混合模式。据了解,ChatTTS 经过 10万+ 小时的训练,并在 HuggingFace 上提供了一个 4 万小时预训练的模型。
ChatTTS 主要有两种核心功能,第一种是文字转语音,第二种是将与大语言模型实时语音对话。在这些功能之外,可以在「Audio Seed」处调节数字指定说话人的音色,或者摇骰子随机生成一种。
ChatTTS 主要亮点:
- 对话式 TTS: ChatTTS 针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
- 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
- 更好的韵律: ChatTTS 在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。
在线体验地址:https://huggingface.co/spaces/Dzkaka/ChatTTS
作者也在 x 上表示,ChatTTS 突破了开源天花板。不过,目前开源的只是底模,没有经过 SFT 监督微调。
开箱即用的 ChatTTS 安装包来了
开源社区有位大佬为它创建 Web 界面和 API 接口,提供了网页中使用 ChatTTS 合成语音及 API 接口服务,支持 Windows、Linux、macOS 部署。其中 Windows 用户可直接下载安装包,一键安装开箱即用!
GitHub地址:github.com/jianchang512/ChatTTS-ui
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。