ChatTTS 是一个专为交互式语音准备的AI语音合成项目,特点是自然,逼真,可把控声音细节,能说能笑能停顿。
效果演示
具体内容,已经在另外的文章中介绍过。
本文主要是关注两个点。
- 如何在Windows上安装这个项目。
- 分享一个已经制作好的一键运行包。
本地安装
准备工作
硬件:带英伟达显卡(显存4G+)的电脑
系统:Windows10/11
软件:git,miniconda,魔法工具
本文针对有一定基础的人,所以默认大家清楚知道上面的软硬件配置,默认大家能理解CMD命令。这些文章我就不写废话了,专注于核心内容。
如果对一些基础知识不了解的可以查看以往的基础知识类文章。
配置过程
克隆项目
git clone https://github.com/2noise/ChatTTS.git
cd ChatTTS
打开CMD,进入一个文件,执行上面的命令。
创建虚拟环境
使用miniconda创建一个Python的虚拟环境,并激活。
conda create -n chattts python=3.10
conda activate chattts
装了miniconda的话,系统中就无需单独安装Python了。只要通过命令创建一个虚拟环境即可。
安装过程比较依赖网络,需要全包网络通畅。
安装依赖
激活虚拟环境之后,就可以安装Python的依赖包了。
先安装一下torch
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
然后安装requirements文件里的依赖。
pip install -r requirements.txt
为了在本地运行.ipynb(Jupyter Notebook)文件,还需要安装一个依赖。
pip install notebook
运行Jupyter 笔记本
jupyter notebook
启动成功之后,浏览器会自动打开。
在下方的文件列表中双击打开inter.ipynb文件。
然后依次运行代码块。
运行过程中会使用本地的显卡,另外会去HF上下载模型,所以包保证硬件够用,网络通畅。
运行成功的话,会自动播放生成的语音。
输出一堆日志的问题
wavs = chat.infer(texts, use_decoder=True)
首次运行会出现很多日志,看起来像是出错了,这个不用管!等待底部进度条不动了,就证明已经运行完成。
修改语音内容
texts = ["So we found being competitive and collaborative was a huge way of staying motivated towards our goals, so one person to call when you fall off, one person who gets you back on then one person to actually do the activity with.",]*3 \
+ ["我觉得像我们这些写程序的人,他,我觉得多多少少可能会对开源有一种情怀在吧我觉得开源是一个很好的形式。现在其实最先进的技术掌握在一些公司的手里的话,就他们并不会轻易的开放给所有的人用。"]*3
只要修改这里的列表内容就可以了。这里总共有六段语音,前三段是重复的英语,后三段是重复的中文。
播放语音
Audio(wavs[0], rate=24_000, autoplay=True)
Audio(wavs[3], rate=24_000, autoplay=True)
运行这两行命令,就会自动播放语音了。第一个命令播放列表里的第一段语音,第二个命令播放列表里的第四段语音。
自定义参数
params_infer_code = {'spk_emb' : rand_spk, 'temperature':.3}
params_refine_text = {'prompt':'[oral_2][laugh_0][break_6]'}
wav = chat.infer('四川美食可多了,有麻辣火锅、宫保鸡丁、麻婆豆腐、担担面、回锅肉、夫妻肺片等,每样都让人垂涎三尺。', params_refine_text=params_refine_text, params_infer_code=params_infer_code)
wav = chat.infer('四川美食确实以辣闻名,但也有不辣的选择。比如甜水面、赖汤圆、蛋烘糕、叶儿粑等,这些小吃口味温和,甜而不腻,也很受欢迎。', params_refine_text=params_refine_text, params_infer_code=params_infer_code)
通过params_infer_code和params_refine_text可以自定义参数,这里包
括声音的设定,断句,笑声等的自动插入。
注意点
代码和依赖更新之后,可能安装过程会有差异。
torch2.0.1版本会报错,我改成了目前最新的2.3.0版本。
inter.ipynb文件已经变成了example.ipynb文件。
Windows上安装的核心配置都在上面了,下面说下一键运行包。
一键运行包
一键运行包,遵循 ALL IN PC的原则。
就是所有的东西都在一个包里,无需联网,无需单独配置,在个人电脑中,可以一键启动,快速使用。
为了让大家使用更加方便,一件包不需要运行代码块,而是会用WEBUI。
获取压缩包后,输入解压密码解压,然后双击“启动.exe”启动程序。
启动之后,跳出黑色命令窗口。
这个窗口上会显示运行日志。
当出现,Runing on local URL:xxxx之后,代表启动成功。
程序会自动调用本地默认浏览器,打开本地的指定网址。
然后按下图的步骤,点一下就可以完成AI语音生成了。
- 输入想要合成的文字内容
- 点击合成
- 在线试听合成效果
- 点击下载到本地
界面上还有一些参数,一般不用动,懂得可以根据自己需求,做适当调整。
这个UI还有很大升级空间,比如目前只有一个声音,比较合理的是,多个发音人可选。
这种就慢慢搞了,今天先这样。
收工收工,大家记得动动手指!
获取软件包
见博客文章底部:ChatTTS:Win11本地安装和一键运行包! – 托尼不是塔克