本系列文章系本人知乎账号迁移
本文系个人知乎专栏文章迁移
VALL-E 网络是GPT-SOVITS很重要的参考
知乎专栏地址:
语音生成专栏
相关文章链接:
【VALL-E-01】环境搭建
【VALL-E-02】核心原理
1、环境包使用
从效果看没有GPT-SOVITS 来的好
环境安装后直接点击“启动软件GPU版”,会打开上述网页
2、源码demo举例
2.1、导入pycharm工程
在 pycharm 中创建工程,并增加相应的包。python解码器也直接用一键包中的环境。如下
2.2、基础 TTS 举例
from utils.generation import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio
preload_models()
text = """
测试一段语音生成的效果
"""
audio_array = generate_audio(text)
write_wav("test1.wav", SAMPLE_RATE, audio_array)
Audio(audio_array, rate=SAMPLE_RATE)
2.3、自定义 prompt
from utils.generation import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from utils.prompt_making import make_prompt
make_prompt(name="shantianfang", audio_prompt_path="shantianfang.wav")
preload_models()
text = """
测试一段语音生成的效果,看下是否相似
"""
audio_array = generate_audio(text, prompt="shantianfang")
write_wav("test2.wav", SAMPLE_RATE, audio_array)
- 需要创建 prompts 和 customs 两个文件夹
- prompts 会保存 prompts原始的音频文件,customs 保存特征生成
- 这里会使用单田芳的prompts 去生成文本对应的语音,并保存在文件中