TTS之Seed-VC:Seed-VC的简介、安装和使用方法、案例应用之详细攻略
目录
Seed-VC 项目简介
1、Seed-VC 的特点
Seed-VC 的安装和使用方法
1、安装
2、使用方法:
T1、命令行接口
T2、Gradio 网页界面
T3、在线测试
3、实时语音转换GUI
Seed-VC 的案例应用
1、零样本语音转换评估
2、零样本唱歌语音转换评估
Seed-VC 项目简介
2024年9月,Seed-VC是一个先进的零样本语音转换和唱歌语音转换模型,它利用上下文学习技术,无需任何训练即可克隆语音。只需提供1到30秒的参考语音,Seed-VC就能转换任意语音到目标语音风格。该项目目前支持零样本语音转换、零样本实时语音转换和零样本唱歌语音转换。
GitHub地址:https://github.com/Plachtaa/seed-vc
1、Seed-VC 的特点
>> 零样本语音转换:无需针对目标说话人进行训练,即可将语音转换成目标说话人的声音。
>> 零样本实时语音转换:支持实时语音转换,能够进行即时的语音克隆。
>> 零样本唱歌语音转换:能够将语音转换成目标说话人的歌声。
>> 高性能:在客观评估中,Seed-VC在语音清晰度和说话人相似度方面显著优于OpenVoice和CosyVoice等基准模型,甚至在某些情况下也优于一些非零样本语音转换模型(如So-VITS-4.0)。
>> 多语言支持:项目提供英文、简体中文和日语的README文档。
>> 多种接口:提供命令行接口、Gradio网页界面和实时语音转换GUI。
Seed-VC 的安装和使用方法
1、安装
建议使用Python 3.10版本在Windows或Linux系统上运行。安装依赖包:
pip install -r requirements.txt
2、使用方法:
T1、命令行接口
python inference.py --source <source-wav>
--target <referene-wav>
--output <output-dir>
--diffusion-steps 25 # recommended 50~100 for singingvoice conversion
--length-adjust 1.0
--inference-cfg-rate 0.7
--f0-condition False # set to True for singing voice conversion
--auto-f0-adjust False # set to True to auto adjust source pitch to target pitch level, normally not used in singing voice conversion
--semi-tone-shift 0 # pitch shift in semitones for singing voice conversion
参数说明:
source:待转换语音文件的路径。
target:目标语音(参考语音)文件的路径。
output:输出目录的路径。
diffusion-steps:扩散步骤数,默认25,唱歌语音转换建议使用50-100,快速转换可以使用4-10。
length-adjust:长度调整因子,默认1.0,小于1.0加快语音速度,大于1.0减慢语音速度。
inference-cfg-rate:对输出有细微影响,默认0.7。
f0-condition:是否根据源音频的音高调整输出音高,默认False,唱歌语音转换设置为True。
auto-f0-adjust:是否自动调整源音频音高到目标音高水平,默认False,唱歌语音转换通常不使用。
semi-tone-shift:唱歌语音转换的音高偏移(半音),默认0。
T2、Gradio 网页界面
运行 python app.py,然后在浏览器打开 http://localhost:7860/ 使用网页界面。
python app.py
T3、在线测试
测试地址:Seed-VC
3、实时语音转换GUI
运行 python real-time-gui.py。强烈建议使用GPU进行实时语音转换。 项目中提供了不同GPU配置下的参数建议,以优化性能和质量。
python real-time-gui.py
Seed-VC 的案例应用
项目提供了大量的客观评估结果,包括零样本语音转换和零样本唱歌语音转换的评估。
1、零样本语音转换评估
使用LibriTTS-test-clean数据集的100个随机语句作为源音频,以及12个随机选择的真实语音作为参考音频。评估指标包括说话人嵌入余弦相似度(SECS)、词错误率(WER)和字符错误率(CER)。结果表明,Seed-VC显著优于OpenVoice和CosyVoice基准模型。 还与非零样本模型(So-VITS-4.0)进行了比较,结果显示Seed-VC即使未在目标说话人上进行训练,也能取得更好的结果。
python eval.py
--source ./examples/libritts-test-clean
--target ./examples/reference
--output ./examples/eval/converted
--diffusion-steps 25
--length-adjust 1.0
--inference-cfg-rate 0.7
--xvector-extractor "resemblyzer"
--baseline "" # fill in openvoice or cosyvoice to compute baseline result
--max-samples 100 # max source utterances to go through
2、零样本唱歌语音转换评估
使用M4Singer数据集进行评估,比较了Seed-VC与针对每个说话人训练的RVCv2-f0-48k模型。评估指标包括F0CORR、F0RMSE、SECS和CER。结果显示,Seed-VC在说话人相似度和清晰度方面优于RVCv2模型,但音频质量略低,项目组表示未来会优先改进音频质量。