前言
- 本文使用工具:
- Anaconda :直接进行包管理,用来自定义生成python解释器,虚拟环境
- vscode:用来执行代码
注:我使用的Ubuntu,使用win,mac等,需要额外配置
简介
ChatTTS是专门为对话场景设计的文本转语音模型,bilibili宣传视频
项目地址
安装
1. 创建虚拟环境并激活:
conda create -n chattts_env python=3.11
conda activate chattts_env
2. 克隆项目并安装依赖:
git clone https://github.com/2noise/ChatTTS.git
cd ChatTTS
pip install -r requirements.txt
3. 文章目录结构
├── ChatTTS
│ ├── core.py
│ ├── experimental
│ │ └── llm.py
│ ├── infer
│ │ └── api.py
│ ├── __init__.py
│ ├── model
│ │ ├── dvae.py
│ │ └── gpt.py
│ └── utils
│ ├── gpu_utils.py
│ ├── infer_utils.py
│ └── io_utils.py
├── example.ipynb
├── LICENSE
├── README_CN.md
├── README.md
├── requirements.txt
└── webui.py
使用
- 输入
code .
用打开vscode,启动webui.py
问题
Q:安装依赖过程中遇到了下载CUDA组件错误
A:因为代码需要使用到pytorch框架,所以可以看我的这篇文章手动配置CUDA组件https://blog.csdn.net/unravel_tom/article/details/139197086
主要是用win
来配置的
ubuntu就可以使用以下命令直接配置
conda install -c conda-forge cudatoolkit=12.1 cudnn=8.9
Q:缺少常见的依赖
A:
pip install gradio
pip install WeTextProcessing
Gradio 是一个非常有用的工具,用于创建交互式的机器学习应用界面。它允许用户通过简单的代码快速搭建网络界面,方便展示和测试模型。它支持多种输入和输出类型,包括文本、图像、音频等,且易于集成和部署。
WeTextProcessing 是一个用于文本处理的库,包含多种文本预处理和特征提取工具。这些工具包括分词、词性标注、命名实体识别、情感分析等,帮助开发者在自然语言处理(NLP)任务中更高效地处理和分析文本数据。它支持多种语言,易于集成到现有的NLP工作流中,是开发和研究文本处理应用的有力工具。