前言
首先感谢智谱AI和清华大学 KEG 实验室联合开源的ChatGLM3对话预训练模型,让我们国人有属于自己的AI聊天机器人。
ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。
默认情况下,模型以 FP16 精度加载,测试运行需要大概 16GB 显存。如果你的 GPU 显存有限,可以尝试以量化方式加载模型,或者CPU运算方式测试运行模型,下面流程是基于GPU的。
ChatGLM2和ChatGLM3性能对比
与二代模型相比,其效果平均提升了超过 50%
安装流程
1 部署python>=3.10运行环境(使用conda)
2 安装duda和cudnn(比较麻烦,cudnn需要登录NVIDIA,cudnn下载我是科学上网通过的)
3 安装torch和torch.cuda
4 chatGML3源码下载
5 chatGML3-6b-8k模型下载
6 修改测试代码模型的路径为本地
下载安装conda
conda是什么不过多介绍了,自行百度。。
下载地址:Free Download | Anaconda
安装对应版本的CUDA 和 cuDNN
好吧,先说一下cuda是什么还有cuDNN是什么
CUDA 是 NVIDIA 公司推出的一种通用并行计算架构,全称为 Compute Unified Device Architecture。它旨在让软件开发人员能够利用 NVIDIA GPU(图形处理器)的强大并行计算能力来解决复杂的计算问题,尤其是在那些原本由 CPU(中央处理器)执行时效率较低或耗时较长的任务上。
cuDNN 是 NVIDIA 提供的用于深度神经网络的 GPU 加速库,它高效实现了深度学习中常见的运算原语(如卷积、池化、归一化和激活函数),旨在提升深度学习模型训练和推理的性能、易用性和内存效率。
注意:CUDA和cuDNN在模型测推理和下载pytorch版本时候都是相关联的
查看自己电脑对应的cuda版本号
按住win + R 调出命令终端,输出cmd
nvidia-smi
上图红色框内的12.4就是cuda的版本
CUDA的安装链接: CUDA
本地和软件下载都一样不要纠结。。。。。这个文件也比较大,需要一些时间。
这是一个很详细的cuda和cuDNN安装教程,包括一些环境变量的配置:链接: CUDA安装教程.
创建虚拟环境
conda create -n chatglm3 python=3.10
conda activate chatglm3
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
注意:python版本需要>=3.10
pytorch-cuda版本的查看地址: pytorch
注意:pytorch-cuda=12.1 12.1要修改为您自己对应的版本,而且版本一定要和cuda的版本对应!
验证torch.cuda是否安装成功
import torch
print(torch.cuda.is_available())
返回true代表成功
ChatGLM3源码安装
切换到conda
模型基础运行代码已经上传到 github 和 SwanHub 两个平台,两个平台的信息同步。开发者通过以下方式下载模型代码。
从 github 下载源码
git clone https://github.com/THUDM/ChatGLM3.git
从 SwanHub 下载源码
git clone https://swanhub.co/ZhipuAI/ChatGLM3.git
安装扩展
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn
下载预训练好的基础模型文件
Huggingface 下载
git lfs install
git clone https://huggingface.co/THUDM/chatglm3-6b.git
Modelscope 下载
git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git
SwanHub 下载
git lfs install
git clone https://swanhub.co/ZhipuAI/chatglm3-6b.git
注意:这里文件比较大,需要一些时间的,下载好就是下面的样子
测试模型demo
MODEL_PATH 是模型文件存储的地方,也就是预训练的基础文件目录
TOKENIZER_PATH 是分词器目录,和MODEL_PATH一样就可以
注意:我的显卡是4090 24G显存,如果你的低于这个配置,最好模型量化测试,不然不知道显卡会不会烧坏。。。。
模型量化
量化方式加载模型,使用方法如下:
model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).quantize(4).cuda()
CPU 部署
如果你没有 GPU 硬件的话,也可以在 CPU 上进行推理,但是推理速度会更慢。
注意:除了慢还需要至少32G以上内存
model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).float()
运行测试
测试文件在basic_demo目录下
python cli_demo.py
当出现一下画面,就可以和chatglm3对话了!!!兄弟,点个赞吧!!!!
web_demo_gradio.py 是页面的demo,python web_demo_gradio.py 运行。
关注我:后续还会更新如何微调 chatglm3 ,也就是让它成为你的个性化ai智能语言模型。