服务器环境:
显卡驱动:Driver Version: 530.30.02
CUDA版本:CUDA Version: 12.1
显卡:NVIDIA GeForce RTX 3090共4张
注意:最好把显卡驱动升级到530,CUDA版本之前使用11.7有问题。
一、下载模型文件
通义千问-7B-Chat模型下载地址:通义千问-7B-Chat · 模型库 (modelscope.cn)
通义千问-7B-Chat-int4模型下载地址:通义千问-7B-Chat-Int4 · 模型库 (modelscope.cn)
二、配置docker-compose
docker-compose.yml文件内容如下:
version: '3'
services:
qwen7b_api:
container_name: LLMs_qwen7b_api
environment:
TZ: Asia/Shanghai
image: qwenllm/qwen:cu121
runtime: nvidia
restart: always
networks:
- general
deploy:
resources:
reservations:
devices:
- device_ids: ['2','3']
capabilities: ["gpu"]
driver: "nvidia"
ports:
- "8003:8000"
volumes:
# 使用全量模型
#- ./Qwen-7B-Chat:/data/shared/Qwen/Qwen/Qwen-7B-Chat
# 使用int4量化模型
- ./Qwen-7B-Chat-int4:/data/shared/Qwen/Qwen/Qwen-7B-Chat
command:
[
"/bin/sh",
"-c",
"python openai_api.py --server-name 0.0.0.0",
]
networks:
general:
external: true
文件结构如下:
docker-compose中的volumes可自定义使用全量模型还是int4量化模型。
三、接入one-api
四、接入fastgpt
fastgpt的config.json配置:
"llmModels": [
{
"model": "qianwen",
"name": "通义千问7b模型",
"maxContext": 4000,
"maxResponse": 4000,
"quoteMaxToken": 2000,
"maxTemperature": 1,
"vision": false,
"defaultSystemChatPrompt": ""
}
]
测试反应速度可以
参考:容器 纯新手 docker langchain Qwen1.5 部署 - 夸智网 (kuazhi.com)
以容器方式部署通义千问 Qwen - dudu - 博客园 (cnblogs.com)
通义千问本地部署教程Qwen-7B-Chat Qwen1.5-1.8B Windows-详细认真版_qwen1.5 本地部署-CSDN博客 通义千问-7B-Chat-Int4 · 模型库 (modelscope.cn)
qwenllm/qwen Tags | Docker Hub
Qwen/README_CN.md at main · QwenLM/Qwen (github.com)