Langchain-Chatchat本地部署

1.前言:

最近AI爆发式的火,忆往昔尤记得16,17那会移动互联网是特别火热的,也造富了一批公司和个人,出来了很多精妙的app应用。现在轮到AI发力了,想想自己也应该参与到这场时代的浪潮之中,所以就找了开源的项目来玩一玩,学习下里面的知识。不管最后结果有没有造富自己,学到的知识总是有用的,至少不会让自己在AI时代掉队。今天要讲的是LangChain-chatchat, 用官网自己的话来说就是: 基于 Langchain 与 ChatGLM 等大语言模型的本地知识库问答应用实现。 一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

界面如下:

image-20240310194452916

2.安装步骤:

官网有三种安装方式:

1.autoDL

2.docker

3.本地部署

第一种其实比较方便和实惠,机器配置不够也可以跑模型,每个小时几块钱,而且都是autoDL有对应的镜像可以直接运行,非常的便捷。

第二种大概有40G的包,部署也算比较方便。

今天我们讲的是第三种本地部署,虽然比较麻烦,但是在自己机器上部署方便调试,也更容易去了解整个项目是怎么运行的,对于学习来说是比较好的。

2.1 前置条件

硬件:

  • 官网推荐:

    • 本框架使用 fschat驱动,统一使用 huggingface进行推理,其他推理方式(如 llama-cppTensorRT加速引擎 建议通过推理引擎以 API 形式接入我们的框架)。

      同时, 我们没有对 Int4 模型进行适配,不保证Int4模型能够正常运行。因此,量化版本暂时需要由开发者自行适配, 我们可能在未来放。

      如果想要顺利在GPU运行本地模型的 FP16 版本,你至少需要以下的硬件配置,来保证在我们框架下能够实现 稳定连续对话

      • ChatGLM3-6B & LLaMA-7B-Chat 等 7B模型
        • 最低显存要求: 14GB
        • 推荐显卡: RTX 4080
      • Qwen-14B-Chat 等 14B模型
        • 最低显存要求: 30GB
        • 推荐显卡: V100
      • Yi-34B-Chat 等 34B模型
        • 最低显存要求: 69GB
        • 推荐显卡: A100
      • Qwen-72B-Chat 等 72B模型
        • 最低显存要求: 145GB
        • 推荐显卡:多卡 A100 以上

      一种简单的估算方式为:

      FP16: 显存占用(GB) = 模型量级 x 2
      Int4: 显存占用(GB) = 模型量级 x 0.75
      

      以上数据仅为估算,实际情况以 nvidia-smi 占用为准。 请注意,如果使用最低配置,仅能保证代码能够运行,但运行速度较慢,体验不佳。

      同时,Embedding 模型将会占用 1-2G 的显存,历史记录最多会占用 数GB 的显存,因此,需要多冗余一些显存。

      内存最低要求: 内存要求至少应该比模型运行的显存大。

      例如,运行ChatGLM3-6B FP16 模型,显存占用13G,推荐使用16G以上内存。

      部分测试用机配置参考,在以下机器下开发组成员已经进行原生模拟测试(创建新环境并根据要求下载后运行),确保能流畅运行全部功能的代码框架。

      • 服务器
      处理器: Intel® Xeon® Platinum 8558P Processor (260M Cache, 2.7 GHz)
      内存: 4 TB
      显卡组:  NVIDIA H800 SXM5 80GB x 8
      硬盘: 6 PB 
      操作系统: Ubuntu 22.04 LTS,Linux kernel 5.15.0-60-generic
      显卡驱动版本: 535.129.03
      Cuda版本: 12.1 
      Python版本: 3.11.7
      网络IP地址:美国,洛杉矶
      
      • 个人PC
      处理器: Intel® Core™ i9 processor 14900K 
      内存: 256 GB DDR5
      显卡组:  NVIDIA RTX4090 X 1 / NVIDIA RTXA6000 X 1
      硬盘: 1 TB
      操作系统: Ubuntu 22.04 LTS / Arch Linux, Linux Kernel 6.6.7
      显卡驱动版本: 545.29.06
      Cuda版本: 12.3 Update 1
      Python版本: 3.11.7
      网络IP地址:中国,上海 
      
  • 我的电脑:

    处理器: 13th Gen Intel(R) Core(TM) i5-13490F
    内存: 32GB DDR5
    显卡组:  NVIDIA RTX4060
    硬盘: 2TB
    操作系统: windows wsl2安装的Ubuntu 22.04.3 LTS
    显卡驱动版本: 545.29.06
    Cuda版本: 12.2
    Python版本: 3.10.12
    

软件:

  • 官网推荐:

    要顺利运行本代码,请按照以下系统要求进行配置

    已经测试过的系统

    • Linux Ubuntu 22.04.5 kernel version 6.7

    其他系统可能出现系统兼容性问题。

    最低要求

    该要求仅针对标准模式,轻量模式使用在线模型,不需要安装torch等库,也不需要显卡即可运行。

    • Python 版本: >= 3.8(很不稳定), < 3.12
    • CUDA 版本: >= 12.1

    推荐要求

    开发者在以下环境下进行代码调试,在该环境下能够避免最多环境问题。

    • Python 版本 == 3.11.7

    • CUDA 版本: == 12.1

  • 笔者电脑:

    • 系统:windows wsl2安装的Ubuntu 22.04.3 LTS
    • python版本: 3.10.12
    • CUDA版本:12.2

之所以提一下电脑硬件软件的配置,因为可能存在刚好有读者跟我的差不太多的硬件配置,或者比我好的硬件配置就是可以跑起来的。而且软件这个我可以跑起来的话,也验证了在我这个系统,python版本,CUDA版本的组合是可以运行起来的,也可以给别人一个参考。要注意一点的就是,如果你跟我一样的是使用windows的系统,然后wsl走的linux系统,提一嘴就是windows上安装的cuda版本可能会跟linux系统的cuda版本不一样的情况,最后是卸载掉弄成一样的,小于11.7的话跑通义千问的模型会有问题,虽然我跑通义千问的模型还没有成功,但是在解决一个安装qwen模型的时候遇到一个问题就是安装某个依赖库的时候要求cuda版本大于11.7。

2.2 部署步骤

  • 拉取代码

    # 拉取仓库
    $ git clone --recursive https://github.com/chatchat-space/Langchain-Chatchat.git
    
    # 进入目录
    $ cd Langchain-Chatchat
    
    # 安装全部依赖
    $ pip install -r requirements.txt
    
  • 下载模型

    # 安装模型,这一步如果没有进行,启动项目的时候回自动从https://huggingface.co/上面下载,不过问题就是
    # 国内从https://huggingface.co/上下载模型是很慢的。所以建议先从modelscope(魔塔上下载模型),然后在
    # 项目的configs/model_config.py填写好MODEL_ROOT_PATH地址,这样不用从外部下载模型直接跑对于第一次运
    # 行会快很多。 
    
    # 下载模型,下载模型需要先安装Git LFS,然后运行。官网使用的是https://huggingface.co的包,我这里修
    # 改成魔塔的仓库地址了。不过要提一点的是虽然官网要你下载了这两个模型,如果没有修改配置文件里面的话,跑
    # 起来用的并不这两个模型。chatglm2-6b这个是llm(大语言模型),m3e-base这个是embeding模型。需要在
    
    $ git lfs install
    $ git clone https://www.modelscope.cn/ZhipuAI/chatglm2-6b.git
    $ git clone https://www.modelscope.cn/Jerry0/m3e-base.git
    
    • 配置模型

    将项目中configs/model_config.py里面的LLM_MODELS里面增加上chatglm2-6b,EMBEDDING_MODEL配置上m3e-base。配置完之后,才会在启动的时候使用下载的这两个模型,要不然会使用默认的模型。chatglm3-6b和bge-large-zh-v1.5。

    image-20240310193905361

    tips:因为上面说的这两个模型是已经有开发者验证过的所以在下面的模型列表里面是有的,下载完模型,修改下配置文件就可以用。但是如果模型列表里面没有的模型加载进来,不一定可以跑。这个要注意下!

image-20240310193814840

  • 启动项目

    如果什么问题到没有出现的话,就会是这样一个界面,上面会显示加载的LLM模型,使用的Embedings模型,项目api文档地址和webui的地址。

    image-20240310194211001

​ 可以看到我们可以访问本地的8501端口就可以进入到web界面。

image-20240310194452916

  • 实践效果

使用本地机器跑模型的效果,虽然这个图里面是回答得感觉还行吧,但是实际我问一个问题,回答需要可能10分钟才能返回完结果。可能是因为这个确实挺需要硬件资源的,我本地就一块显存8G的显卡,能跑起来,我已经是谢天谢地了。而且我还找了些资料去优化,将FP16的模型弄成int8的模型去跑,但是不知道是我方式不对还是,硬件资源不够,跑出来的效果也还是很慢。所以如果想要商业化之类的,硬件资源还是得给够,或者走大模型的api调用。我这个只能说是个人学习使用下,连流畅的效果都达不到,哈哈哈。

image-20240310181143407

3.遇到的问题

3.1 python安装库特别慢,查了一下,如果运行 pip config list 返回空值,表示没有明确在配置文件中设置源地址。在这种情况下,pip将使用其内置的默认源,即 https://pypi.org/simple。ping了一下这个地址,时延有几百毫秒,而且丢包严重。后来查了下资料换成了清华的源,

设置步骤如下:

# 在命令行输入
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

3.2 下载模型的时候git clone连不上服务器

方法一:

发现访问这个模型需求一些科学的手段,直接浏览器可以访问到https://huggingface.co/THUDM/chatglm3-6b的模型,但是git不行,于是使用了临时代理。

设置如下:

# 在命令行输入
 git clone -c http.proxy="http://127.0.0.1:1001" https://huggingface.co/THUDM/chatglm2-6b
 
 git clone -c http.proxy="http://127.0.0.1:1001" https://huggingface.co/BAAI/bge-large-zh

这个代理的端口就用自己平时完成科学访问的端口。

方法二(推荐):

另外一种方式就是访问国内的魔塔网站下载(modelscope),进入到模型库的栏目,

搜索对应模型,然后点击下载。以chatglm2-6b为例。

git clone https://www.modelscope.cn/ZhipuAI/chatglm2-6b.git

因为是国内直接下载,方法二比方法一还是快很多,推荐使用这个方式。

3.3 报错ModuleNotFoundError: No module named ‘pwd’

这个报错来自于我一开始是在windows系统上部署的,发现官方推荐的系统是ubuntu,我本地是用的windows系统,执行启动脚本的时候需要使用到linux的pwd的命令。windows里面是没有这个命令的所以报错了,本来想改写下这个脚本使用windows对应pwd的命令去处理。但是一想,万一后面还有其他地方也用了只有linux存在的命令,那改起来的地方就多了,还是老老实实的用linux系统吧。所以后来重新弄了下windows11的WSL,用WSL可以在windows系统下安装linux的子系统,然后让Chatchat在linux子系统里面跑应该就没问题了。

# 在windows11命令行执行,如果没有安装过这个,可以自己看下最下面的参考资料有提到怎么在windows11上开启wsl,主要是有一些虚拟机开关要打开。
wsl --install

这里简单提一下默认的ubuntu的目录和windows的系统磁盘的对应关系,在unbuntu里面进入到/mnt目录,然后比如你要进入win的d盘,就输入cd /mnt/d就行了。其他盘符也是一样的道理。

3.4 安装qwen的模型报错

image-20240309145022872

这个问题来自于准备使用通义千问的模型,然后需要启动chatchat提示需要安装一个fast-attention的包,上面这个图就是安装fast-attention报的错。因为我本地的cuda是没有加入到环境变量里面的,所以报错了。后来我下载了一个cuda11.5,结果继续报错,查资料说是要11.7以上。后来又卸载了,更新成cuda12.2才可以。

3.5 register_controller报错

image-20240310195600397

这个报错是提示register_to_controller报错,是问了交流群里面的人才解决的,是因为我本地起了全局代理,然后这个是注册应该走到代理的网络上去了。关闭了代理或者PAC模式之后,wsl要重新启动一个新的会话,然后再启动项目就可以运行了。

3.6 chatchat开启量化模型

这个问题是来源于我感觉本地的llm返回很慢,所以查了下资料怎么优化返回速度。发现可以修改项目中configs/server_config.py里面的load_8bit参数。

image-20240310200634568

开启之后,启动项目的加载模型的日志里面会多一行’load_8bit’: True的日志,表示开启8bit量化成功。这个原理大概是这样一个意思,本身模型的计算可能小数位很长,假设有16位,开启之后把16位转为8位或者精度更低的位数,这样计算的时候就会更加迅速,不过带来的问题就是可能结果没有之前准确。不过我试了下开启之后,我主观上没有觉得它返回变快了,不过群里的朋友说开启之后是挺快的,这个效果我是没有办法百分之百说有效,读者可以自行尝试一下。

项目结构

自己理解的项目结构,可能不完全准确

image-20240310201828692

官网放的Chatchat处理流程图,如果看过langchain的资料的话,会发现中间主要是langchain的处理过程,因为这个项目也是基于langchain去做的。

image-20240310202107156

文档处理流程

image-20240310202128044

总结

虽然使用Chatchat整个过程中的坑还是挺多的,但是至少跑起来了,而且在跑这个项目中遇到了很多自己没有接触过的知识。比如量化模型这个概念,是在优化返回速度的时候才知道可以把模型的精度改小,提高计算速度。现在本地还只运行成功了项目本身支持的几个模型,像界面中的知识库问答,文件对话,搜索引擎问答,自定义agent都还没跑成功,还有挺多东西要去研究和尝试的,还是挺有意思的。我想了想后面可能会针对其他的几个模式也写一些记录。

4.参考资料:

1.如何使用 WSL 在 Windows 上安装 Linux

2.本地安装部署运行 ChatGLM-6B 的常见问题解答以及后续优化

3.LangChain-Chatcaht项目地址

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/447158.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

割点原理及封装好的割点类

作者推荐 视频算法专题 预备知识 本分析针对&#xff1a;连通无向图G。 搜索树 节点的父子关系&#xff1a;任意 节点的邻接 节点除了已处理 节点&#xff0c;都是它的子 节点。 以任意一点为根开始DFS&#xff0c;计算所有 节点的父子关系。只保留个子 节点到父 节点形成…

linux:线程的控制

个人主页 &#xff1a; 个人主页 个人专栏 &#xff1a; 《数据结构》 《C语言》《C》《Linux》 文章目录 前言一、线程的总结1. 线程的优点2. 线程的缺点3. 线程异常4.线程和进程 二、线程的控制创建线程线程终止线程等待获取返回值 线程分离 总结 前言 本文作为我对于线程的…

git远程仓库使用

赋值这个地址clone 克隆之后 cd slam_oncloud/ git remote add chenxnew ssh://git192.168.3.40:1022/chenxiao/slam_oncloud.git 查看一下 linuxchenxiao:/media/linux/mydisk/cloud_slam/slam_oncloud$ git remote add chenxnew ssh://git192.168.3.40:1022/chenxiao/sla…

GitHub Desktop的常用操作【图形化】

文章目录 【1】仓库的创建和删除【2】文件操作【3】分支原理与分支操作1.分支创建2.分支合并 【4】标签 【1】仓库的创建和删除 在本地创建一个新的仓库&#xff1a; 然后输入仓库的名称&#xff0c;描述&#xff0c;并选择路径&#xff1a; 点击完后就发现我们的仓库创建好…

明日周刊-第1期

打算开一个新的专栏&#xff0c;专门记录一周发生的事情以及资源共享&#xff0c;那么就从第一期开始吧。 1. 一周热点 人工智能技术突破&#xff1a;可能会有关于人工智能领域的最新研究成果&#xff0c;例如新算法的开发、机器学习模型的提升或者AI在不同行业的应用案例。 量…

natfrp和FRP配置SSL的基本步骤和bug排查

获取免费/付费SSL 我直接买了一年的ssl证书 设置 主要参考&#xff1a;https://doc.natfrp.com/frpc/ssl.html 遇到的Bug root域名解析是ALIAS&#xff0c;不是CNAME不要用NATFRP &#xff08;SakuraFrp&#xff09;同步Joplin&#xff0c;会出现webdav错误导致大量笔记被…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Gauge)

数据量规图表组件&#xff0c;用于将数据展示为环形图表。 说明&#xff1a; 该组件从API Version 8开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 子组件 可以包含单个子组件。 说明&#xff1a; 建议使用文本组件构建当前数值文本和辅…

sql server 恢复数据库、恢复单表数据的方法

如果不小心把某个表的数据删了&#xff0c;可以用之前的备份文件对单表进行数据恢复。 1、新建一个数据库&#xff08;全新的数据库&#xff09;&#xff0c;记得路径&#xff0c;恢复的时候要用到&#xff0c;新建完不要对数据库做什么操作。 2、用需要恢复表的数据库的备份文…

【leetcode热题】排序链表

给你链表的头结点 head &#xff0c;请将其按 升序 排列并返回 排序后的链表 。 示例 1&#xff1a; 输入&#xff1a;head [4,2,1,3] 输出&#xff1a;[1,2,3,4]示例 2&#xff1a; 输入&#xff1a;head [-1,5,3,4,0] 输出&#xff1a;[-1,0,3,4,5]示例 3&#xff1a; 输入…

人工智能OCR领域安全应用措施

引言 编写目的 随着新一轮科技革命和产业变革的深入发展&#xff0c;5G、大数据、云计算、深度学习等新技术日益成为推动社会进步的核心动力。人工智能&#xff08;AI&#xff09;作为这些新技术的集大成者&#xff0c;正迅速成为新型基础设施建设的战略性支柱&#xff0c;其广…

Spring Boot整合MyBatis Plus配置多数据源

Spring Boot 专栏&#xff1a;https://blog.csdn.net/dkbnull/category_9278145.html Spring Cloud 专栏&#xff1a;https://blog.csdn.net/dkbnull/category_9287932.html GitHub&#xff1a;https://github.com/dkbnull/SpringBootDemo Gitee&#xff1a;https://gitee.com/…

数字化转型导师坚鹏:科技金融政策、案例及营销创新

科技金融政策、案例及营销创新 课程背景&#xff1a; 很多银行存在以下问题&#xff1a; 不清楚科技金融有哪些利好的政策&#xff1f; 不知道科技金融有哪些成功的案例&#xff1f; 不知道科技金融如何进行营销创新&#xff1f; 课程特色&#xff1a; 以案例的方式解…

Tomcat容器经常重启问题排查

报错代码: INFO [Catalina-utility-2] org.apache.catalina.core.StandardContext.reload Reloading Context with name [] has started1.查看内存占用情况:top 可以发现java线程正常情况下占用高达24%的内存资源 2.继续排查:top -Hp 29580 可以发现主要有子线程Catalina-ut…

基于jsp+mysql+Spring+mybatis的SSM汽车保险理赔管理系统设计和实现

基于jspmysqlSpringmybatis的SSM汽车保险理赔管理系统设计和实现 博主介绍&#xff1a;多年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐…

Node-RED在Linux二次开发网关中能源数据实时采集与优化

智能电网与分布式能源系统已成为推动绿色能源转型的重要载体。为了更好地应对多样化的能源供给与需求挑战&#xff0c;以及实现更高效的能源管理&#xff0c;Linux二次开发网关与Node-RED这一创新组合应运而生。 Linux二次开发网关作为高度定制化的硬件平台&#xff0c;其开源特…

MT笔试题

前言 某团硬件工程师的笔试题&#xff0c;个人感觉题目的价值还是很高的&#xff0c;分为选择题和编程题&#xff0c;选择题考的是嵌入式基础知识&#xff0c;编程题是两道算法题&#xff0c;一道为简单难度&#xff0c;一道为中等难度 目录 前言选择题编程题 选择题 C语言中变…

【MATLAB】语音信号识别与处理:一维信号NLM非局部均值滤波算法去噪及谱相减算法呈现频谱

1 基本定义 一维信号NLM非局部均值滤波算法是一种基于非局部均值思想的滤波方法&#xff0c;它通过对信号进行分块&#xff0c;计算每个块与其他块之间的相似度&#xff0c;以非局部均值的方式去除噪声。该算法的主要思想是在一定范围内寻找与当前块相似的块&#xff0c;以这些…

基于网络爬虫的购物平台价格监测系统的设计与实现

通过对网络爬虫的购物平台价格监测系统的业务流程进行梳理可知&#xff0c;网络爬虫的购物平台价格监测系统主要由前台买家模块、后台卖家模块以及管理员模块构成。前台功能包含登录功能、注册功能、系统首页功能、唯品会商品详情浏览、唯品会商品收藏、唯品会商品点赞、唯品会…

RDD算子介绍(二)

1. coalesce 用于缩减分区&#xff0c;减少分区个数&#xff0c;减少任务调度成本。 val rdd : RDD[Int] sc.makeRDD(List(1, 2, 3, 4), 4) val newRDD rdd.coalesce(2) newRDD.saveAsTextFile("output") 分区数可以减少&#xff0c;但是减少后的分区里的数据分布…

政安晨:【深度学习处理实践】(五)—— 初识RNN-循环神经网络

RNN&#xff08;循环神经网络&#xff09;是一种在深度学习中常用的神经网络结构&#xff0c;用于处理序列数据。与传统的前馈神经网络不同&#xff0c;RNN通过引入循环连接在网络中保留了历史信息。 RNN中的每个神经元都有一个隐藏状态&#xff0c;它会根据当前输入和前一个时…