CogVLM2多模态开源大模型部署与使用

CogVLM2多模态开源大模型部署与使用

项目简介

  • CogVLM2 是由清华大学团队发布的新一代开源模型系列。
  • 2024年5月24日,发布了Int4版本模型,只需16GB显存即可进行推理。
  • 2024年5月20日,发布了基于llama3-8b的CogVLM2,性能与GPT-4V相当或更优。

模型特点

  • 显著提升关键指标,如TextVQA, DocVQA。
  • 支持8K文本长度和1344*1344图像分辨率。
  • 提供中英文双语模型版本。

模型详细信息

  • 基座模型:Meta-Llama-3-8B-Instruct
  • 语言:英文和中英文双语
  • 模型大小:19B
  • 任务:图像理解,对话模型
  • 文本长度:8K
  • 图片分辨率:1344*1344

模型使用

最低配置要求

CogVlM2 Int4 型号需要 16G GPU 内存就可以运行,并且必须在具有 Nvidia GPU 的 Linux 上运行。

Model Name19B Series ModelRemarks
BF16 / FP16 Inference42GBTested with 2K dialogue text
Int4 Inference16GBTested with 2K dialogue text
BF16 Lora Tuning (Freeze Vision Expert Part)57GBTraining text length is 2K
BF16 Lora Tuning (With Vision Expert Part)> 80GBSingle GPU cannot tune

部署步骤

模型下载
  • 这里从 huggingface 上下载模型
  • 如果使用AutoDL算力平台可以使用 source /etc/network_turbo 进行学术加速 , unset http_proxy && unset https_proxy 取消加速
# 创建文件夹
mkdir cogvlm2
# 按照huggingface_hub 工具下载模型
pip install -U huggingface_hub
# 下载模型到当前文件夹
huggingface-cli download THUDM/cogvlm2-llama3-chinese-chat-19B-int4 --local-dir .

# 也可以使用
git clone https://huggingface.co/THUDM/cogvlm2-llama3-chinese-chat-19B-int4
下载代码
git clone https://github.com/THUDM/CogVLM2
安装依赖

cd basic_demo

pip install -r requirements.txt

  • 如果安装出现依赖库冲突的错误,可以采用下面requirements.txt
xformers>=0.0.26.post1
#torch>=2.3.0
#torchvision>=0.18.0
transformers>=4.40.2
huggingface-hub>=0.23.0
pillow>=10.3.0
chainlit>=1.0.506
pydantic>=2.7.1
timm>=0.9.16
openai>=1.30.1
loguru>=0.7.2
pydantic>=2.7.1
einops>=0.7.0
sse-starlette>=2.1.0
bitsandbytes>=0.43.1
代码修改

vim web_demo.py

# 修改模型路径为本地路径
MODEL_PATH = '/root/autodl-tmp/cogvlm2/cogvlm2-llama3-chinese-chat-19B-int4'

启动WebDemo

chainlit run web_demo.py

访问

本地则访问 : http://localhost:8000

如果是AutoDL 使用ssh代理来访问 , 输入yes, 如何粘贴密码即可

ssh -CNg -L 8000:127.0.0.1:8000 root@connect.cqa1.xxxx.com -p 46671
  • 页面

image-20240604143209810

效果

  • 成份表

image-20240604154950681

  • 火车票

image-20240604155033358

这里键的含义不对, int4 估计会有性能损失导致的

  • 盖了章的报价表

4

image-20240604160818755

OpenAI API

使用 OpenAI API格式的方式请求和模型的对话。

python openai_api_demo.py

错误解决

image-20240604154848046

解决办法 :

使用下面requirements.txt重新安装依赖

xformers>=0.0.26.post1
#torch>=2.3.0
#torchvision>=0.18.0
transformers>=4.40.2
huggingface-hub>=0.23.0
pillow>=10.3.0
chainlit>=1.0.506
pydantic>=2.7.1
timm>=0.9.16
openai>=1.30.1
loguru>=0.7.2
pydantic>=2.7.1
einops>=0.7.0
sse-starlette>=2.1.0
bitsandbytes>=0.43.1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/678474.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI时代下的智能商品计划管理

在时尚产业迅猛发展的今天,商品计划已成为品牌运营不可或缺的一环。优秀的服装品牌通过精心策划的商品计划,不仅致力于为消费者提供独特且符合其需求的产品,同时也在不断探索如何更有效地整合企业资源,确保从设计、研发、采购到生…

可视化数据科学平台在信贷领域应用系列二:数据清洗

上一篇文章中,某互联网银行零售信贷风险建模专家使用数据科学平台Altair RapidMiner——完成了数据探索工作,《可视化数据科学平台在信贷领域应用系列一:数据探索》。本次这位建模专家再次和大家分享数据准备的第二步骤,数据清洗。…

揭秘HubSpot集客营销:如何吸引并转化全球潜在客户

随着全球数字化浪潮的推进,企业出海已经成为许多公司扩大市场、增加品牌曝光度的重要战略。HubSpot集客营销作为一种以客户为中心、数据驱动的营销策略,为企业在海外市场的成功提供了强有力的支持。作为HubSpot亚太地区的合作伙伴,NetFarmer将…

小熊家务帮day5-day7 客户管理模块1 (小程序认证,手机验证码认证,账号密码认证,修改密码,找回密码等)

客户管理模块 1.认证模块1.1 认证方式介绍1.1.1 小程序认证1.1.2 手机验证码登录1.1.3 账号密码认证 1.2 小程序认证1.2.1 小程序申请1.2.2 创建客户后端工程jzo2o-customer1.2.3 开发部署前端1.2.4 小程序认证流程1.2.4.1 customer小程序认证接口设计Controller层Service层调用…

TCP三次握手、四次分手

TCP三次握手、四次挥手 TCP(Transmission Control Protocol)是一种面向连接的、可靠的、基于字节流的传输层通信协议,用于在网络上建立可靠的数据传输通道。在TCP/IP协议族中,TCP负责在数据传输过程中提供可靠性和完整性保证。TCP…

python协程入门实战详解

本章将以通俗易懂、贴合实际的方式介绍以下内容: 协程是什么,有什么特点,协程的优势是什么如何理解事件和事件循环协程的创建方式,如何控制协程的并发量在协程中使用aiohttp发送HTTP请求aiohttp案例协程中的异常处理,…

flowable工作流 完成任务代码 及扩展节点审核人(实现多级部门主管 审核等)详解【JAVA+springboot】

低代码项目 使用flowable 工作流 完成任务代码 详解 可以看到 complete()方法 传递了流程变量参数var 前端传递此参数就可以实现 流程中 审批 更新流程变量参数var 也可以进行更多扩展 实现流程中更新表单内容功能 启动流程实例代码 实现对于流程自定义 动态节点审核人 功…

五款效率软件助你事半功倍

1、🔗 亿可达 作为一款自动化工具,亿可达被誉为国内版的免费Zaiper。它允许用户无需编程知识即可将不同软件连接起来,构建自动化的工作流程。其界面设计清新且直观,描述语言简洁易懂,使得用户可以轻松上手。 2、&…

剪画小程序:干货丨3款照片转换成动漫形象的工具,赶紧收藏!

打开工具剪画,主页找到“照片转动漫”功能,上传图片即可转为漫画照片 有多种动漫模型,包括动漫、普通、艺术风、素描风等,还有更多趣味玩法如黏土风、3D风、Jade(玉石风)、WaterColor(水彩风)等等 照片就漫…

Redis之常用实战场景

1.Redis数据丢失场景 1.1 持久化丢失 采用RDB或者不持久化,就会有数据丢失,因为是手动或者配置以快照的形式来进行备份。 解决: 启用AOF,以命令追加的形式进行备份,但是默认也会有1s丢失,这是在性能与数据安全性中寻…

HTML、HTML5一览

文章目录 HTML简介标签基本标签格式化文本链接图像块级元素列表表格框架表单实体 HTML5 此篇用于优化csdn第一篇文章 HTML 简介 HTML 是用来描述网页的一种语言。 HTML 指的是超文本标记语言: HyperText Markup Language HTML 不是一种编程语言,而是一种标记语言…

sublime如何写python

推荐一款好用且轻量级的编辑器——sublime—text3,sublime现在支持的语言有很多。 右边弹出的列表可以往下拉,亮点是支持了python,而且不需要安装任何的python环境,直接下载sublime就可以编写python代码并运行了。 使用方法&…

Java面经——SpringCloud微服务

SpringCloud SpringCloud的五大组件 注册中心网关远程调用负载均衡熔断降级 谈谈你对SpringCloud的理解 SpringCloud是为了解决微服务架构中出现的一系列服务治理难题的而提出的一套规范,统一了标准。降低了微服务架构的开发难度。有了 Spring Cloud 这样的技术生…

Three.js——基础纹理、凹凸纹理、法向贴图、环境贴图、canvas贴图

个人简介 👀个人主页: 前端杂货铺 ⚡开源项目: rich-vue3 (基于 Vue3 TS Pinia Element Plus Spring全家桶 MySQL) 🙋‍♂️学习方向: 主攻前端方向,正逐渐往全干发展 &#x1…

linux嵌入式设备测试wifi信号强度方法

首先我们要清楚设备具体链接在哪个wifi热点上 执行:nmcli dev wifi list rootubuntu:/home/ubuntu# nmcli dev wifi list IN-USE BSSID SSID MODE CHAN RATE SIGNAL BARS > * 14:EB:08:51:7D:20 wifi22222_5G Infr…

香橙派安装 opencv 4.9.0

香橙派Orange AI Pro / 华为昇腾310 使用源码方式安装opencv 4.9.0 下载源码到香橙派 https://opencv.org/releases/ 解压 unzip opencv-4.9.0.zip进入解压后的文件 cd opencv-4.9.0创建构建目录build mkdir build进入目录 cd build使用cmake配置后续的构建环境 cmake -D…

SwiftUI 利用 Swizz 黑魔法为系统创建的默认对象插入新协议方法(二)

功能需求 在 SwiftUI 的开发中,我们往往需要借助底层 UIKit 的“上帝之手”来进一步实现额外的定制功能。比如,在可拖放(Dragable)SwiftUI 的实现中,会缺失拖放取消的回调方法让我们这些秃头码农们“欲哭无泪” 如上图所示,我们在拖放取消时将界面中的一切改变都恢复如初…

SpringBoot校园疫情管理系统-计算机毕业设计源码81164

摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,校园当然也不例外。校园疫情管理系统是以实际运用为开发背景,运用软件工程原理和开发方法,采用J…

SmartEDA:Multisim与Proteus的强劲对手,引领电子设计新纪元

在电子设计领域,Multisim与Proteus长久以来一直占据着重要的地位,它们以其强大的仿真功能和丰富的组件库,深受设计师们的喜爱。然而,随着科技的不断进步和创新,一款名为SmartEDA的新兴电子设计工具正悄然崭露头角&…

MYSQL数据库客户端常规指令使用

这里新开一章,对MYSQL进行更加底层的系统的一个学习 Mysql常用工具简介 emmmm这里的话就默认大家在linux系统上面都进行了MYSQL的安装了. 在mysql安装完成之后,一般在路径 /usr/bin 下的 我们对该路径进行一个文件的展示 这里是展示出来的辅助工具 …