LMDeploy 量化部署 LLM-VLM 实践——作业

LMDeploy 量化部署 LLM-VLM 实践——作业

  • 一、 基础作业
    • 1.1、配置 LMDeploy 运行环境
    • 1.2、以命令行方式与 InternLM2-Chat-1.8B 模型对话
  • 二、进阶作业
    • 2.1、设置 KV Cache 最大占用比例为0.4,开启 W4A16 量化,以命令行方式与模型对话
      • 2.1.1、初始显存占用情况
      • 2.1.2、KV Cache == 0.4
      • 2.1.3、开启 W4A16 量化
      • 2.1.4、 KV Cache == 0.4 + W4A16 量化
    • 2.2、以 API Server 方式启动 lmdeploy,开启 W4A16 量化,调整 KV Cache 的占用比例为0.4,分别使用命令行客户端与 Gradio 网页客户端与模型对话
      • 2.2.1、命令行客户端
      • 2.2.2、Gradio 网页客户端
    • 2.3、使用 W4A16 量化,调整 KV Cache 的占用比例为 0.4,使用 Python 代码集成的方式运行 internlm2-chat-1.8b 模型
    • 2.4、使用 LMDeploy 运行视觉多模态大模型 llava gradio demo
    • 2.5、将 LMDeploy Web Demo 部署到 OpenXLab

详细视频:LMDeploy 量化部署 LLM-VLM 实践
详细文档:看这里

一、 基础作业

1.1、配置 LMDeploy 运行环境

studio-conda -t lmdeploy -o pytorch-2.1.2

conda activate lmdeploy

pip install lmdeploy[all]==0.3.0

1.2、以命令行方式与 InternLM2-Chat-1.8B 模型对话

lmdeploy chat /root/internlm2-chat-1_8b

在这里插入图片描述

在这里也比较了下使用 Transformer 运行模型和用 LMDeploy直接推理的速度。

在这里插入图片描述

可以看到,LMDeploy 的推理速度是 Transformer库 的 6.74 倍!差别还是很大的。

二、进阶作业

2.1、设置 KV Cache 最大占用比例为0.4,开启 W4A16 量化,以命令行方式与模型对话

2.1.1、初始显存占用情况

在这里插入图片描述

在这里插入图片描述

2.1.2、KV Cache == 0.4

在这里插入图片描述

在这里插入图片描述

可以看到,设置 KV Cache == 0.4 后,显存占用一下子减少了约 35%,提升是非常明显的。

2.1.3、开启 W4A16 量化

在这里插入图片描述

在这里插入图片描述

这个地方,按理来说,显存占用应该会降低很多的,但不知道为什么我运行下来以后提升只有一点点。

2.1.4、 KV Cache == 0.4 + W4A16 量化

在这里插入图片描述
在这里插入图片描述
在双重加持下,显存占用率也是下降到了 50% 以下,效果显著。

2.2、以 API Server 方式启动 lmdeploy,开启 W4A16 量化,调整 KV Cache 的占用比例为0.4,分别使用命令行客户端与 Gradio 网页客户端与模型对话

2.2.1、命令行客户端

在这里插入图片描述

在这里插入图片描述

2.2.2、Gradio 网页客户端

在这里插入图片描述

2.3、使用 W4A16 量化,调整 KV Cache 的占用比例为 0.4,使用 Python 代码集成的方式运行 internlm2-chat-1.8b 模型

在这里插入图片描述

在这里插入图片描述

2.4、使用 LMDeploy 运行视觉多模态大模型 llava gradio demo

这里要分析的图片长这样:

在这里插入图片描述

  • 安装 llava 依赖库
    在这里插入图片描述

  • 创建 pipeline 文件
    在这里插入图片描述

  • 运行结果
    在这里插入图片描述
    可以看到,这里的英文回答对图片的分析还是比较清楚的。

  • 使用中文提问
    在这里插入图片描述

  • 运行结果
    在这里插入图片描述
    好一个 ☞ 🐅 → 🦅 ,虽然在括号里有说明这可能是一只老虎,但全篇回答以老鹰描述还是架不住,只能说 Llava 模型对中文的支持性还是比较低。

  • 用中文拼英提问
    在这里插入图片描述

  • 运行结果
    在这里插入图片描述
    出人意料的是,用中文拼英提问,得到的回答还可以,虽然不如前两次提问时回答的详细,但这次能肯定的回答这是只老虎,还是比直接用中文好上不少的。难道说拼英介于中文和英文?

2.5、将 LMDeploy Web Demo 部署到 OpenXLab

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/565619.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

52 文本预处理【动手学深度学习v2】

将文本作为字符串加载到内存中。 将字符串拆分为词元(如单词和字符)。 建立一个词表,将拆分的词元映射到数字索引;将文本转换为数字索引序列,方便模型操作。

linux_python源码安装及基础设置odoo安装

python源码安装及基础设置 1、资源下载2、源码安装3、 yum安装pip4、pip安装虚拟环境1、安装虚拟环境库2、配置环境变量3、创建自己的虚拟环境 5、安装升级pip的两种方式1、get-pip.py升级2、安装源码升级 6、odoo部署 1、资源下载 python3.13 python版本库 2、源码安装 yum…

绿联 安装qbittorrent及一些常见错误的解决办法

绿联 安装qbittorrent及一些常见错误的解决办法 1、镜像 linuxserver/qbittorrent:latest 2、安装 2.1、创建容器 按需决定是否进行资源限制。 2.2、基础设置 2.3、网络 桥接即可。 注:如果使用IPV6,请选择"host"模式。 注:如…

Nodejs安装与配置--基于Linux系统--RedHat7.9

nodejs安装从未这么简单 1、nodejs版本设置? curl -fsSL https://rpm.nodesource.com/setup_16.x | sudo bash - 其他版本如下: * https://rpm.nodesource.com/setup_16.x — Node.js 16 "Gallium" (deprecated) * https://rpm.nodesource.co…

基于python实现web漏洞挖掘技术的研究(django)

基于python实现web漏洞挖掘技术的研究(django) 开发语言:Python 数据库:MySQL所用到的知识:网络爬虫,SQL注入,XSS漏洞工具:pycharm、Navicat、Maven 系统的实现与漏洞挖掘 系统的首页面 此次的系统首页面是登录的页…

(二)Servlet教程——我的第一个Java程序

首先打开记事本,输入如下的代码,请注意字母的大小写 public class MyFirst{ public static void main(String[] args){ System.out.println("This is My first Java..."); } } 将该txt文件命名为MyFirst.java 打开cmd命令行窗口&#xff0…

100吨微机控制电液伺服钢绞线拉伸试验机

一、简介 主机为四立柱、两丝杠、油缸下置式,拉伸空间位于主机的上方,压缩、弯曲试验空间位于主机下横梁和工作台之间。测控系统采用全数字多通道闭环测控系统,具有三闭环功能,即可以进行应力、应变、位移闭环等控制方式&#xf…

ThingsBoard通过规则链使用邮件发送报警信息

1、描述 2、通过规则链路配置发送邮件只需 两步 3、案例 1、基础链路 2、选择变换节点里面的To Email 3、 编辑节点to email 4、 将创建告警与to email链接 5、选择外部节点中的send email 6、配置邮箱相关信息,如过不知道密钥如何获取的,请查看下…

Java转go,我用了12小时,10小时在解决环境问题

Part1 问题背景 作为一个资深的Java开发者,我深知面向对象的高级语言,语法是不用学的。需要的时候搜索就可以了,甚至可以用ChatGPT来写。 之前我做一个安全多因素校验服务。因为是临时服务,扩展性上基本没有要求,为了快…

Opensbi初始化分析:设备初始化

Opensbi初始化分析:设备初始化 设备初始化sbi_init函数coldinit,冷启动初始化sbi_scratch_init函数sbi_domain_init函数sbi_hsm_initsbi_platform_early_initsbi_hart_initsbi_console_initsbi_platform_irqchip_init中断控制器的初始化sbi_ipi_init函数…

AutoPSA的埋地数据

用户在使用埋地算法时,问“不排水抗剪强度”什么意思? A:这个是土壤的参数,如果不填,软件会自动计算. 还有,垫片厚度,覆土压实乘子的数据没有从AutoPDMS导出时,需要手动输入一下。 其他&#…

【数据结构】二叉树链式结构的实现《遍历,实现》(题库+解析+源码)

前言 二叉树的学习离不开对堆的理解,这是上篇堆的传送门 http://t.csdnimg.cn/F6Jp3 1.二叉树链式结构的实现 1.1 前置说明 在学习二叉树的基本操作前,需先要创建一棵二叉树,然后才能学习其相关的基本操作。由于现在大家对二 叉树结构掌握还…

Linux中inode号与日志分析

一.inode号 1.inode表结构 元信息:每个文件的属性信息,比如:文件的大小,时间,类型,权限等,称为文件的元数据(meta data 元信息 ) 元数据是存放在inode(index node)表中…

python基础知识二(标识符和关键字、输出、输入)

目录 标识符和关键字: 什么是标识符? 1. 标识符 2. 标识符的命名规则 什么是关键字? 1. 关键字 2. 关键字的分类 标识符和关键字的区别: ​​​输出: 1. 普通的输出 2. 格式化输出 格式化操作的目的&#…

【电控笔记6.3】采样-Z转换-零阶保持器

本质 数字转模拟:零阶保持器 采样 z-1所描述的物理意义即为延迟T时间的拉氏转换e-sT 信号采样延时

AI音乐:探索变现之路的新篇章

随着科技的飞速发展,人工智能(AI)已经渗透到我们生活的方方面面,音乐领域也不例外。AI音乐作为一种新兴的音乐创作方式,正逐渐改变着传统音乐产业的格局。然而,如何将AI音乐变现,成为了摆在众多…

SFP、SFP+、SFP28 与 QSFP28 收发器之间的差异:兼容性和性能

近年来,网络技术发展迅速,因此,计算专业人员面临着越来越令人困惑的术语和缩写词。 管理数据中心时必须了解的一个关键领域是收发器,特别是 SFP (1550nm/1310nm)、SFP (850nm) 和 QSFP28 (4x25G) 之间的差异。 这些型号在兼容性方…

密钥密码学(二)

原文:annas-archive.org/md5/b5abcf9a07e32fc6f42b907f001224a1 译者:飞龙 协议:CC BY-NC-SA 4.0 第十章:可变长度分数化 本章涵盖 基于摩尔斯电码的密码 混合字母和双字母 可变长度二进制码字 基于文本压缩的密码 本章涵盖…

YOLOv9有效改进专栏汇总|未来更新卷积、主干、检测头注意力机制、特征融合方式等创新![2024/4/21]

​ 专栏介绍:YOLOv9改进系列 | 包含深度学习最新创新,助力高效涨点!!! 专栏介绍 YOLOv9作为最新的YOLO系列模型,对于做目标检测的同学是必不可少的。本专栏将针对2024年最新推出的YOLOv9检测模型&#xff0…

DevOps流程的简单总结

DevOps流程图: DevOps流程包含:计划(plan)、编码(code)、编译(build)、测试(test)、发布(release)、部署(deploy)、运营(operate)、监控(monitor),这是一个循环的过程。DevOps是依托容器、自动化…