6行代码,1行命令!轻松实现多模态(视觉)模型离线推理 在线服务

早在去年年底,LMDeploy 已经悄悄地支持了多模态(视觉)模型(下文简称 VLM)推理,只不过它静静地躺在仓库的 examples/vl 角落里,未曾与大家正式照面。

LMDeploy 开源链接:

https://github.com/InternLM/lmdeploy

经过一段时间的迭代,LMDeploy 在 VLM 推理和服务方面,发生了翻天覆地的变化,于 v0.2.6 版本中正式发布。和去年相比,已有云泥之别,可以接受大家的检阅啦。

LMDeploy 的 VLM 推理,主打简单、好用。6行代码完成推理,一行命令搭建服务。

目前,已支持了以下模型:

  • Qwen/Qwen-VL-Chat

  • LLaVA 系列 v1.5,v1.6

  • 01-ai/Yi-VL-6B

准备工作

在使用之前,请先安装 LMDeploy 最新版。如果系统的 cuda 版本是 11+,可以直接安装 pypi 包:

pip install lmdeploy

如果 cuda 版本是 12+,请参考如下命令安装:

export LMDEPLOY_VERSION=0.2.6
export PYTHON_VERSION=38
pip install https://github.com/InternLM/lmdeploy/releases/download/v${LMDEPLOY_VERSION}/lmdeploy-${LMDEPLOY_VERSION}-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux2014_x86_64.whl

LMDeploy 支持 Linux、Windows 操作系统。对 cuda 的最低要求是 11.4。显卡架构最低为 sm70,也就是 Volta 架构及以上。显卡内存最好在 20G 以上。

离线推理

使用 LMDeploy pipeline 接口推理 VL 模型仅需 6 行代码,这得益于 LMDeploy 把 VL 模型中的视觉部分,和 LLM 模型都封装到推理 pipeline。以 Qwen-VL-Chat 模型为例:

from lmdeploy import pipeline
from lmdeploy.vl import load_image

pipe = pipeline('Qwen/Qwen-VL-Chat')

image = load_image('https://raw.githubusercontent.com/QwenLM/Qwen-VL/master/assets/mm_tutorial/Shanghai_Small.jpeg')
response = pipe(('这是哪里', image))
print(response)

在这段代码中,

  • 1, 2 两行加载必要的包

  • 第 3 行,输入模型路径,创建推理 pipeline。模型路径可以是huggingface hub 上的模型仓库名,也可以是模型的本地路径,亦可以是 modelscope hub 上的模型仓库名。当选择 modelscope hub 上的模型时,需要先设置环境变量 export LMDEPLOY_USE_MODELSCOPE=True

  • 第 4 行,读取图片。接口 load_image 除了支持 web url 外,还支持本地路径

  • 5,6 两行进行推理,并显示结果。LMDeploy pipeline 支持多种输入模式:

第一种:单提示图,单图像。(prompt, image)
第二种:单提示图,多图像。(prompt,[image_1, image_2, ..., image_n])
第三种:批量数据。[(prompt_1, image_1), (prompt_2, image_2)]
第四种:openai message 格式
prompts = [
    {
        'role': 'user',
        'content': [
            {'type': 'text', 'text': '这是哪里'},
            {'type': 'image_url', 'image_url': {'url': 'https://raw.githubusercontent.com/QwenLM/Qwen-VL/master/assets/mm_tutorial/Shanghai_Small.jpeg'}}
        ]
    }

pipeline 还提供了多轮对话接口,用法也很简单:

from lmdeploy import pipeline
from lmdeploy.vl import load_image

pipe = pipeline('Qwen/Qwen-VL-Chat')

image = load_image('https://raw.githubusercontent.com/QwenLM/Qwen-VL/master/assets/demo.jpeg')
sess = pipe.chat(('make a story about this picture', image))
print(sess.response.text)
sess = pipe.chat('make the story focusing on the dog', sess)
print(sess.response.text)

在线服务

LMDeploy 提供了一键式把 VL 模型封装为服务的工具。这里的服务可以是类似 OpenAI 的服务,也可以是 gradio 服务。相信总有一款适合你!

lmdeploy serve api_server Qwen/Qwen-VL-Chat --server-port 8000
lmdeploy serve gradio Qwen/Qwen-VL-Chat --server-port 8000

如搭建 OpenAI 服务,可以无缝对接 OpenAI 应用接口:

from openai import OpenAI

client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:8000/v1')
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
    model=model_name,
    messages=[{
        'role':
        'user',
        'content': [{
            'type': 'text',
            'text': 'Describe the image please',
        }, {
            'type': 'image_url',
            'image_url': {
                'url':
                'https://raw.githubusercontent.com/QwenLM/Qwen-VL/master/assets/mm_tutorial/Shanghai_Small.jpeg',
            },
        }],
    }],
    temperature=0.8,
    top_p=0.8)
print(response)

如搭建 gradio 服务,在浏览器中打开 http://0.0.0.0:8000,就可以通过 WebUI 与模型在线交流啦

gradio 服务

引擎配置

在用户的既往反馈中,我们经常收到关于如何做多卡并行、为什么内存占用高、如何支持更大序列长度等问题。大家应用 VLM 模型时,可能也遇到类似的问题。我们在这个章节一并说明下。

其实,很简单,设置推理引擎参数即可。

使用 pipeline 接口的时候,传入TurbomindEngineConfig 配置相关的参数。而在启动 api_server 前,通过 lmdeploy serve api_server --help查阅相关的参数说明,按需传入就好。

这里,我们将重点介绍通过 pipeline 设置一些比较重要的参数的方法。完整的参数列表,大家可以参考 https://github.com/InternLM/lmdeploy/blob/main/lmdeploy/messages.py#L103

设置显卡内存使用量

LMDeploy 的内存分配策略是,在加载完模型权重后,从空闲内存中,按一定比例为 k/v cache 开辟空间。比例值默认为 0.8。这个比例值适用于 A100-80G 这样的大内存,而对于 24G 内的显卡来说,0.4 更加适合。

具体设置方式如下:

from lmdeploy import pipeline, TurbomindEngineConfig

pipe = pipeline('Qwen/Qwen-VL-Chat',
                backend_config=TurbomindEngineConfig(cache_max_entry_count=0.4))

设置张量并行

当单卡无法支持 LLM 或者 VLM 时,多卡推理成为很自然的选择。此时,只要为引擎配置 tp 就好:

from lmdeploy import pipeline, TurbomindEngineConfig

pipe = pipeline('Qwen/Qwen-VL-Chat',
                backend_config=TurbomindEngineConfig(tp=2))

设置上下文窗口大小

多图、多轮对话场景,通常需要比较长的推理上下文窗口。这可以通过引擎的 session_len 设置:

from lmdeploy import pipeline, TurbomindEngineConfig

pipe = pipeline('Qwen/Qwen-VL-Chat',
                backend_config=TurbomindEngineConfig(session_len=9000))

结束语

LMDeploy VLM 模型推理和服务就简单介绍到这里啦。大家在使用中,遇到任何问题或者需求,都可以来我们的社群或者代码仓库反馈。后续,我们将推出 在 LMDeploy 中添加 VLM 模型的方法,诚邀大家参与,贡献自己的力量!

最后的最后,欢迎大家关注我们的项目 https://github.com/InternLM/lmdeploy,动态资讯第一时间掌握!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/496129.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android | 开发过程遇到的报错以及解决方法

注: 此博客为记录个人开发过程中遇到的报错问题以及解决方案。 由于不同版本环境等因素影响,解决方案对其他人可能无效。 本博客仅提供一种解决思路,具体问题请具体分析。 报错:Connection timed out: connect解决:在G…

763. 划分字母区间(力扣LeetCode)

763. 划分字母区间 题目描述 给你一个字符串 s 。我们要把这个字符串划分为尽可能多的片段,同一字母最多出现在一个片段中。 注意,划分结果需要满足:将所有划分结果按顺序连接,得到的字符串仍然是 s 。 返回一个表示每个字符串…

pip wheel直接为离线环境打包需要的python包

很多情况下,需要离线安装python库,直接下载所需的库包时,可能又要求更新或安装相关的依赖包(这就非常麻烦了),所以推荐一条命令一步到位,命令如下: pip wheel -r requirements.txt …

设计模式-设配器模式

目录 🎊1.适配器模式介绍 🎃2.适配器类型 🎏3.接口适配器 🎐4.类的适配器 🎎5.优缺点 1.适配器模式介绍 适配器模式(Adapter Pattern)是作为两个不兼容的接口之间的桥梁。这种类型的设…

什么?想让视频号小店领先同行,竟然这么简单!

大家好,我是电商小布。 视频号小店从推出到现在,逐渐也是被越来越多的人所熟知了。 虽然说当前市场内部的商家数量并不多,竞争力不大。 但是在入驻之后想要领先同行商家,产生更好的店铺数据,该怎么来做呢&#xff1…

学习JavaEE的日子 Day29 yield,join,线程的中断,守护线程,线程局部变量共享,线程生命周期

Day29 多线程 12. 线程的礼让 Thread.yield(); 理解:此方法为静态方法,此方法写在哪个线程中,哪个线程就礼让 注意:所谓的礼让是指当前线程退出CPU资源,并转到就绪状态,接着再抢 需求:创建两个…

多叉树题目:N 叉树的后序遍历

文章目录 题目标题和出处难度题目描述要求示例数据范围进阶 解法一思路和算法代码复杂度分析 解法二思路和算法代码复杂度分析 解法三思路和算法代码复杂度分析 题目 标题和出处 标题:N 叉树的后序遍历 出处:590. N 叉树的后序遍历 难度 3 级 题目…

Android笔记(三十):PorterDuffXfermode实现旋转进度View

背景 核心原理是使用PorterDuffXfermode Path来绘制进度,并实现圆角 效果图 Android笔记(三十)效果演示 进度条绘制步骤 将ImageView矩形七个点的坐标存储起来(configNodes) 他们对应着7个不同的刻度,每个刻度的值 i * &#…

Unity | 射线检测及EventSystem总结

目录 一、知识概述 1.Input.mousePosition 2.Camera.ScreenToWorldPoint 3.Camera.ScreenPointToRay 4.Physics2D.Raycast 二、射线相关 1.3D(包括UI)、射线与ScreenPointToRay 2.3D(包括UI)、射线与ScreenToWorldPoint …

计算机基础,挑战全网最全解析

1.什么是计算机? 2.冯诺依曼结构 3.进制 4.摩尔斯码和布莱叶盲文 摩尔斯码 布莱叶盲文

如何使用群晖WebDAV实现固定公网地址同步Zotero文献管理器

文章目录 前言1. Docker 部署 Trfɪk2. 本地访问traefik测试3. Linux 安装cpolar4. 配置Traefik公网访问地址5. 公网远程访问Traefik6. 固定Traefik公网地址 前言 Trfɪk 是一个云原生的新型的 HTTP 反向代理、负载均衡软件,能轻易的部署微服务。它支持多种后端 (D…

蓝桥杯嵌入式学习笔记(6):IIC程序设计

目录 前言 1. IIC基本原理 2. 电路原理 3. 代码编程 3.1 预备工作 3.2 AT24C02写读功能编写 3.2.1 AT24C02写操作实现 3.2.2 AT24C02读操作实现 3.3 MCP4017写读功能编写 3.3.1 MCP4017写操作实现 3.3.2 MCP4017读操作实现 3.4 main.c编写 3.4.1 头文件引用 3.4.…

基于javaweb(springboot+mybatis)网上酒类商城项目设计和实现以及文档报告

基于javaweb(springbootmybatis)网上酒类商城项目设计和实现以及文档报告 博主介绍:多年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞…

Redis数据类型介绍和使用

数据类型 String(字符串):最基本的数据类型,可以存储任何类型的数据,如文本、数字等。Hash(哈希):用于存储字段-值对的散列集合,适用于存储对象。List(列表&…

鱼哥赠书活动第14期:看完这本《数字化运维》掌握数字化运维方法,构建数字化运维体系

鱼哥赠书活动第14期:看完这本《数字化运维》掌握数字化运维方法,构建数字化运维体系 主要内容:读者对象:赠书抽奖规则:往期赠书福利: 数字化转型已经成为大势所趋,各行各业正朝着数字化方向转型&#xff0c…

如何在群晖NAS搭建bitwarden密码管理软件并实现无公网IP远程访问

前言 作者简介: 懒大王敲代码,计算机专业应届生 今天给大家聊聊如何在群晖NAS搭建bitwarden密码管理软件并实现无公网IP远程访问,希望大家能觉得实用! 欢迎大家点赞 👍 收藏 ⭐ 加关注哦!💖&am…

【数据结构】链表习题之环形链表的约瑟夫问题

👑个人主页:啊Q闻 🎇收录专栏:《数据结构》 🎉道阻且长,行则将至 前言 今天这道题目时牛客上的题目,名为环形链表的约瑟夫问题,很有趣的的一道题目 环形链表的约瑟…

申请免费域名证书

目录 背景: 域名证书是什么: 域名证书有哪些: 部署域名证书有什么用: 免费的域名证书在哪里申请: 背景: 域名是一个IP地址上的“面具” 。一个域名的目的是便于记忆和沟通的一组服务器的地址(网站&…

OpenHarmony开发知识点记录之ABI

OpenHarmony系统支持丰富的设备形态,支持多种架构指令集,支持多种操作系统内核;为了应用在各种OpenHarmony设备上的兼容性,本文定义了"OHOS" ABI(Application Binary Interface)的基础标准&#…

路由协议RIP(悄悄话)

实验要求:总部和两个分支,拓扑如下图,利用rip路由协议使得各个pc设备可以通信 RIP理解:相邻路由定期交换内部路由协议,最后达到稳定状态,如果发生网络发生变化,重复交换路由步骤直到稳定状态&a…