【中文视觉语言模型+本地部署 】23.08 阿里Qwen-VL:能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存+)

项目主页:https://github.com/QwenLM/Qwen-VL
通义前问网页在线使用——(文本问答,图片理解,文档解析):https://tongyi.aliyun.com/qianwen/
论文v3. : 一个全能的视觉语言模型
23.10 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Qwen-VL-Chat 部分示例:支持多个图像输入、多轮对话、文本阅读、定位、细粒度识别和理解能力
在这里插入图片描述

一、Qwen-VL简介

Qwen-VL 是阿里基于语言模型Qwen-7B(LLMs),研发的大规模视觉语言模型(Large Vision Language Model, LVLM

Qwen-VL = 大语言模型(Qwen-7B) + 视觉图片特征编码器(Openclip’s ViT-bigG) + 位置感知视觉语言适配器(可训练Adapter)+约15亿训练数据+多轮训练

功能上:

  1. 支持多语言,特别是中英文对话
  2. 支持多个图像输入
  3. 中英双语的长文本识别
  4. 对图片中物体定位 :能够确定与给定描述相对应的具体区域(也称 grounding)
  5. 相对其他视觉模型,进行对图片更多细节识别和理解

在这里插入图片描述

二、本地部署

下载项目到本地,也可手动下载

git clone https://github.com/QwenLM/Qwen-VL.git

2.1 基础环境安装

根据自己显卡驱动,在pytorch官方选择对应的版本: https://pytorch.org/get-started/previous-versions/

conda create -n  qwen-vl  python=3.10  -y

conda activate qwen-vl
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=11.8 -c pytorch -c nvidia

2.1.1 其他依赖


conda activate qwen-vl
cd Qwen-VL
pip install -r  requirements.txt

2.1.2 使用modelscope模型

https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

pip install modelscope -U

2.2 实际测试 (运行后自动下载模型)

启动命令 --server-name 0.0.0.0 表示可局域网访问,输入ip

python web_demo_mm.py --server-name 0.0.0.0

2.2.1 下载模型界面 (约20G)

在这里插入图片描述

2.2.2 启动测试界面

在这里插入图片描述

2.2.3 实测,对图表理解并求和

求和上传图中某一列。
在这里插入图片描述

三、如何训练

阶段一:普通预训练 (pretraining)
14亿大规模、弱标记、网络爬取的图像-文本对(其中3.18亿**中文**文本)

阶段二: 多任务任务微调 (得到Qwen-VL)
约1亿数据,7大任务,图片题词,视觉问答,位置标注、OCR等任务

阶段三: 指令微调(增强对话能力) (训练后得到Qwen-VL-Chat)
将简单的文本图像对,通过手动注释、模型生成和策略串联构建**35W**对话数据
训练过程中混合了多模态和纯文本对话数据,以确保模型在对话能力方面的通用性
在这里插入图片描述

预训练阶段(Pre-training)

数据集从50亿数据中清洗得到14亿数据,其中中文约22.7%,3亿左右

数据集清理标注

  1. 删除纵横比过大的对
  2. 删除图像太小的对
  3. 删除剪辑分数过苛刻的对(特定于数据集)
  4. 删除包含非英语或非汉字的文本对
  5. 删除包含表情符号字符的文本对
  6. 删除文本长度过短或太长的对
  7. 清理文本的 HTML 标记部分
  8. 用某些不规则模式清理文本

在这里插入图片描述

多任务预训练 (Multi-task Pre-training)

约1亿数据,7大任务,图片题词,视觉问答,位置标注、OCR等任务
在这里插入图片描述

训练数据格式 (Data Format of Multi-Task Pre-training)

训练时,黑色文本作为前缀序列,没有损失,蓝色文本作为带有损失的地面真实标签。
在这里插入图片描述

指令微调

训练数据格式

为了更好地适应多图像对话和多个图像输入,我们在不同的图像之前添加了字符串“Picture id:”,其中 id 对应于图像输入对话的顺序。在对话格式方面,我们使用 ChatML (Openai) 格式构建我们的指令调优数据集,其中每个交互的语句都标有两个特殊标记(<im_start> 和<im_end>)以促进对话终止。
在这里插入图片描述

附录

有哪些版本?(商业版本)

模型名模型简介
Qwen-VL-Plus通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。
Qwen-VL-Max通义千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/510676.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

简直了,被“Java并发锁”问题追问到自闭...

分享是最有效的学习方式。 博客&#xff1a;https://blog.ktdaddy.com/ 故事 地铁上&#xff0c;小帅双目空洞地望着窗外…绝望&#xff0c;发自内心地感到绝望… 距离失业已经过去两个月了&#xff0c;这是小帅接到的第四次面试邀请。“回去等通知吧…”,简简单单的六个字&a…

汽车贴膜改色小程序源码 汽车配色小程序源码 车身改色app源码 带后台 带数据

汽车贴膜改色小程序源码 车身改色app源码 汽车配色小程序源码 带后台 带数据 整站源码&#xff0c;包含完整前端小程序&#xff0c;后台源码&#xff0c;数据库数据。 直接部署&#xff0c;就能使用&#xff0c;源码素材远程开发&#xff0c;可以定制开发。 全开源&#xff0c;…

关于ITIL认证您需要了解的一切

这是一篇关于从业人员、领导者和 ITSM 爱好者指南。ITIL4于2019 年发布。最新版本的 IT 服务管理&#xff08;ITSM&#xff09;最佳实践从传统的生命周期方法转变为服务价值体系模型&#xff0c;重点关注价值共创、向业务交付成果以及与其他最佳实践框架的融合。 新版本的框架…

商城网站-礼品网站首页html+css+js+说明文档

网页设计与网站建设作业htmlcssjs 预览 说明 单页面&#xff0c;轮播图 获取&#xff1a;https://hpc.baicaitang.cn/2077.html

西门子SMART200PLC与罗克韦尔(AB)PLC之间以太网通讯

智能网关NET422WX支持多点对多点的PLC之间通讯&#xff0c;支持以太网&#xff0c;串口设备混合数据交换&#xff1b;无需编程开发&#xff0c;只须配置数据的起始地址和数量即可&#xff0c;支持热插拔&#xff0c;断电重启后自恢复运行&#xff0c;支持网络跨网段&#xff0c…

Redis断连从框架层面该如何抢救?

前言 上周发生了一件鸡飞狗跳的线上事故&#xff0c;六节点的Redis-Cluster集群所在的大部分机器因为网络带宽问题断连了&#xff0c;排查之后发现是那几台物理机带宽被占满了&#xff0c;导致整个集群因为槽位不满16384而请求失败。并且因为没有考虑缓存失效问题&#xff0c;…

AI改写文案的注意事项

AI改写文案的注意事项 随着人工智能技术的不断发展&#xff0c;AI改写文案成为了一种新兴的应用场景。通过AI改写文案&#xff0c;可以快速生成大量内容&#xff0c;节省时间和人力成本&#xff0c;但在实际应用中也需要注意一些问题和注意事项。 1. 确保内容原创性 尽管AI改…

NumPy创建ndarray数组大揭秘

1.使用 np.array() 创建 使用 np.array() 由 python list 创建 n np.array(list) 注意 numpy 默认 ndarray 的所有元素的类型是相同的 如果传进来的列表中包含不同的类型&#xff0c;则统一为同一类型&#xff0c;优先级&#xff1a;str > float > int ndarray 的常…

HarmonyOS 应用开发之同步任务开发指导 (TaskPool和Worker)

同步任务是指在多个线程之间协调执行的任务&#xff0c;其目的是确保多个任务按照一定的顺序和规则执行&#xff0c;例如使用锁来防止数据竞争。 同步任务的实现需要考虑多个线程之间的协作和同步&#xff0c;以确保数据的正确性和程序的正确执行。 由于TaskPool偏向于单个独…

java中split(“.“)失效问题

来源&#xff1a;比较版本号_牛客题霸_牛客网 在写到这道算法题的时候&#xff0c;发现一个问题&#xff0c; String[] leftversion1.split("."); 返回结果为空&#xff0c;经过查阅得知&#xff0c;是split中的正则表达式里的问题&#xff0c;这个 . 代表的意思是…

2024最新软件测试【测试理论+ app 测试】面试题(内附答案)

一、测试理论 3.1 你们原来项目的测试流程是怎么样的? 我们的测试流程主要有三个阶段&#xff1a;需求了解分析、测试准备、测试执行。 1、需求了解分析阶段 我们的 SE 会把需求文档给我们自己先去了解一到两天这样&#xff0c;之后我们会有一个需求澄清会议&#xff0c; …

Vulnhub靶机:scream

一、介绍 运行环境&#xff1a;Virtualbox(攻击机)和VMware(靶机) 攻击机&#xff1a;kali&#xff08;192.168.56.101&#xff09; 靶机&#xff1a;/dev/random: scream&#xff08;192.168.56.110&#xff09; 目标&#xff1a;获取靶机root权限和flag 靶机下载地址&am…

RUST Rover 条件编译 异常处理

按官方处理发现异常 会报异常 error: failed to parse manifest at C:\Users\topma\RustroverProjects\untitled2\Cargo.toml 修改模式如下才能正常编译 网上说明 这样处理 [features] print-a [] print-b [] full ["print-a","print-b"]

力扣Lc27--队列-- 387. 字符串中的第一个唯一字符(java版)-2024年4月02日

1.题目描述 2.知识点 注1&#xff1a; String类提供了一个repeat方法&#xff0c;该方法用于将指定的字符串重复指定的次数。 public class Main {public static void main(String[] args) {String repeatedString "abc".repeat(3);System.out.println(repeatedS…

【折腾笔记】Windows系统运行ChatGLM3-6B模型实验

【折腾笔记】Windows系统运行ChatGLM3-6B模型实验 准备工作 硬件环境 笔记本电脑CPU&#xff1a;AMD R9 7940HS 8核16线程内存&#xff1a;16G16G DDR5双通道 4800MHzGPU&#xff1a;NVIDIA RTX4060 8G显存 软件环境 操作系统版本&#xff1a;Windows 10 企业版 22H2显卡驱…

C++核心高级编程 --- 1、内存分区模型 2、引用

文章目录 第一章&#xff1a;1.内存分区模型1.1 程序运行前1.2 程序运行后1.3 new操作符 第二章&#xff1a;2.引用2.1 使用2.2 注意事项2.3 做函数参数2.4 做函数返回值2.5 本质2.6 常量引用 第一章&#xff1a; 1.内存分区模型 4个区域&#xff1a; 代码区&#xff1a;存放…

SpringBean生命周期之五、七、十步(详解)

目录 前提 一.Bean的完整周期 1.1什么是Bean的生命周期 二.SpringBean的五步分析法 2.1理论分析 2.2代码实现 三.Bean周期之七步分析法 3.1理论分析 3.2代码实现 四.Bean生命周期之十步分析法 4.1理论分析 4.2代码实现 五.总结 5.1五步、七步、十步的差别 5.2S…

IPC 进程间通信

IPC InterProcess Communication The concept of IPC Each process has a differnt user addess space,and local variables 各自看不见,so 进程间通信 need kernel(内核), so a buffer is opened in the kernel,process 1 copies data from user space to this buffer,and …

易语言控件绑定数据库

易语言是一门中文编程语言&#xff0c;由国人开发&#xff0c;虽然比较冷门&#xff0c;但是在有些场合却非常流行&#xff0c;比如自动化脚本&#xff0c;还有开发外挂。 在易语言中&#xff0c;只要控件的属性里有数据源的都可以与数据库的数据绑定&#xff0c;以下将演示易…

消息存储与同步策略设计

消息存储与同步策略 https://github.com/robinfoxnan/BirdTalkServer 思路&#xff1a; 私聊写扩散&#xff0c;以用户为中心&#xff0c;存储2次&#xff1b;群聊读扩散&#xff0c;以群组为中心&#xff0c;存储一次&#xff1b;scylladb易于扩展&#xff0c;适合并发&…