智谱AI GLM-4V-9B视觉大模型环境搭建推理

引子

最近在关注多模态大模型,之前4月份的时候关注过CogVLM(CogVLM/CogAgent环境搭建&推理测试-CSDN博客)。模型整体表现还不错,不过不支持中文。智谱AI刚刚开源了GLM-4大模型,套餐里面包含了GLM-4V-9B大模型,模型基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。嗯,,,很厉害 ,OK,那就让我们开始吧。

一、环境搭建

1、模型下载

git clone 魔搭社区

2、代码下载

git clone GitHub - THUDM/GLM-4: GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

3、安装环境

docker run -it -v /datas/work/zzq/:/workspace --gpus=all pytorch/pytorch:2.0.1-cuda11.7-cudnn8-devel bash

cd /workspace/GLM-4V/GLM-4/composite_demo

pip install -r requirements.txt -i Simple Index

二、代码运行

1、官方代码运行

import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda"

tokenizer = AutoTokenizer.from_pretrained("model/glm-4v-9b", trust_remote_code=True)

query = '描述这张图片'
image = Image.open("longbench.png").convert('RGB')
inputs = tokenizer.apply_chat_template([{"role": "user", "image": image, "content": query}],
                                       add_generation_prompt=True, tokenize=True, return_tensors="pt",
                                       return_dict=True)  # chat mode

inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
    "model/glm-4v-9b",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to(device).eval()

gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0]))

python glm-4v_test_demo.py

哦吼,显存爆了,据传说要32G显存,那老夫就无能为力了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/730484.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HTTP 状态码详解及使用场景

目录 1xx 信息性状态码2xx 成功状态码3xx 重定向状态码4xx 客户端错误状态码5xx 服务器错误状态码 HTTP思维导图连接:https://note.youdao.com/s/A7QHimm0 1xx 信息性状态码 100 Continue:表示客户端应继续发送请求的其余部分。 使用场景:客…

昇思25天学习打卡营第3天|数据集Dataset

一、简介: 数据是深度学习的基础,高质量的数据输入将在整个深度神经网络中起到积极作用。有一种说法是模型最终训练的结果,10%受到算法影响,剩下的90%都是由训练的数据质量决定。(doge) MindSpore提供基于…

公司怎么管理文档外发泄密?强化企业文档安全用迅软加密软件就行了!

一、文档加密软件原理 迅软DSE加密软件对各类需要加密的文件(如:技术资料、商业数据、红头文件、会议纪要、机要文件、图纸、财务报表等)进行加密。 使用加密算法对文件自动加密,只有拥有正确的解密密钥或密码的人才能打开文件&…

【uni-app学习手札】

uni-app(vue3)编写微信小程序 编写uni-app不必拘泥于HBuilder-X编辑器,可用vscode进行编写,在《微信开发者工具》中进行热加载预览, 主要记录使用uni-app过程中自我备忘一些api跟语法,方便以后编写查找使用…

OrangePi连接Wi-Fi步骤

下面介绍的是用终端命令行的方式配置WIFI: 首先输入以下命令用于扫描并查看周围的WiFi热点。也可以直接连接。 nmcli dev wifi之后会在终端打出周围所有可以连接的WiFi,按方向键上下可以查看显示更多,按q键退出。 然后同样使用nmcli命令连接…

如何修改外接移动硬盘的区号

- 问题介绍 当电脑自身内存不够使用的时候,使用外接硬盘扩展内存是一个不错的选择。但是当使用的外接硬盘数量过多的时候,会出现分配硬盘的区号变动的情况,这种情况下会极大的影响使用的体验情况。可以通过以下步骤手动调整恢复 - 配置 版本…

【CT】LeetCode手撕—143. 重排链表

目录 题目1- 思路2- 实现⭐143. 重排链表——题解思路 3- ACM 实现 题目 原题连接:143. 重排链表 1- 思路 模式识别:重排链表 ——> 逆向 ——> ① 找到中间节点 ——> ②逆置 mid.next 链表——> ③遍历 2- 实现 ⭐143. 重排链表——题解…

ELK Kibana搜索框模糊搜索包含不包含

默认是KQL,点击切换Lucene搜索,搜索日志中包含Exception关键字,不包含BizException、IllegalArgumentException、DATA_SYNC_EXCEPTION关键字的日志,如下: message: *Exception AND !(message : *BizException OR message : *Ille…

现代易货交易:重塑物品交换的新纪元

在数字时代的浪潮中,交易模式正在经历一场革命。其中,现代易货交易模式以其独特的魅力,逐渐在市场中崭露头角。这种交易模式不仅是对古老“以物换物”的复兴,更是对物品价值和交换方式的全新定义。 现代易货:物品交换的…

机器人系统工具箱的 Gazebo 模拟

Gazebo 联合仿真模块 机器人系统工具箱> Gazebo联合仿真模块库包含与仿真环境相关的 Simulink 模块。要查看该库,在 MATLAB 命令提示符下输入robotgazebolib。

张量 Tensor学习总结

张量 Tensor 张量是一种多线性函数,用于表示矢量、标量和其他张量之间的线性关系,其在n维空间内有n^r个分量,每个分量都是坐标的函数。张量在坐标变换时也会按照某些规则作线性变换,是一种特殊的数据结构,在MindSpore…

IDEA中SpringMVC的运行环境问题

文章目录 一、IEAD 清理缓存二、用阿里云和spring创建 SpringMVC 项目中 pom.xml 文件的区别 一、IEAD 清理缓存 springMVC 运行时存在一些之前运行过的缓存导致项目不能运行,可以试试清理缓存 二、用阿里云和spring创建 SpringMVC 项目中 pom.xml 文件的区别 以下…

容器之工具栏构件演示

代码; #include <gtk-2.0/gtk/gtk.h> #include <glib-2.0/glib.h> #include <gtk-2.0/gdk/gdkkeysyms.h> #include <stdio.h>int main(int argc, char *argv[]) {gtk_init(&argc, &argv);GtkWidget *window;window gtk_window_new(GTK_WINDO…

Meta-Llama-3-8B 部署

Meta-Llama-3-8B 模型文件地址 LLaMA-Factory 仓库地址 Download Ollama 环境准备 操作系统&#xff1a;Ubuntu 22.04.5 LTSAnaconda3&#xff1a;Miniconda3-latest-Linux-x86_64GPU&#xff1a; NVIDIA G…

第二十六篇——极简通信史:从1G到5G通信,到底经历了什么?

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么&#xff1f; 四、总结五、升华 一、背景介绍 对于网络&#xff0c;1G到5G&#xff0c;我们都在享受它带来的进步成果&a…

3.3 Ubuntu24使用kubeadm部署高可用K8S集群

Ubuntu24使用kubeadm部署高可用K8S集群 使用kubeadm部署一个k8s集群&#xff0c;3个master1个worker节点。 1. 环境信息 操作系统&#xff1a;ubuntu24.04内存: 2GBCPU: 2网络: 能够互访&#xff0c;能够访问互联网 hostnameip备注k8s-master1192.168.0.51master1k8s-maste…

聚类算法(1)---最大最小距离、C-均值算法

本篇文章是博主在人工智能等领域学习时&#xff0c;用于个人学习、研究或者欣赏使用&#xff0c;并基于博主对人工智能等领域的一些理解而记录的学习摘录和笔记&#xff0c;若有不当和侵权之处&#xff0c;指出后将会立即改正&#xff0c;还望谅解。文章分类在AI学习笔记&#…

[Qt]Qt框架解析:从入门到精通,探索平台开发的无限可能

一、Qt的概述 Qt是一个跨平台的C图形用户界面应用程序框架&#xff08;GUI&#xff09;。它为应用程序开发者提供建立艺术级图形界面所需的所有功能。它是完全面向对象的&#xff0c;很容易扩展&#xff0c;并且允许真正的组件编程。开发环境为Qt creator5.8.0&#xff0c;下载…

小红书 2024 大模型论文分享会来啦,与多位顶会作者在线畅聊!

大模型正引领新一轮的研究热潮&#xff0c;业界和学术界都涌现出了众多的创新成果。 小红书技术团队也在这一浪潮中不断探索&#xff0c;多篇论文研究成果在 ICLR、ACL、CVPR、AAAI、SIGIR、WWW 等国际顶会上频频亮相。 在大模型与自然语言处理的交汇处&#xff0c;我们发现了…

无需科学上网:轻松实现国内使用Coze.com平台自己创建的Bot(如何实现国内免费使用GPT-4o/Gemini等最新大模型)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 如何在国内使用 Coze.com 创建的 Bot 📒📝 创建Bot📝 实现国内使用📝 测试⚓️ 相关链接 ⚓️📖 介绍 📖 Coze.com 是一个强大的平台,允许用户创建各种类型的 Bot。然而,许多国内用户可能会遇到访问问题,导致无法…