多模态中的视觉编码器clip以及输入分辨率

多模态中的视觉编码器clip以及输入分辨率

article2025/1/11 16:58:21/文章来源:https://blog.csdn.net/u012193416/article/details/137914068

在多模态的视觉编码主干中，若采用分类的backbone效果很差，经过语义对齐的backbone，比如clip的vit，效果则好很多。

1.Cogvlm中的EVA2-CLIP-E，VIT中最后一层被移除，4.4B，支持分辨率为334/490.

2.QWEN-VL中openclip的ViT-bigG，1.9B，支持分辨率448x448。

3.llava中CLIP-VIT-L-336px，支持分辨率336。

4.visualglm中为VIT，分辨率224.

5.minigptv2中的EVA VIT，分辨率为448.

6.minigpt中预训练的VIT，分辨率是448.

7.monkey中Vit-BigHuge，编码器1.9B，支持分辨率是896.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/556890.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

[源码分享]基于Unity的Live2D虚拟人物——结合了GPT、Azure、情绪识别和口型同步，也可以集合苹果Vision Pro做成3D的形象

[源码分享]基于Unity的Live2D虚拟人物——结合了GPT、Azure、情绪识别和口型同步，也可以集合苹果Vision Pro做成3D的形象

# 技术文档 ## 1 项目简介 ### 项目目录 ``` Assets ├─ Animator // 动画 ├─ Code // 代码 │ ├─ AI // AI 模块 │ │ ├─ LM // 语言模型模块 │…

阅读更多...

Python爬虫数据可视化分析

Python爬虫数据可视化分析

Python爬虫用于从网络上获取数据，数据可视化分析则是将获取的数据进行可视化展示和分析，帮助我们更好地理解数据、发现规律、做出决策。下面是一个基本的Python爬虫数据可视化分析的流程： 步骤一：数据爬取 1.选择合适的爬虫工具&a…

阅读更多...

$使用PL\SQL将Excel表格导入到oracle数据库中$

使用PL\SQL将Excel表格导入到oracle数据库中

因为要测试生产问题，需要把生产上oracle导出数据导入到测试环境oracle数据库中，尝试了N种方法，发现使用PL\SQL 的ODBC 方法比较好用 1、开始首先使用plsqldev里面的，工具--》下面的odbc导入器 2、配置点击之后，会…

阅读更多...

LUA脚本判断是否为空

LUA脚本判断是否为空

系列文章目录文章目录系列文章目录前言前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站，这篇文章男女通用，看懂了就去分享给你的码吧。 Lua是一个小巧的脚…

阅读更多...

MOS产品在储能上的应用分析与推荐

MOS产品在储能上的应用分析与推荐

电化学储能可与光伏、风电等新能源发电相结合，缓解可再生能源稳定性差的问题。同时，电化学储能可提供调峰、调频、AGC、黑启动等辅助服务，保障电网安全。此外，电化学储能可以起到削峰填谷的作用，为住宅、工业和商业用户…

阅读更多...

阻塞队列（模拟+生产者消费者）

阻塞队列（模拟+生产者消费者）

阻塞队列字面意思，带有阻塞功能的队列，满足队列先进先出的性质作用： 1.如果队列为空，此时执行出队列操作，就会阻塞，直到往此队列里添加元素为止（队列不为空） 2.如果队列为满&#…

阅读更多...

GIS地理信息平台+智慧巡检技术解决方案（Word原件）

GIS地理信息平台+智慧巡检技术解决方案（Word原件）

1.系统概述 1.1.需求描述 1.2.需求分析 1.3.重难点分析 1.4.重难点解决措施 2.系统架构设计 2.1.系统架构图 2.2.关键技术 3.系统功能设计 3.1.功能清单列表软件全套精华资料包清单部分文件列表： 工作安排任务书，可行性分析报告，立项…

阅读更多...

故障诊断 | 基于迁移学习和SqueezeNet 的滚动轴承故障诊断（Matlab）

故障诊断 | 基于迁移学习和SqueezeNet 的滚动轴承故障诊断（Matlab）

目录效果一览基本介绍程序设计参考文献效果一览基本介绍将一维轴承振动信号转换为二维尺度图（时频谱图），并使用预训练网络应用迁移学习对轴承故障进行分类。迁移学习显著减少了传统轴承诊断方法特征提取和特征选择所花费的时间&#xff…

阅读更多...

果园系统养殖游戏喂养偷菜种植浇水养成小程序功能介绍

果园系统养殖游戏喂养偷菜种植浇水养成小程序功能介绍

以下是上述功能介绍的重写版本： 装扮使用丰富的材料，为您的房屋增添独特魅力，展现个性化装饰风格。土地升级投入不同数量的材料，提升房屋与土地的品质，打造独一无二的庄园。日志通过日志记录，清…

阅读更多...

[Leetcode]用栈实现队列

[Leetcode]用栈实现队列

用栈实现队列： 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作（push、pop、peek、empty）： 实现 MyQueue 类： void push(int x) 将元素 x 推到队列的末尾int pop() 从队列的开头移除并返回元…

阅读更多...

SQL优化——访问路径（ACCESS PATH）

SQL优化——访问路径（ACCESS PATH）

文章目录 1、常见访问路径1.1、TABLE ACCESS FULL1.2、TABLE ACCESS BY USER ROWID1.3、TABLE ACCESS BY ROWID RANGE1.4、TABLE ACCESS BY INDEX ROWID1.5、INDEX UNIQUE SCAN1.6、INDEX RANGE SCAN1.7、INDEX SKIP SCAN1.8、INDEX FULL SCAN1.9、INDEX FAST FULL SCAN1.10、I…

阅读更多...

AI的十大趋势如何？斯坦福《2024年人工智能指数报告》告诉你

AI的十大趋势如何？斯坦福《2024年人工智能指数报告》告诉你

最近，全球著名华人人工智能学者李飞飞联合领导的斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了《2024 年人工智能指数报告》（Artificial Intelligence Index Report 2024）。《2024 年人工智能指数报告》下载…

阅读更多...

windows terminal屏幕分栏的打开和关闭快捷键

windows terminal屏幕分栏的打开和关闭快捷键

最近看的工程基于windows的，自学c语法基于vm里的Ubuntu，win的终端好难用，搞得我好分裂。win系统找到了一个还不错的终端程序，总是记不住常用的快捷键，就记录下。 （安装也超简单，直接在MicroSoft…

阅读更多...

Vmware 虚拟机自定义IP地址 - UbuntuServer2204

Vmware 虚拟机自定义IP地址 - UbuntuServer2204

Vmware 虚拟机自定义IP地址 - UbuntuServer2204 设置网段选择喜欢的网段， 例如： 166 自定义 IP地址打开虚拟机， 输入命令查看网卡名 ip addr查看网卡配置文件 ls -al /etc/netplan/编辑网卡配置文件 sudo vim /etc/netplan/00-installe…

阅读更多...

linux 的Jdk1.8详细安装部署教程

linux 的Jdk1.8详细安装部署教程

一、环境准备 1.下载安装包下载地址，这是1.8的你也可以选择安装别的版本的 https://www.oracle.com/java/technologies/downloads/#java8-windows 选择想要的系统和对应的位数，点击下载即可 2.上传安装包选择自己要安装的路径，&#x…

阅读更多...

06—js函数（构造函数，原型，原型链。。。。。。）

06—js函数（构造函数，原型，原型链。。。。。。）

一、初识函数函数是由事件驱动的或者当它被调用时执行的可重复使用的代码块。通过函数可以封装任意多条语句，而且可以在任何地方，任何时间进行调用和执行二、创建函数 （1）function命令， 使用关键词 function来声…

阅读更多...

虚拟现实（VR）开发框架

虚拟现实（VR）开发框架

虚拟现实（VR）开发框架为开发者提供了构建VR应用程序所需的基本工具和功能。它们通常包括3D引擎、场景图、输入系统、音频系统和网络功能。下面是一些流行的VR开发框架。北京木奇移动技术有限公司，专业的软件外包开发公司，欢迎交流…

阅读更多...

借助 AI 对话文档：100% 私密且无数据泄漏 | 开源日报 No.224

借助 AI 对话文档：100% 私密且无数据泄漏 | 开源日报 No.224

zylon-ai/private-gpt Stars: 50.0k License: Apache-2.0 PrivateGPT 是一个可以与您的文档进行交互的项目，利用 GPT 的强大功能，100% 私密且无数据泄漏。提供 API 支持构建私密、上下文感知的 AI 应用程序遵循和扩展 OpenAI API 标准支持普通和流式响…

阅读更多...

51单片机实验04 -数码管的动态显示实验

51单片机实验04 -数码管的动态显示实验

目录一、实验目的二、实验内容三、实验原理四、实验方法五，实验效果及代码 1，效果 2，代码六，课后习题 1，使用定时器T0的中断函数1 从999999~0计时 1）效果 2）代码 2&#xff0c…

阅读更多...

国内低代码平台大揭秘：十大排名榜单综述

国内低代码平台大揭秘：十大排名榜单综述

国内低代码平台有：Zoho Creator、腾讯云云开发、阿里云宜搭、华为云AppCube、爱速搭、白码、织信、活字格、ClickPaaS、简道云。一、Zoho Creator Zoho Creator是一款基于云计算的低代码平台，旨在帮助企业和开发者快速构建和部署应用程序。该平台提供…

阅读更多...

最新文章