CogVLM与CogAgent:开源视觉语言模型的新里程碑

引言

随着机器学习的快速发展,视觉语言模型(VLM)的研究取得了显著的进步。今天,我们很高兴介绍两款强大的开源视觉语言模型:CogVLM和CogAgent。这两款模型在图像理解和多轮对话等领域表现出色,为人工智能的发展开辟了新的道路。

CogVLM:强大的开源视觉语言模型

CogVLM是一个强大的开源视觉语言模型。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数,支持490*490分辨率的图像理解和多轮对话。CogVLM-17B在10个经典的跨模态基准测试中取得了最佳性能,包括NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA和TDIUC,并在VQAv2, OKVQA, TextVQA, COCO字幕等方面排名第二,超越或匹敌PaLI-X 55B。CogVLM还可以和您聊关于图片的话题。

CogVLM的论文:https://arxiv.org/abs/2311.03079

CogAgent:基于CogVLM的视觉语言模型

CogAgent是基于CogVLM改进的开源视觉语言模型。CogAgent-18B拥有110亿的视觉参数和70亿的语言参数,支持1120*1120分辨率的图像理解。在CogVLM的能力之上,CogAgent进一步拥有了图形用户界面(GUI)Agent的能力。

CogAgent在9个经典的跨模态基准测试中实现了最先进的通用性能,包括VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE测试基准。它在如AITW和Mind2Web等GUI操作数据集上显著超越了现有的模型。除了CogVLM已有的所有功能(视觉多轮对话,视觉定位)之外,CogAgent支持更高分辨率的视觉输入和对话式问答,拥有视觉Agent的能力,并通过改进预训练和微调,提高了OCR相关任务的能力。

CogAgent的论文:https://arxiv.org/abs/2312.08914

如何开始使用CogVLM和CogAgent

1. 使用网页演示进行推理:您可以直接访问我们的CogVLM & CogAgent Web Demo进行体验。

2. 自行部署CogVLM / CogAgent:我们提供了详细的部署指南,包括命令行界面和网络演示的部署方式。您可以根据需要选择合适的方式。

3. 微调CogAgent / CogVLM:如果您想在自己的任务中使用CogVLM,我们提供了详细的微调指南,帮助您实现不同的输出风格或领域知识。

4. OpenAI格式:我们提供了与GPT-4V相同的API示例,您可以在openai_demo文件夹中查看。

详细用法请见GitHub页面。

硬件需求

模型推理需要至少1个RTX 3090(24G)显卡,CogAgent需要约12.6GB的显存,CogVLM需要约11GB的显存。如果使用FP16,则需要1个A100(80G)或2个RTX 3090(24G)显卡。微调则需要至少4个A100(80G)显卡,或者8个RTX 3090(24G)显卡。

结语

CogVLM和CogAgent的发布,为视觉语言模型的研究和应用开启了新的篇章。我们期待看到更多的研究者和开发者利用这两款模型,推动人工智能的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/257225.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用P3口流水点亮8位LED

#include<reg51.h> //包含单片机寄存器的头文件 /**************************************** 函数功能&#xff1a;延时一段时间 *****************************************/ void delay(void) { unsigned char i,j; for(i0;i<250;i) fo…

推荐一款好用的PDF阅读器

下载地址: https://download.csdn.net/download/a876106354/88643909

导致OpenAI内乱的罪魁祸首,背后的技术是什么?

前几天围绕Sam 和 Greg和OpenAI board之间的爱恨情仇,我觉得比乡村爱情15还有意思,也达到了美剧多年未有的高度,反转反转再反转。 围绕争端的根本原因,那也是众说纷纭,不过其实有一条新闻我觉得挺值得玩味的,也是我所相信的,就是Sam在OpenAI day上发布了一个叫GP…

数据可视化---箱线图

类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱…

你了解Redis中的跳跃表吗?

跳跃表的基本内容&#xff1a; 对于一个有序序列&#xff0c;链表相对于数组来说&#xff0c;删除和插入的效率要快很多&#xff0c;只需要改变指针的指向&#xff0c;但是在查找的时候&#xff0c;数组就要更占优势一些&#xff0c;可以随机访问&#xff0c;然而链表需要从头…

冒泡排序和快速排序(分治递归算法)

冒泡排序&#xff1a; 冒泡排序时间复杂度为O&#xff08;N^2&#xff09; 直接插入排序比冒泡排序适应性更好&#xff0c;数据接近有序时比直接选择排序更好。 冒泡排序代码&#xff1a; void PrintArray(int* a, int n) {int i;for (i 0; i < n; i){printf("%d …

(详解版)创建线程的四种方式

文章目录 Java中创建线程的四种方式1. 继承Thread类并重写 run 方法来创建线程2. 实现Runnable接口并实现 run 方法来创建线程。3. 使用Callable接口创建线程4. 使用Executor框架创建线程 Java中创建线程的四种方式 接下来我会详细解释这四种方式创建线程如何实现. 我们如果要…

7000字详解ERP管理系统!

在当今竞争激烈的商业世界中&#xff0c;中小企业不仅需要保持灵活性&#xff0c;更需要高效管理企业资源。 你可能听说过ERP系统&#xff0c;但它究竟是什么&#xff1f;它为何成为中小企业管理的不二选择&#xff1f;又是如何助力中小企业整合资源、提升效率&#xff0c;并在…

C++ OJ题测试—排序算法效率

目录 OJ链接 一、直接插入排序 二、希尔排序 三、直接选择排序 常规&#xff1a; 第二种&#xff1a; 四、 堆排序 五、冒泡排序 六、快速排序 常规&#xff1a; 三路划分优化效率 七、归并排序 八、计数排序 OJ链接 ​ 一、直接插入排序 class Solution { pub…

Python3.5 中->,即横杠和箭头,用来表示函数的返回值类型

最近在看playwright的源码&#xff0c;在看sync_playwright()方法的源码时发现一个特殊的语法-> 即横杠箭头&#xff0c;跟据如下源码猜测它应该是一个说明函数返回值类型的标识&#xff0c;因为 -> PlaywrightContextManager 与return PlaywrightContextManager() 一致…

算法(2)——滑动窗口

前言&#xff1a; 步骤及算法模板&#xff1a; 确定两个指针变量&#xff0c;left0,right0; 进窗口&#xff1a; 判断&#xff1a; 出窗口 更新结果 接下来我们的所用滑动窗口解决问题都需要以上几个步骤。 一、长度最小的子数组 209. 长度最小的子数组 - 力扣&#xff08;L…

C语言-> 文件操作(函数满屏)

系列文章目录 前言 ✅作者简介&#xff1a;大家好&#xff0c;我是橘橙黄又青&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;橘橙黄又青_C语言,数据结构,函数-CSDN博客 目的&#xff1a;学习文件操作&#xff0c;即…

Halcon深度学习方法

1、异常检测和全局上下文异常检测 图(1)异常检测示例 在图(1)上图中&#xff0c;异常检测示例&#xff1a;为输入图像的每个像素都分配一个分数&#xff0c;表明它显示未知特征(即异常)的可能性&#xff1b;在图(1)下图中&#xff0c;全局上下文异常检测示例&#xff1a;为输入…

Leetcode—859.亲密字符串【简单】

2023每日刷题&#xff08;六十三&#xff09; Leetcode—859.亲密字符串 &#x1f4a9;山实现代码 class Solution { public:bool buddyStrings(string s, string goal) {int len1 s.size(), len2 goal.size();int cnt 0;int flag 0;int flag2 0;int odd -1;int a[26] …

Eclipse_01_如何设置代码文件背景颜色为护眼沙绿色

设置方法 Window --> Preference 参考文档 参考文档 1

软件测试人才稀缺!揭秘为什么你找不到软件测试工作?

最近后台很多粉丝给我留言&#xff1a; 2023年软件测试已经崩盘了吗&#xff0c;为什么都找不到工作了&#xff1f; 确实&#xff0c;今年经济大环境不好&#xff0c;企业也都在降本增效&#xff0c;如果技术能力还在被应届生竞争岗位的阶段&#xff0c;只会越来越难。 找不…

全球首个AI监管法案出炉!

全球首个AI监管法案诞生了&#xff01; 今年来AI领域出现了爆发式的发展&#xff0c;在大模型的浪潮下&#xff0c;全球关于AI监管的讨论也越来越热。近日&#xff0c;经过长时间的讨论&#xff0c;欧洲议会、欧盟成员国和欧盟委员会三方签署了全球首份AI监管法案——《人工智…

关于Android studio新版本和NEW UI显示返回按钮的设置

1.新版Android studio问题 因为在新版本的Android Studio中&#xff0c;默认情况下是没有直接的选项来显示返回上一步按钮在状态栏上的&#xff0c;可以通过以下方法来实现返回上一步的功能&#xff1a; 在Android Studio的顶部菜单栏中&#xff0c;选择"View"。在…

[原创][R语言]股票分析实战[1]:周级别涨幅趋势的相关性

[简介] 常用网名: 猪头三 出生日期: 1981.XX.XX QQ联系: 643439947 个人网站: 80x86汇编小站 https://www.x86asm.org 编程生涯: 2001年~至今[共22年] 职业生涯: 20年 开发语言: C/C、80x86ASM、PHP、Perl、Objective-C、Object Pascal、C#、Python 开发工具: Visual Studio、D…

spring MVC概述和土门案例(无配置文件开发)

SpringMVC 1&#xff0c;SpringMVC概述2&#xff0c;SpringMVC入门案例2.1 需求分析2.2 案例制作步骤1:创建Maven项目步骤2:补全目录结构步骤3:导入jar包步骤4:创建配置类步骤5:创建Controller类步骤6:使用配置类替换web.xml步骤7:配置Tomcat环境步骤8:启动运行项目步骤9:浏览器…