全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%,所有模型最易犯感知错误

GPT-4o再次掀起多模态大模型的浪潮。

如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。

因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。

来自上海AI Lab、香港大学、上海交大、浙江大学等多家机构提出了 MMT-Bench。

图片

这是一个全方位的多模态基准测试,旨在全面评估大型视觉语言模型(LVLMs)在多模态多任务理解方面的表现。

研究团队还对当前几个代表的视觉大模型进行了能力评估,结果发现感知错误、推理错误是所有模型最常见的两大错误。

多模态多任务AGI基准测试MMT-Bench

MMT-Bench的广度体现在三个方面。

图片

首先,MMT-Bench数据经过精心设计,包含32K个多选视觉语言问题,涵盖了32个核心元任务和162个子任务,这比此前的评测数据集MMBench大8.1倍。

其次,MMT-Bench包含了13种图像类型,如自然场景、合成图像、深度图、富文本图像、绘画、屏幕截图、点云、医学图像等。这样的图片多样性要求模型能够解释理解各种视觉输入。

第三,MMT-Bench涵盖了多种多模态情景,如车辆驾驶、GUI导航和具身AI,测试了14种多模态能力,包括视觉识别、定位、推理、OCR、计数、3D感知、时间理解等。

构建评测任务

MMT-Bench的评测任务在构建时旨在包含尽可能多的多模态任务。为此,研究人员首先提出多模态理解的元任务。然后,通过去重和筛选重要任务总结出32个元任务。

接着,将每个元任务分解为几个子任务。子任务是否被保留在MMT-Bench中,需要满足三个标准:

  • 1、子任务是否检验了基本的多模态能力;
  • 2、子任务对当前的大型视觉语言模型(LVLMs)是否具备挑战性;
  • 3、子任务的测试样本是否可以公开获取。

经过选择,MMT-Bench共包含了162个子任务,这比之前任务最多的评测集TinyLVLM-eHub大3.8倍。

MMT-Bench与此前评测数据的详细比较如下表所示。

图片

数据收集

图片

MMT-Bench的研究人员设计了一个高效的数据收集流程,以构建每个子任务的多选视觉语言问题评估数据。

首先,他们通过Google、Paper With Code、Kaggle和ChatGPT等多种数据来源,根据子任务的名称全面搜索相关数据集。下载数据集后,再细致地评估它们是否适合评估子任务,确保数据集的可用性和相关性。

接着,研究人员定义了一种统一的元数据格式,用于整理下载的数据集。每个元数据样本包括图像和元信息,其中元信息包括生成评测问题和答案所需的必要信息,以及所需推理能力的标注信息和视觉图片的类型。

为了提高评估效率,在每个任务中,研究人员通过随机抽样将样本数量最大限制为200,并且每个数据集包含相同数量的样本。

最后,对于每个子任务,研究人员从它们的元数据中生成多选视觉语言问题及其选项和答案。具体来说,根据特定任务,研究人员或手动设计规则,或使用ChatGPT来进行高质量的QA生成。

例如,在基于草图进行图像检索的任务中,使用对应的图像作为正确答案,并从元数据中随机抽取其他图像来生成错误选项。而在生成视频描述的任务中,则使用ChatGPT编写容易混淆的错误选项。

综上,MMT-Bench共包含31,325个精心设计的多选问题,涵盖13种输入图像类型,如自然场景、合成图像、富文本图像、医学图像等,覆盖32个核心元任务和162个子任务,用于多任务多模态理解。

与之前的LVLMs基准测试相比,MMT-Bench中的问题涵盖了多种多模态场景,如GUI导航和文档理解,测试了包括视觉识别、定位、推理、OCR、计数、3D感知、时间理解等14种能力。这些特点确保MMT-Bench满足评估多任务AGI的任务广度要求。

评测结果

研究人员基于MMT-Bench对30种公开可用的大型视觉语言模型(LVLMs)进行了综合评估。

结果显示MMT-Bench的基准测试给现有的LVLMs带来了重大挑战,即使是InternVL-Chat、GPT-4o和GeminiProVision等先进模型,其准确率也仅分别为63.4%、65.5%和61.6%。

图片

综合而言,闭源的专有模型GPT-4o目前在MMT-Bench中取得了领先地位,超过了InternVL-chat、QWen-VL-Plus、GPT-4V和GeminiProVision等其他模型。

值得注意的是,开源模型InternVL-chat和QwenVL-Max正紧随GPT-4o之后,这为未来开源社区模型能与闭源专有模型竞争甚至超越它们的前景增添了信心。

图片

在所有元任务的评测结果中,研究人员还发现:

1)大多数大型视觉语言模型在视觉识别(Visual Recognition)和视觉描述(Visual Captioning)任务中表现出色,凸显了LVLMs在识别“物体是什么”和描述图像中展示内容的能力。然而,对于精细感知任务(如定位、像素级感知等)或复杂推理任务(如图像评测判断),大多数LVLMs仍表现较差。

2)对于LLaVA-v1.5和LLaVA-v1.5-Xtuner,随着模型大小的增加(从7B增加到13B),其性能显著提高,而从InternLM升级到InternLM2也提高了LLaVA的性能。这表明即便保持训练数据和视觉编码器保持不变,采用更大或改进的LLMs也能够提升多任务性能。

3)BLIP2即使没有经过指令调整,也在性能上超过了大多数经过数百万指令数据调整的LVLMs,这表明在某些任务中使用指令调整的数据甚至可能损害其他任务的泛化能力。

任务地图

得益于MMT-Bench中任务的广泛覆盖,研究人员可以在任务地图上评估LVLMs的多模态性能。

通过分析任务地图中任务之间的关系,可以系统地解释不同任务在多模态能力中的作用。基于任务地图,研究人员发现LVLMs在彼此相近的任务上获得更一致的性能排名。此外,任务地图还可以用来发现领域外(OoD)任务和领域内任务。

图片

错误分析

为了分析LVLMs在MMT-Bench上的错误分布,研究人员检查了三个LVLMs:GPT-4V、GeminiProVision和InternVL-Chat-V1.2(简称InternVL)。

图片

结果发现,感知错误(Perception Error)是所有模型中最常见的错误类型。

其中GPT-4V的感知错误率显著低于GeminiProVision(76.9%)和InternVL(67.2%),表明其在感知任务中的表现优越。

推理错误是第二常见的错误类型,其中InternVL的推理错误率最高(14.8%),其次是GeminiProVision(10.4%)和GPT-4V(9.94%),这凸显了所有模型在复杂推理任务中所面临的挑战。

图片图片

最后简单一下,MMT-Bench是一个旨在评估LVLMs在多模态多任务理解方面的一个综合性基准测试。MMT-Bench的广度体现在其精心构建的包含31325个多选问题的数据上,这些问题涵盖了162个多模态任务。

评估结果揭示了当前LVLMs仍面临由MMT-Bench所带来的重大挑战。MMT-Bench的目标是衡量LVLMs在多任务AGI路径上的进展,并在未来将继续扩展其所涵盖的任务集。研究人员相信,MMT-Bench将进一步激发LVLMs的研究和开发,使得人们能够更接近实现真正智能的多模态系统。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/701914.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Windows7及以上系统中管理员权限与UAC虚拟化详解(附源码)

目录 1、管理员权限 2、UAC虚拟化 3、将程序配置为以管理员权限启动 4、判断程序有没有管理员权限 5、以管理员权限启动目标程序 6、开机自启动程序不能设置管理员权限 VC++常用功能开发汇总(专栏文章列表,欢迎订阅,持续更新...)https://blog.csdn.net/chenlycly/art…

Samtec技术前沿 | 高达128 GT/s :全新概念验证型高速电缆解决方案性能

【摘要/前言】 即将发布的PCIe 7.0 规范旨在实现128 GT/s的数据传输速率。它延续了PCIe 每一代产品速度翻番的趋势。根据 PCI-SIG的说法,"PCIe 7.0 技术的目标是为人工智能/机器学习、数据中心、高性能计算、汽车和物联网等数据密集型市场提供可扩展的互连解决…

Docker笔记-Debian容器内搭建ssh服务

登陆容器之后修改密码: passwd 密码设置完成后安装openssh-server apt-get install openssh-server 修改端口号为50022并添加配置 vim /etc/ssh/sshd_config 修改成 Port 50022 PasswordAuthentication yes PermitRootLogin yes 启动 rootlinux:~# /etc/in…

实现AI口语练习的技术库

国内实现AI口语练习的第三方技术库比较多,以下是一些国内实现AI口语练习的第三方技术库。开发人员可以根据自己的需求选择合适的技术库进行开发。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 讯飞开放平台: …

2024世界人工智能大会“SAIL奖”发布

作为世界人工智能大会的最高奖项,SAIL 奖(Super AI Leader,卓越人工智能引领者)坚持“追求卓越、引领未来”的理念,评选和运营秉持“高端化、国际化、专业化、市场化、智能化”原则,从全球范围发掘在人工智…

【SpringBoot+Vue】后端代码使用Mybatis实现自动生成实体类的功能

参考】 SpringBoot多环境配置详解(application-dev.yml、application-test.yml、application-prod.yml) springboot集成mybatis【使用generatorConfig.xml配置自动生成代码】 怎么快速查看自己mysql的安装位置 解决 http://mybatis.org/dtd/mybatis-generator-config_1_0.dt…

Source Insight 4.0软件使用记录

目录 工程创建 个人使用 Source Insight 4.0 软件的一些记录。 工程创建 建议起名和自己工程名相同,不能有中文,否则一定会出错 这一步直接点ok即可: 添加所有文件 勾上: 随后便可在右边,打开文件进行阅读

美国公司狂招AI人才!AI产品经理年薪近百万美元,众多中高级职位空缺

据《华尔街日报》报道,美国以娱乐和制造业为主的公司正在掀起一场AI招聘狂潮,广招数据科学家、机器学习专家及其他擅长部署AI技术的从业人员。 由于AI从业人员供不应求,中高级职位大量空缺,许多公司开出六位数以上的薪水&#xf…

【Python】(一)复习重点——类型;结构

一.类型 and结构 Python3 基本数据类型 | 菜鸟教程 (runoob.com) 基本数据类型 int float str 变量赋值 多变量赋值 a b c 1 # 多个变量赋同一个值 a, b, c 1, 2, "runoob" # 多个对象指定多个变量 标准数据类型 【Python】易错点1-CSDN博客——2.列表…

11_2、多态性:虚函数

虚函数与抽象类 虚函数概念声明虚析构函数 抽象类纯虚函数抽象类 虚函数 概念 在赋值兼容规则中,基类类型的指针指向派生类对象时,通过此指针只能访问从基类继承来的同名成员。 如果我们希望通过指向派生类对象的基类指针,访问派生类中的同…

SAP ABAP开发过程中如何获取客户、供应商地址信息?

在SAP ERP系统中,在sap的应用中,很多地方需要用到地址和联系方式,sap对于地址采用了集中维护。如下图中的供应商:在SAP ERP系统的事务码输入栏中,输入事务码XK03,勾选地址后显示: 那么&#xf…

DB-Engines Ranking 2024年6月数据库排行

DB-Engines Ranking 2024年6月数据库排行 DB-Engines排名根据数据库管理系统的受欢迎程度进行排名。排名每月更新一次。 排名表 趋势图 关系型数据库前 10 名 键值数据库前 10 名 文档数据库前 10 名 时序数据库前 10 名 图数据库前 10 名 DB-Engines Ranking的分数计算方法 …

先别吹sora,ComfyUI+SVD才是你2024年必须掌握的ai视频工具!

comfyuisvd最新教程,没玩过ai视频的你必须要了解! 这可能是你见过最适合小白的comfyuisvd入门教程! 一、comfyui的特点? 很多人其实还不知道,目前市面上热门的ai视频工具有哪些? Sora:Sora目…

基于模型的理念:认知提升与研发模式转型

系统工程是从航空、航天等系统的开发过程中总结出来、用于指导复杂工程项目开展的方法论,是协调庞大团队完成复杂任务的技术和管理要素的综合,最新的国际标准将系统工程定义为“管控整个技术和管理活动的跨学科的方法,这些活动将一组客户的需…

【Java】如何根据应用场景选择合适的消息中间件?

一、问题解析 21.1 消息中间件的应用场景 消息中间件的应用场景主要有两个:异步解耦与削峰填谷。 我们首先通过电商平台用户注册送积分、送优惠券这个场景来理解异步解耦合。如果不使用消息中间件,电商平台送积分的实现也许是下图这个样子&#xff1a…

【AI】文心一言的使用分享

在数字化时代,人工智能(AI)技术的飞速发展正在改变我们的生活。文心一言,作为这一浪潮中的佼佼者,以其卓越的自然语言处理能力和广泛的应用场景,给我带来了前所未有的使用体验。在这篇分享中,我…

新能源车用驱动器 电机电驱

硕博电子的电机电驱是以一体化动力总成为设计理念,整合电控、电机核心模块,推出的电机电控一体化动力总成。电机电控动力总成采用矢量控制算法和CAN总线通信技术,体积小、效率高、免维护、电磁兼容性强、方便调试,提高了系统的可靠…

复旦大学首本大模型中文书太厉害啦!【大模型书籍推荐】

前言 在信息爆炸的时代,自然语言处理(NLP)技术如同璀璨的星辰,照亮了我们与机器沟通的道路。而今,复旦大学自然语言处理实验室的教授团队,如同航海家般,为我们带来了一本指引大语言模型领域前行…

【原创教程】三菱Q与MERLIN II LS激光打标机控制说明

一、控制流程说明 1.硬件连接→2.软件通讯连接→3.编写远程控制PLC程序→4.编写通讯命令。 二、硬件连接1.用RJ45口普通网线将PLC和打标机连接。 三、软件通讯连接 1.打标机侧工控机-更改操作权限-点击菜单栏Setup,在下拉菜单中,点击Level,在下一级菜单点击Supervisor(左下…

【工程实践】gradio调用模型与展示

前言 模型在云端部署好之后,衍生出Flask、Fastapi的接口,可以借助gradio调用接口展示在前端。 1.gradio代码 import gradio as gr import requests import json #调用部署的云服务接口 def greet(question):prefix_url http://0.0.0.0/get_classificat…