《Qwen2-VL》论文精读【上】：发表于2024年10月 Qwen2-VL 迅速崛起

在这里插入图片描述

1、论文地址Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
2、Qwen2-VL的Github仓库地址

该论文发表于2024年4月，是Qwen2-VL的续作，截止2024年11月，引用数24

在这里插入图片描述

文章目录

1 论文摘要
2 引言
3 实验
- 3.1 与SOTA相比
- 3.2 定量结果
- - 3.2.1 通用视觉问答
  - - 3.2.1.1 2024年4月 700 RealWorldQA 77.8
    - 3.2.1.2 2024年4月 1500 MMStar 68.3
    - 3.2.1.3 2023年10月 1000 MMVet 74
    - 3.2.1.4 2024年4月 30k MMT-Bench 71.7
    - 3.2.1.5 2023年7月 3000 MMBench 86.6
    - 3.2.1.6 2023年updating 14个任务 MME 2482
    - 3.2.1.7 通用视觉问答小结
  - 3.2.2 文档和图表阅读
  - - 3.2.2.1 2021年 50k DocVQA
    - 3.2.2.2 2022年 30k ChartVQA
    - 3.2.2.3 2020年 20k TextVQA
    - 3.2.2.4 2016年 15k AI2D
  - 3.2.3 多语言文本识别与理解
  - - 3.2.3.1 2024年5月 5k MTVQA
  - 3.2.4 数学推理
  - 3.2.5 指称表达理解
  - 3.2.6 视频理解

1 论文摘要

作者提出了Qwen2-VL系列，这是先前Qwen-VL模型的先进升级，重新定义了视觉处理中的传统确定分辨率方法。Qwen2-VL引入了Naive动态分辨率机制，使模型能够动态地将不同分辨率的图像处理成不同数量的视觉 Token 。这种方法使模型可以生成更高效、更准确的可视表示，并与人类感知过程紧密一致。模型还集成了多模态旋转位置嵌入（M-RoPE），以促进文本、图像和视频之间位置信息的有效融合。作者采用了一种统一的方法来处理图像和视频，增强了模型的视觉感知能力。为了探索大型多模态模型的潜力，Qwen2-VL研究了大型视觉语言模型（LVLMs）的扩展定律。通过扩展模型的参数大小（版本为2B、8B和72B）和训练数据的数量，Qwen2-VL系列在各个多模态基准测试中实现了非常具有竞争力的性能。值得注意的是，Qwen2-VL-72B模型在各种多模态基准测试中，与GPT-4o和Claude3.5-Sonnet等领先模型相比，实现了相当的结果，超越了其他通用模型。代码: https://github.com/QwenLM/Qwen2-VL

2 引言

在人工智能领域，大型视觉语言模型（LVLMs）是一个重大的进步，这些模型在传统大型语言模型的强大文本处理能力基础上构建。这些先进的模型现在具有处理更广泛的数据的能力，包括图像、音频和视频。这种能力的扩展使LVLMs成为解决各种实际挑战的不可或缺的工具。由于它们独特地将广泛而复杂的知识压缩为功能表示，LVLMs正在为更全面的认知系统铺平道路。通过整合多种数据形式，LVLMs试图更接近地模拟人类感知和互动环境的细微差别。这使得这些模型能够更准确地表示作者如何与作者的环境互动和感知。

近年来大型视觉语言模型（LVLMs）的进步已经取得了显著的改进。这些模型通常遵循一种常见的做法，即“视觉编码器→跨模态连接器→LLM”。这种设置，结合Next-Token预测作为主要训练方法和高质量数据集的可用性，推动了大部分进展。此外，像更大的模型架构，更高的分辨率图像，以及先进的混合专家模型（MoE）等高级技术，模型集成，以及视觉和文本模态之间更复杂的连接器等因素也对增强LVLMs处理复杂视觉和文本信息的能力发挥了关键作用。

然而，当前的大型视觉语言模型（LVLMs）通常受到固定图像输入大小的限制。标准LVLMs将输入图像编码到固定分辨率（例如，224224），通常通过降低采样或增加采样，或者采用“先缩放后填充”的方法。尽管这种一刀切的方法可以实现输入图像在一致分辨率下的处理，但也限制了模型在不同尺度下捕捉信息的能力，特别是在高分辨率图像中，会导致大量详细信息的丢失。因此，这些模型在感知视觉信息时，对尺度和细节的敏感性不如人类视觉。

此外，大多数LVLMs依赖于一个静态、冻结的CLIP式视觉编码器，这引发了关于由这种预训练模型产生的视觉表示是否足够的担忧，尤其是在复杂推理任务和处理图像内的精细细节时。最近的工作试图通过在LVLM训练过程中微调视觉 Transformer （ViT）来解决这些限制，这已经证明可以获得更好的结果。为了进一步增强模型对不同分辨率的适应性，作者在LVLM训练过程中引入了动态分辨率训练。具体来说，作者在ViT中使用2D旋转变位位置嵌入（RoPE），这样模型就可以更好地捕捉不同空间尺度上的信息。

关于视频内容，它本质上是一系列帧，许多现有模型仍然将其视为独立模态。然而，理解视频中现实世界的动态特性，对于那些试图抓住真实世界复杂性的模型至关重要。与文本（天生一维）不同，真实世界存在于三维。目前模型中使用的一维位置编码极大地限制了它们有效模拟三维空间和时间动态的能力。为了弥合这一差距，作者开发了多模态旋转位置编码（MRoPE），该编码器使用单独的组件表示时间和空间信息。这使得模型能够自然地理解动态内容，如视频或 Stream 数据，从而提高其理解和交互世界的能力。

此外，与大型语言模型（LLMs）的扩展相比，当前的LVLMs在探索扩展对训练数据和模型参数的影响方面仍处于早期阶段。LVLMs的扩展定律的探索——模型和数据大小的增长如何影响性能——仍然是一个开放且具有前景的研究领域。

在本工作中，作者引入了Qwen家族的视觉语言模型的最新成员：Qwen2-VL系列，该系列包括三个参数总数分别为20亿、80亿和720亿的开源权重模型。

在这里插入图片描述

如图1所示，Qwen2-VL的关键改进包括：

在各种分辨率和 aspect ratio 下的最新 AI 理解: Qwen2-VL 在视觉基准测试中实现了领先的性能，包括 DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista 等。
理解扩展时长视频（20分钟以上）： Qwen2-VL 能够理解长度超过 20 分钟的视频，从而提高其进行高质量基于视频的问题回答、对话、内容创建等的能力。
具有强大设备操作能力的AI Agent 能力：具有高级推理和决策能力的Qwen2-VL可以与如手机、机器人等设备集成，实现基于视觉输入和文本指令的自主操作。
多语言支持：为了服务全球用户，Qwen2-VL现在支持图像内的多语言上下文理解，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

3 实验

在本节中，作者首先通过在各种视觉基准上进行比较分析来评估模型的性能，展示作者方法的优势。然后，作者对特定能力进行详细检查，包括通用视觉感知、文档理解、图像中的多语言识别、视频理解以及 Agent 能力。最后，作者进行一项消融研究，以调查作者方法的关键组成部分。

3.1 与SOTA相比

作者通过各种视觉基准测试、视频任务和基于 Agent 的评估来评估Qwen2-VL在视觉方面的能力。Qwen2-VL在相同规模上表现出非常高的竞争力，实现了新的最先进水平（SoTA）的结果。总的来说，Qwen2-VL-72B模型在大多数评估指标上始终提供顶级性能，经常甚至超过封闭源模型如GPT-4o和Claude 3.5-Sonnet。值得注意的是，它在文档理解任务上表现出显著的优势。然而，在MMMU基准测试中，Qwen2-VL在某种程度上仍落后于GPT-4o，这表明在处理更复杂和具有挑战性的问题集时，Qwen2-VL-72B仍有改进的空间。

3.2 定量结果

在本节中，作者对Qwen2-VL系列在多个数据集上的表现进行了广泛的评估，以全面了解模型在不同方面的能力。

3.2.1 通用视觉问答

为了严格评估Qwen2-VL在通用视觉问答任务中的能力，作者在一系列最先进的基准测试上进行了广泛的评估：RealWorldQA，MMStar，MMVet，MMT-Bench，MMBench，MMDench-1.1，MME，以及HallusionBench。Qwen2-VL系列在这些基准测试上表现出色，72B模型在这些基准测试上一直实现或超越最先进的结果，而7B和2B变体也展示了强大的能力。

3.2.1.1 2024年4月 700 RealWorldQA 77.8

关于RealWWorldQA的论文、Github、huggingface数据集，查看链接

在RealWorldQA上，该基准测试评估现实世界空间理解，Qwen2-VL-72B的得分达到77.8，超过了先前的最先进水平（72.2）和强大的 Baseline ，如GPT-4o（75.4），从而展示了对物理环境的优越理解。这是一个发表于2024年4月的基准测试集，旨在评估多模态模型在理解真实世界物理空间方面的能力，包含超过700个问题和答案，主要采用来自车辆前摄像头等实际环境中的图像。数据集下载和解释说明预览，请查看 huggingface visheratin/realworldqa

在这里插入图片描述

3.2.1.2 2024年4月 1500 MMStar 68.3

关于MMStar的论文、Github、huggingface数据集，查看链接

在MMStar上，该基准测试旨在通过视觉不可缺少的样本评估真正的多模态能力，Qwen2-VL-72B的得分为68.3，超过了先前的最佳结果（67.1），并突显了其在整合视觉和文本信息方面的能力。发表于2024年4月，MMStar 是一个精英级的、不可或缺的多模态基准测试，包含1,500个精心挑选的样本。这些样本经过仔细的平衡和净化处理，确保它们具有视觉依赖性、最小化数据泄露，并且需要高级的多模态能力才能正确处理。MMStar 旨在评估大规模视觉-语言模型（LVLMs）在六个核心能力和18个详细轴上的表现。
在这里插入图片描述

在这里插入图片描述

MMStar的六种核心能力：

（1）Fine-grained Perception（细粒度感知） 指的是对细节的高度敏感和精确识别能力。在计算机视觉和多模态学习领域，细粒度感知指的是模型能够识别和区分非常细微的差异，比如在图像分类任务中，不仅能区分“鸟”和“飞机”，还能进一步区分不同种类的鸟类或飞机。这种能力对于实现更精准的任务执行非常重要，例如属性识别、目标计数、目标定位等。

Attribute & Celebrity Recognition 指的是在图像或视频中识别属性（attributes）和名人（celebrities）的能力。这项技术属于计算机视觉和多模态学习的范畴。这些属性可以是性别、年龄、表情、衣着风格、发型等。
Object Counting（目标计数） 是指在图像或视频中自动检测并统计特定对象的数量。这项技术在计算机视觉领域有着广泛的应用，涉及多个行业和场景。
Object Location（目标定位） 是指在图像或视频中确定特定对象的位置。这项技术是计算机视觉领域的一个基本任务，通常涉及到检测和定位图像中的一个或多个对象，并给出它们的具体位置

（2）Coarse Perception（粗粒度感知）是指在计算机视觉和多模态学习中，模型对目标或场景的初步、大致的理解和识别。与细粒度感知（Fine-grained Perception）不同，粗略感知侧重于捕捉和识别较为宏观的特征和信息，而不是关注细节

Image Emotion（图像情感） 是指从图像中识别和分析所表达的情感或情绪。通过分析图像内容，识别和量化其中所表达的情感或情绪。这些情感可以是快乐、悲伤、愤怒、惊讶、恐惧、厌恶等基本情绪，也可以是更复杂的情感状态，如平静、紧张、温馨等。
Image Style & Quality（图像风格与质量） 是指对图像的视觉风格和成像质量进行评估和分析。图像风格指的是图像的视觉特征和艺术表现形式，包括色调、色彩饱和度、构图、纹理、笔触等。不同的图像风格可以传达不同的情感和氛围。图像质量指的是图像的清晰度、分辨率、锐度、噪点、失真等技术指标。高质量的图像通常具有更高的分辨率、更少的噪点和更少的失真
“Image Scene & Topic”（图像场景与主题） 是指图像中所包含的主要环境、背景以及中心内容或焦点。这两个概念在图像理解、内容识别和分类中起着关键作用，特别是在计算机视觉和图像处理领域。图像场景指的是图像中呈现的整体环境或背景。它描述了图像发生的地点、时间和氛围，如自然景观-山川、城市景观-街道、室内场景-客厅、特殊场景-夜景等。图像主题指的是图像中主要表达的内容或焦点。它是图像的核心信息，通常是最吸引人注意的部分，如人物主体-肖像、动物主题-宠物、物体主题-汽车、活动主题-体育比赛、事件主题-自然灾害等

（3）"Mathematics" 数学 是一门研究数量、结构、变化和空间等概念的学科。涉及从最基本的算术运算到复杂的抽象理论等多个方面。

“Numeric Commonsense & Calculation”（数值常识与计算） 是指在处理数字和数学问题时，结合数值常识和计算推理的能力，以及进行精确计算的能力。数值常识是指对数字和数量关系的直观理解和常识性认识。它包括对数字大小、比例、单位转换、日常生活中的数量关系等方面的常识。计算是指进行数学运算和解决问题的能力，包括基本的算术运算（加、减、乘、除）、代数运算、几何计算、统计分析。
“Statistical Analysis”（统计分析） 是指使用统计方法和模型来收集、整理、分析和解释数据的过程。统计分析的目标是从数据中提取有用的信息，揭示数据背后的规律和趋势，支持决策制定和科学研究。
“Geometry”（几何学） 是数学的一个分支，主要研究空间中的形状、大小、相对位置以及这些性质之间的关系

（4）"Instance Reasoning"（实例推理）是指在特定实例或具体情境中进行推理和问题解决的过程。这种方法通常涉及从具体案例出发，运用逻辑、经验知识和已有数据来推导出解决方案或做出决策。

“Attribute Reasoning Single-Instance”（单实例属性推理） 是指在单个实例或对象的基础上，通过分析其属性来进行推理和决策的过程。这种方法通常用于识别和理解对象的特征，并根据这些特征做出判断或预测。
“Cross-Instance Attribute Comparison”（跨实例属性比较） 是指在多个实例或对象之间，通过比较它们的属性来进行分析和推理的过程。这种方法通常用于识别和理解不同对象之间的相似性和差异性，从而做出更准确的判断或决策。
“Cross-Instance Relation Reasoning”（跨实例关系推理） 是指在多个实例或对象之间，通过分析和推理它们之间的关系来进行决策和问题解决的过程。这种方法通常用于理解不同对象之间的相互作用、关联和依赖关系，从而做出更准确的判断或预测。

（5）"Logical Reasoning"（逻辑推理）是指通过逻辑规则和原则，从已知的前提或信息中推导出结论的过程。逻辑推理是人类思维的重要组成部分，也是计算机科学、哲学、数学、法律和许多其他领域中的基本工具。

“Diagram Reasoning”（图解推理） 是指通过分析和解释图形、图表或图解来进行推理和问题解决的过程。图解推理在多个领域都有应用，特别是在教育、工程、计算机科学、逻辑学和认知科学中。图解推理可以帮助人们更直观地理解复杂的信息和关系，从而做出更准确的判断和决策。
“Common Reasoning”（常识推理） 是指基于一般常识和普遍经验进行的推理过程。这种推理方式依赖于人们对世界的普遍认识和基本逻辑，而不依赖于特定领域的专业知识或复杂的数学公式。
“Code & Sequence Reasoning”（代码与序列推理） 是指在处理代码、文本序列或其他有序数据时，通过逻辑和模式识别进行推理和问题解决的过程。这种推理方式在编程、自然语言处理、生物信息学和时间序列分析等领域都有广泛应用。

（6）"Science & Technology"（科学与技术） 是指科学研究和技术应用的综合领域，涵盖了对自然现象和规律的探索，以及将这些知识应用于实际问题解决的过程。

“Natural Science”（自然科学） 是指研究自然界中各种现象和规律的科学领域。自然科学通过观察、实验和理论分析，探索物质、能量、生命和宇宙的各个方面。
“Earth Science & Geography”（地球科学与地理学） 是指研究地球的自然现象、结构、过程及其与人类活动相互作用的科学领域。
“Engineering”（工程） 是指应用科学、数学和实践经验来设计、开发、建造和维护各种结构、机器、系统、材料和过程，以满足特定的功能和性能要求。工程是将理论知识转化为实际应用的过程，涉及多个学科和领域。

3.2.1.3 2023年10月 1000 MMVet 74

关于MM-Vet的论文、Github、huggingface数据集，查看链接 Github yuweihao/MM-Vet

在MMVet上，该基准测试评估了在16个复杂多模态任务中跨核心视觉语言能力的整合，Qwen2-VL-72B取得了显著的74.0，明显超过了包括GPT-4V（67.5）在内的强大竞争对手，并展示了其在解决各种多模态挑战方面的多样性。

MM-Vet 与传统 VL 基准的主要区别在于，它不仅评估模型在单一或少数几种核心能力上的表现，还关注这些能力的整合。通过这种方式，MM-Vet 能够更全面地评估大型多模态模型在复杂多模态任务上的表现，提供更深入的模型洞察。包括以下能力：recognition图像识别, OCR, knowledge知识, language generation语言生成, spatial awareness空间意识, math数学。

在这里插入图片描述

3.2.1.4 2024年4月 30k MMT-Bench 71.7

关于MMT-Bench的论文、Github、huggingface数据集，查看链接 Github MMT-Bench

在MMT-Bench评估中，该基准测试评估了在多模态理解中的高级推理和指令遵循，Qwen2-VL-72B取得了71.7，显著超过了先前的最佳结果（63.4），并展示了其在应用专家知识和执行精心视觉识别、定位、推理和规划方面的优势。

MMT-Bench（Multimodal Multitask Benchmark）是一个全面的基准测试工具，旨在评估大型视觉语言模型（LVLMs）在需要专家知识和有意视觉识别、定位、推理和规划的大规模多模态任务中的表现。该基准包括从不同多模态场景中精心策划的31,325个多选视觉问题，例如车辆驾驶和具身导航等场景。这些问题覆盖了32个核心元任务和162个子任务，涉及多模态理解的不同方面。

在这里插入图片描述

3.2.1.5 2023年7月 3000 MMBench 86.6

关于MMT-Bench的论文、Github、huggingface数据集，查看链接 Github MM-Bench

在MMBench上，该基准测试评估了在20个维度上的细微能力，Qwen2-VL-72B在英语测试集上取得了86.5，与最先进水平相匹配，而在中文测试集上取得了86.6，建立了新的基准。

在过去几年里，视觉-语言（Vision-Language, VL）模型领域出现了许多新模型的发展，比如MiniGPT-4和LLaVA等，这些模型在处理以前具有挑战性的任务上展现出了令人鼓舞的表现。然而，有效评估这些模型的性能已经成为阻碍大型VL模型进一步发展的主要挑战。传统基准测试，如VQAv2和COCO Caption，虽然广泛用于为VL模型提供定量评估，但它们存在一些缺点：

数据集构建：传统基准倾向于基于模型在各种任务上的表现来评估模型，例如图像描述和视觉问答。不幸的是，这些任务并不能完全捕捉模型所拥有的细粒度能力，这可能会阻碍未来的优化努力。
评估指标：现有的评估指标缺乏鲁棒性。例如，VQAv2的目标是单个单词或短语，而许多当前的VL模型产生的输出是句子。即使这些句子正确地回答了相应的问题，由于无法与给定答案精确匹配，现有的评估指标也会给出“失败”评分。此外，最近提出的主观评估指标，如mPLUG-Owl中使用的，虽然为VL模型提供了全面的评估，但由于评估过程中需要大量的人工劳动，这些指标难以平滑扩展。同时，这些评估还存在高度偏差且难以复现的问题。

为了解决这些问题，研究者提出了一个新的方法，即定义一套细粒度的能力集，并收集与每种能力相关的题目。此外，他们引入了创新的评估策略以确保对模型预测进行更鲁棒的评估。这个新的基准测试被称为MMBench，其特征如下：

数据收集：迄今为止，已经收集了大约3000个问题，涵盖20个能力维度。每个问题是多选格式，只有一个正确答案。
评估：为了实现更加可靠的评估，采用ChatGPT将模型的预测与问题的选择项进行匹配，然后输出相应的标签（A, B, C, D）作为最终预测。

MMBench是一个从多个来源收集的多选题数据集，包括公共数据集和互联网资源，目前包含2974个问题，覆盖了20个能力维度。这些能力维度被结构化为三个层级，从L-1到L-3。

能力维度层次结构

L-1 能力维度：最高级别的能力维度，分为感知（Perception）和推理（Reasoning）两大类。
L-2 能力维度：
- 从L-1的感知维度中衍生出：1. 粗略感知（Coarse Perception），2. 细粒度单实例感知（Fine-grained Single-instance Perception），3. 细粒度跨实例感知（Fine-grained Cross-instance Perception）。
- 从L-1的推理维度中衍生出：1. 属性推理（Attribute Reasoning），2. 关系推理（Relation Reasoning），3. 逻辑推理（Logic Reasoning）。
L-3 能力维度：为了使基准尽可能细粒度，从L-2能力维度中进一步衍生出更具体的L-3能力维度。

3.2.1.6 2023年updating 14个任务 MME 2482

在这里插入图片描述

MME的Github官方介绍和下载链接
12.4k star Latest Advances on Multimodal Large Language Models 最前沿的多模态总结仓库

对于MME，该基准测试衡量了14个子任务中的广泛感知和认知能力，Qwen2-VL-72B的总得分达到了2482.7，显著超过了先前的最佳结果（2414.7），并强调了其在视觉感知和高层次认知任务方面的先进能力。

MME（Multimodal Evaluation，多模态评估）是一个全面评估多模态大语言模型的基准测试。MME不仅评估模型的感知能力，还评估其认知能力，总共涵盖了14个子任务。这些子任务包括：

存在（Existence）：判断某个物体或元素是否存在于给定的图像中。
计数（Count）：识别并计算图像中特定对象的数量。
位置（Position）：确定图像中对象的位置或相对位置。
颜色（Color）：识别图像中对象的颜色。
海报（Poster）：理解图像中的海报内容，包括文字和图形元素。
名人（Celebrity）：识别图像中的名人或知名人物。
场景（Scene）：识别和描述图像中的场景或背景。
地标（Landmark）：识别图像中的著名地标或建筑物。
艺术品（Artwork）：识别和描述图像中的艺术品，如画作或雕塑。
OCR（Optical Character Recognition）：从图像中提取和识别文本内容。
常识推理（Commonsense Reasoning）：基于常识对问题进行推理和回答。
数值计算（Numerical Calculation）：进行数学计算和解决数值问题。
文本翻译（Text Translation）：将文本从一种语言翻译成另一种语言。
代码推理（Code Reasoning）：理解和生成代码，解决编程相关的问题。

3.2.1.7 通用视觉问答小结

上述这些全面的结果强调了Qwen2-VL系列在视觉问答任务中的卓越能力。这些模型展示了在实际空间理解、真实多模态集成、复杂推理、指令遵循以及广泛的感知和认知任务方面的先进能力。在各种基准测试上的持续优越性能，特别是72B模型的杰出结果，使Qwen2-VL系列在视觉问答领域成为领先解决方案。

Qwen2-VL在处理视觉必需的任务上表现出色，集成核心视觉语言能力，并在各种多模态场景中展示专业知识，从基本的感知任务到复杂的推理和规划。这次全面的评估突显了Qwen2-VL系列在解决当前最先进的视觉语言模态基准测试所面临的多样化挑战方面的灵活性和有效性，从而为大型视觉语言模型设定新标准。

3.2.2 文档和图表阅读

作者在DocVQA、ChartQA、InfoVQA、TextVQA、AI2D数据集上测试了模型的OCR和文档/高分辨率信息图形/图表文本理解能力。

DocVQA/InfoVQA/ChartQA数据集关注模型在文档/高分辨率信息图形/图表中的文本理解能力
TextVQA数据集检查模型在自然图像中的文本理解能力。
OCRBench是一个混合任务的数据集，除了文本型VQA外，还关注数学公式解析和信息提取。
AI2D数据集关注包含文本的科学图形的单选题。此外，作者还测试了模型在OCRBench上的OCR和公式识别能力以及模型在MTVQA数据集上的多语言OCR能力。

实验结果表明，Qwen2-VL在多个指标上达到了最先进水平，包括DocVQA、InfoVQA、TextVQA和OCRBench，这表明Qwen2-VL在多个领域的图像文本内容理解方面表现良好。

3.2.2.1 2021年 50k DocVQA

DocVQA的官方介绍和下载链接

DocVQA 数据集是作为 DocVQA 项目的一部分首次引入的，因此被称为 DocVQA 数据集。以下是该数据集的具体介绍：

任务

类似于典型的视觉问答（VQA）任务，DocVQA 的任务是回答关于给定文档图像的问题。类似于自然语言处理（NLP）中流行的抽取式问答（Extractive QA）框架，这里的答案总是从给定的文档图像中抽取的一段文本。

图像和问题

数据规模：数据集中包含50,000个问题和12,000张图像。
图像来源：图像来自UCSF Industry Documents Library（加州大学旧金山分校行业文件图书馆）。
标注方式：问题和答案是手动标注的。

3.2.2.2 2022年 30k ChartVQA

ChartVQA的Github官方仓库、huggingface下载链接、数据集介绍

ChartVQA是一个大规模的基准数据集，该数据集包含9,600个人工编写的复杂问题以及23,100个从人工编写的图表摘要中生成的问题。这个基准数据集旨在涵盖涉及图表的视觉和逻辑推理的复杂问题。

在这里插入图片描述

3.2.2.3 2020年 20k TextVQA

TextVQA的官方网站，数据集介绍和下载链接

TextVQA（文本视觉问答）任务要求模型能够读取并理解图像中的文本，以便回答有关这些图像的问题。具体来说，模型需要整合图像中出现的新文本模态，并对其进行推理，以回答TextVQA问题。

28,408 张图像
45,336个问题
453,360 个标签答案

3.2.2.4 2016年 15k AI2D

Paperwithcode的AI2D的介绍和下载链接

AI2 Diagrams (AI2D) 是一个包含超过5000幅小学科学图表的数据集。这些图表配有超过150,000个丰富的注释、每个图表的语法解析（ground truth syntactic parses）；以及超过15,000个对应的多项选择题问题和答案。

3.2.3 多语言文本识别与理解

在这里插入图片描述

特别地，Qwen2-VL在多语言OCR方面超越了所有现有的通用LVLMs。Qwen2-VL不仅在公开的MTVQA数据集上超过了现有LVLMs（包括专有模型如GPT-4o、Claude 3.5 Sonnet等），还在所有外语（除阿拉伯语）的内部基准测试中超过了GPT-4o（表3）。

3.2.3.1 2024年5月 5k MTVQA

多语言文本视觉问答数据集MTVQA
Github的官方仓库、数据集介绍、论文、下载链接

在这里插入图片描述

MMTVQA数据集专门用于多语言文本场景的视觉问答（Visual Question Answering, VQA），涵盖了九种语言，包括韩语、日语、意大利语、俄语、德语、法语、泰语、阿拉伯语和越南语。问题-答案对由母语注释者按照一系列规则进行标注。下图是MMTVQA的数据集的图像数量分布。

在这里插入图片描述

在MMTVQA，Qwen2-VL7B都能打得过InternVL2-76B

3.2.4 数学推理

作者在MathVista和MathVision数据集上进行了实验，以评估数学推理能力。

MathVista是一个全面基准，包含6,141个数学和视觉任务的多样化示例。
MathVision数据集包含3,040个数学问题，嵌入自实际数学竞赛中的视觉语境，涵盖16个数学学科，难度在五个 Level 上有所不同。这些挑战强调了LVLMs需要展示强大的视觉理解、对数学的深入理解以及良好的逻辑推理能力。
Qwen2-VL系列在MathVista上表现出优越的性能，在MathVista上取得了70.5分的成绩，超过了其他LVLMs。此外，它在MathVision上建立了新的开源基准，成绩为25.9。

3.2.5 指称表达理解

“Referring Expression Comprehension”（指称表达理解）是指计算机视觉和自然语言处理领域中的一个任务，其目标是让模型理解自然语言中的指称表达，并将其与图像中的特定对象或区域对应起来。简单来说，就是让模型能够根据自然语言的描述，准确地识别出图像中被描述的对象。

关于视觉定位任务，作者在RefCOCO，RefCOCO+和RefCOCOg数据集上评估Qwen2-VL。

在这里插入图片描述

结果如表6所示，表明Qwen2-VL在通用模型中取得了顶级结果。得益于更合理的结构设计，Qwen2-VL能够感知高分辨率图像的细节，从而显著优于Qwen-VL。这些模型相对于通用模型和专用模型的优势，突显了它们在推进视觉定位领域以及需要精确视觉理解的任务中进行实际应用的潜力。

3.2.6 视频理解

作者在各种视频理解任务上评估Qwen2-VL，相关基准测试涵盖了几秒钟的短视频到长达一小时的长期视频。表4展示了Qwen2-VL和 Baseline 模型的性能。总体而言，Qwen2-VL在2B、7B和72B大小上表现出强大的结果，Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上实现了最佳性能。这展示了Qwen2-VL在视频理解任务上的优越能力，并且扩大Qwen2-VL可以带来显著的改进。

在这里插入图片描述