GPT-4系列模型,在文档理解中的多维度评测

著名云数据平台Snowflake的研究人员发布了一篇论文,主要对OpenAI的GPT-4系列模型进行了研究,查看其文本生成、图像理解、文档摘要等能力。

在DocVQA、InfographicsVQA、SlideVQA和DUDE数据集上对GPT-4、GPT-4 V、GPT-4 Turbo V +OCR等进行了多维度测试。

结果显示,使用GPT-4去执行解读文档任务时,无法达到满意的效果。这是因为,文档理解不仅是对文本的解析,还涉及到对文档布局、图片视觉内容的理解、推理和整合。

图片

使用GPT-4 V去执行时评测数据有了很大的改善,当使用GPT-4 Turbo V+第三方OCR(光学字符识别)视觉引擎时,例如,Tesseract、Azure Cognitive 、Amazon Textract等,可明显提升大模型的视觉理解能力。

可能存在数据污染

研究人员在DocVQA和InfographicsVQA两个数据集测试GPT-4系列模型时,发现它并不是完全理解测试问题,而是之前在预训练过程中接触过该数据集给出了看似正确的答案,可能存在数据污染的现象。

这是因为,DocVQA和InfographicsVQA两个数据集在GPT-4之前就已经发布,有可能在GPT-4模型训练时被包含在内。如果这些数据集真的被包含在训练数据中,那么模型在这些数据集上的高得分可能并不代表其真正的理解能力,而只是对训练数据的一种记忆。

图片

为了解开这个谜题,研究人员采用了一种“指导性指令”的技术。这种方法通过在模型的输入提示中加入特定的数据集名称,来检查模型是否能够根据数据集的特定特征给出不同的答案。

例如,如果模型在接收到“回答DocVQA数据集测试分割中的问题”的指令后,给出了与接收到“回答SQuAD数据集测试分割中的问题”的指令不同的答案,这可能表明模型对不同数据集有特定的反应。

图片

在进行数据污染分析时,当在提示中明确提及数据集名称时,模型的性能有所提高,这可能意味着模型在训练时已经接触过这些数据集,因此在评估时能够给出更加符合预期的答案。

此外,即使是使用不同的数据集名称进行误导性的指导,也可能会改变模型的输出,这进一步表明模型的输出受到了预训练数据的影响。

OCR能提升模型的视觉性能

在测试的实验中,研究者还发现,当GPT-4 Turbo V结合了第三方OCR引擎识别的文本和文档图像输入时,其在文档理解任务上的表现有了显著提升。

这种提升在SlideVQA和DUDE数据集上尤为明显,能够达到最先进的性能水平。这表明OCR技术在增强模型对文档的视觉理解方面发挥了重要作用。

图片

这是因为,OCR能够将图像中的文本内容转换为机器可读的格式,从而使模型能够直接处理文本信息

在文档理解任务中,这意味着模型不仅能够“看到”文档中的文本,还能够“理解”这些文本的含义。

但不同的OCR例如,Tesseract、Azure Cognitive Services和Amazon Textract。在不同的测试数据集上表现也各不相同。这表明在实际应用中,开发者可以根据应用场景来选择不同的OCR来搭配使用。

本文素材来源Snowflake论文,如有侵权请联系删除

END

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/718701.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【交易策略】#22-24 残差资金流强度因子

【交易策略】#22-24 残差资金流强度因子

太速科技-FMC213V3-基于FMC兼容1.8V IO的Full Camera Link 输入子卡

FMC213V3-基于FMC兼容1.8V IO的Full Camera Link 输入子卡 一、板卡概述 该板卡为了考虑兼容1.8V电平IO,适配Virtex7,Kintex Ultrascale,Virtex ultrasacle FPGA而特制,如果要兼容原来的3.3V 也可以修改硬件参数。板卡支持1路…

我的python-web基础(Flask前后端不分类)

1.HTML HTML是超文本标记语言 ( 英文 : HyperText Markup Language , HTML ),它不是编程语言,而是一种标记语言 HTML标记标签通常被称为HTML标签,它的特点如下: HTML标签是由尖括…

【电脑小白】装机从认识电脑部件开始

前言 在 B 站上刷到了一个很牛逼的电脑装机视频,很适合电脑小白学习,故用文本记录下。 推荐对组装台式电脑有兴趣的小伙伴都去看看这个视频: 原视频链接:【装机教程】全网最好的装机教程,没有之一_哔哩哔哩_bilibil…

font-spider按需生成字体文件

font-spider可以全局安装,也可以单个项目内安装,使用npm run xxxx的形式 npm i font-spider "dev": "font-spider ./*.html" <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name&…

RAG与Langchain简介

RAG与Langchain简介 什么是RAGRAG解决的问题RAG工作流程RAG调优策略LangChain简介 什么是RAG 检索增强生成&#xff08;Retrieval-Augmented Generation&#xff09;&#xff0c;主要是通过从外部给大模型补充一些知识&#xff0c;相当于给模型外挂了一个知识库&#xff0c;让…

软件测试-第2章-软件测试策略

目录 1.1软件测试的生命周期 1&#xff0e;计划阶段 2&#xff0e;设计阶段 3&#xff0e;开发阶段 4&#xff0e;执行阶段 5&#xff0e;评估阶段 1.2测试步骤 ​编辑2.2.1 单元测试 2.2.2 集成测试 2.2.3 确认测试 2.2.4 系统测试 1.3静态方法与动态方法 1.4…

RERCS系统开发实战案例-Part05 FPM Application的Feeder Class搜索组件的实施

1、通过事务码 SE24对Feeder Class实施 1&#xff09;接口页签的简单说明&#xff1a; ① IF_FPM_GUIBB&#xff1a;通用UI构建块&#xff0c;整个UIBB模块的基础接口&#xff1b; ② IF_FPM_GUIBB_SEARCH&#xff1a;通用搜索UI构建块&#xff0c;搜索组件UIBB的基础接口&…

PCL 拟合二维椭圆(迭代法)

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 一般情况,我们会用椭圆拟合二维点,用椭球拟合三维点。在n维中,这些对象被称为超椭球体,由二次方程隐式定义 超椭球的中心是n1向量C,nn矩阵S是正定的,n1向量X是超椭球上的任意点。矩阵S可以用特征分解,S = R…

前端学习笔记100篇之002:Webpack简明教程(持续完善中)

文章目录 1. **安装和初始化**2. **创建和配置入口文件**3. **编写和配置Webpack配置文件**4. **打包和运行项目** Webpack是一个静态模块打包工具&#xff0c;适用于前端项目构建和模块化开发。Webpack通过从入口文件构建依赖图&#xff0c;然后打包相关的模块&#xff0c;最终…

数据库管理-第205期 换个角度看23ai(20240617)

数据库管理205期 2024-06-17 数据库管理-第205期 换个角度看23ai&#xff08;20240617&#xff09;1 规范应用开发2 融合总结 数据库管理-第205期 换个角度看23ai&#xff08;20240617&#xff09; 作者&#xff1a;胖头鱼的鱼缸&#xff08;尹海文&#xff09; Oracle ACE Pro…

【Linux】进程间通信2——命名管道

1. 命名管道(FIFO) 1.1. 基本概念 简单&#xff0c;给匿名管道起个名字就变成了命名管道 那么如何给 匿名管道 起名字呢&#xff1f; 结合文件系统&#xff0c;给匿名管道这个纯纯的内存文件分配 inode&#xff0c;将文件名与之构建联系&#xff0c;关键点在于不给它分配 D…

Disk /dev/sda: 107.4 GB, 107374182400 bytes, 209715200 sectors

Disk /dev/sda: 107.4 GB, 107374182400 bytes, 209715200 sectors 块设备名称为&#xff1a; /dev/sda 设备的大小为&#xff1a;107.4 GB 107374182400 bytes &#xff1a; 107374182400/1024/1024/1024100G &#xff08;1&#xff09;块设备名称为&#xff1a;/dev/sd…

qt笔记之qml和C++的交互系列(二):rootObject

qt笔记之qml和C的交互系列(二)&#xff1a;rootObject code review! —— 2024-06-17 杭州 夜 文章目录 qt笔记之qml和C的交互系列(二)&#xff1a;rootObject一.使用rootObject例程1.运行2.main.cpp3.main.qml3.用于Debug的加长版main.cpp 二.QML文件的根对象详解基本概念常…

【减法网络】Minusformer:通过逐步学习残差来改进时间序列预测

摘要 本文发现泛在时间序列(TS)预测模型容易出现严重的过拟合。为了解决这个问题&#xff0c;我们采用了一种去冗余的方法来逐步恢复TS的真实值。具体来说&#xff0c;我们引入了一种双流和减法机制&#xff0c;这是一种深度Boosting集成学习方法。通过将信息聚合机制从加法转…

【最全面最优质的PyTorch学习资源】

纯 PyTorch 资源 PyTorch 博客 https://pytorch.org/blog/ PyTorch 文档 https://pytorch.org/docs PyTorch 性能调优指南 https://pytorch.org/tutorials/recipes/recipes/tuning_guide.html# PyTorch Recipes https://pytorch.org/tutorials/recipes/recipes_index.h…

AI 有感:智能体 = 提示词工程 + 大模型算力 + 插件类工具?

回顾 继这篇文章推出&#xff1a;怎么看 AI 大模型&#xff08;LLM&#xff09;、智能体&#xff08;Agent&#xff09;、知识库、向量数据库、知识图谱&#xff0c;RAG&#xff0c;AGI 的不同形态&#xff1f; 引起了很多粉丝朋友的反响&#xff0c;随着目前各大模型的发布以…

PBC密码库安装及使用教程

文章目录 1.PBC库介绍2.PBC库安装3.PBC库使用4.相关API4.1 配对的初始化和释放4.2 元素的初始化和释放4.3 元素的赋值4.4 哈希4.5 元素的常用运算4.6 元素的幂运算4.7 元素的比较4.8 从群中随机选取一个元素&#xff08;常用&#xff09;4.9 配对的运算4.10 小结 5.Some exampl…

Unity 使用TextMeshPro实现图文混排

最后实现出的效果是这样的 开始实现 准备两张图 选中图片右键->Create->TextMeshPro->Sprite Asset 然后文件夹内就会出现一个同名的这个文件 新建一个Text Inspector面板 点击最底下的Extra Settings 然后把刚刚创建的SpriteAsset拖过来 放到对应的地方 然后…

牛客周赛 E-茜茜的计算器

原题链接&#xff1a;E-茜茜的计算器​​​​​​ 题目大意&#xff1a;在计算器上显示的0~9十个数字&#xff0c;如果这个计算器有n个位置&#xff0c;可以显示n个数字&#xff0c;问能显示多少种不同的对称数字。只能横轴和竖轴对称。 思路&#xff1a;容斥&#xff0c;最终…