【文档智能 LLM】LayoutLLM:一种多模态文档布局模型和大模型结合的框架

前言

传统的文档理解任务,通常的做法是先经过预训练,然后微调相应的下游任务及数据集,如文档图像分类和信息提取等,通过结合图像、文本和布局结构的预训练知识来增强文档理解。LayoutLLM是一种结合了大模型和视觉文档理解技术的单模型方法,通过多模态指令数据集的微调来提高对图像文档的理解和分析能力。

LayoutLMv3

在此之前,先简单介绍下LayoutLLM的编码器LayoutLMv3。

概述:文本的布局信息使用了片段级别,一段文本共用一组坐标。视觉借鉴了ViT的方法替换CNN,减少了参数以及省去了很多的预处理步骤。使用了两种新的损失MIM和WPA进行预训练。

paper:LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

link:https://arxiv.org/abs/2204.08387

code:https://github.com/microsoft/unilm/tree/master/layoutlmv3

模型结构

  • 文本嵌入:RoBerta backbone
  • 视觉嵌入:与layoutLMv2相同,与之前的单词级别的边界框不同,此处使用了片段级别的嵌入,即:块边界框。
  • 布局嵌入:不再使用CNN网络,采用类似ViT思想的backbone,将图片切分成一个个的patches。

预训练任务

  • Masked Language Modeling (MLM):使用span掩码策略,mask掉30%的文本token,maks的span长度服从泊松分布(λ=3)
  • Masked Image Modeling (MIM):
    • 用分块掩码策略随机掩盖掉40%的图像token,用交叉熵损失驱动其重建被掩盖的图像区域;
    • 图像token的标签来自一个图像tokenizer,通过图像vocab将密集图像的像素转化成离散token,相比于低级高噪声的细节部分,更促进学习高级特征;
  • Word-Patch Alignment (WPA):学习文本单词和图像patches之间的细粒度对齐。WPA的目的是预测文本单词的相应图像补丁是否被屏蔽。具体地说,当对应的图像标记也被取消屏蔽时,为未屏蔽的文本标记分配一个对齐的标签[aligned]。否则,将指定一个未对齐的标签[unaligned]。

LayoutLLM

模型架构

LayoutLLM主要由两部分组成:编码器(Encoder)和解码器(Decoder)。

  1. 编码器:负责对文档图像进行编码,处理视觉和布局信息。这里使用的是预训练的VrDU模型,特别是LayoutLMv3,它能够捕捉文档的布局结构和文本信息,并生成相应的特征。简单来说就是将OCR文本和视觉信息从文档图像中编码,生成一个最大序列长度为512的一维序列,以便输入到Llama模型中。
  2. 解码器:基于大型语言模型(LLMs),如Llama,它负责解释任务指令,并使用其语言理解能力来分析文档的文本内容,最终输出结果。

VrDU Prompts

结合大模型,通过对不同的下游任务设定提示词。LayoutLLM能够理解不同类型的VrDU任务,并结合文档的特征来生成适当的响应。这种方法使得单一模型能够灵活地处理多种任务,而不需要为每个任务单独训练模型。

prompt格式

prompt格式和Alpaca模型的格式保持一致:

The previous information is about document images.
Below is an instruction that describes a task. Write a
response that appropriately completes the request.
### Instruction: {instruction}
### Response
不同下游任务的prompt示例
  • 文档分类

    “执行文档分类。分类标签是...”。
    
  • 文档信息提取

    “执行文档信息提取。分类标签是... 输出格式是一组提取词及其标签,用逗号分隔。如果存在多个提取目标,使用\n作为分隔符并分割输出。”。
    

    这个提示指导模型识别文档中的语义实体,并按照指定的格式输出提取的信息和标签。

  • 文档问答

    “执行文档问答。问题是...”。
    

评价

总结

本文介绍了一种传统布局模型结合大模型做文档理解的方法:LayoutLLM。这个框架通过结合VrDU编码器来捕捉文档图像的特征,以及使用LLM作为解码器来处理任务指令,有效地提高了对文档图像的理解和分析能力。

参考文献

【1】LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking,https://arxiv.org/abs/2204.08387

【2】LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding,https://arxiv.org/abs/2403.14252

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/486541.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

真的睡错了!MLILY梦百合“别睡硬床”发布会传递正确睡眠观

3月21日,MLILY梦百合召开了“别睡硬床”线上发布会,梦百合家居董事长倪张根在世界睡眠日这个特殊时间点发表演讲,传递正确睡眠观念,希望引起国人关注,正视睡眠误区,告别传统硬床。同时希望邀请到更多医生、专家、行业学者,和MLILY梦百合一起共同呼吁“别睡硬床”, 让更多人了解…

STM32学习笔记(5_2)- EXTI外部中断代码

无人问津也好,技不如人也罢,都应静下心来,去做该做的事。 最近在学STM32,所以也开贴记录一下主要内容,省的过目即忘。视频教程为江科大(改名江协科技),网站jiangxiekeji.com 本期介…

Vue3:用重定向方式,解决No match found for location with path “/“问题

一、情景说明 在初学Vue3的项目中,我们配置了路由后,页面会告警 如下图: 具体含义就是,没有配置"/"路径对应的路由组件 二、解决 关键配置:redirect const router createRouter({history:createWebHis…

Flask python 开发篇:蓝图的使用

蓝图 引言一、为什么使用蓝图?二、蓝图的概念三、创建蓝图四、注册蓝图五、分享我的creat_app方法六、写在最后 引言 falsk是个轻量级的框架,核心实现简单,但同事可以让开发人员自由的扩展功能。开发中,使用模块导入的方式。 一…

MySQL 8.0 OCP考试通过超高,价格优惠,4月14日开课!

课程介绍 MySQL 是当前最流行和广泛使用的关系型数据库之一。最新发布的MySQL 8是能够提供比往版本更有效的高性能结果查询和更轻松的管理配置。MySQL 8.0 OCP专家认证课程是为DBA和想了解安装和配置MySQL 服务器,设置复制和安全性,执行数据库备份和性能…

【经验分享】转行如何自学Python并且找到工作,分享自己心得

目前信息化产业发展势头很好,互联网就成为了很多普通人想要涉及的行业,因为相比于传统行业,互联网行业涨薪幅度大,机会也多,所以就会大批的人想要转行来学习Python开发。 首先告诉你的是,应届生零基础开始学…

odoo扩展导出pdf功能

1. 说明: odoo原生导出功能扩展导出pdf文件功能, 如有额外需求请联系博主 2. 版本说明: odoo版本: odoo15 其他odoo版本未进行测试,如有需要自行测试 3. 地址: 该补丁代码放在github仓库, 地址: https://github.com/YSL-Alpaca/odoo_export_pdf 4. 改补丁依赖于第三方软件wkh…

Nebula Graph-06-NebulaGraph Java 使用 和SpringBoot集成Nebula Graph

前言 系列文章: Nebula Graph-01-Nebula Graph简介和安装以及客户端连接 Nebula Graph-02-NebulaGraph高阶配置、用户管理、日志 Nebula Graph-03-NebulaGraph Studio-可视化web工具安装和使用 Nebula Graph-04-NebulaGraph nGQL的介绍和使用 Nebula Graph-05-Nebu…

Docker【安装redis】【redis-desktop-manager】

文章目录 前言一、建立挂载目录二、下载运行镜像三、安装redis可视化工具redis-desktop-manager 前言 本文开始默认你已经安装了docker,如果对此还不够了解请看这篇文章:docker的安装 一、建立挂载目录 一般对应mysql、redis这种存储数据的镜像&#x…

海外盲盒APP系统开发,探寻盲盒的海外机遇

目前,盲盒在我国受到了消费者的欢迎。在各类影视动漫的火热下,热衷于娱乐消费的年轻人成为了盲盒的主要消费人群。 在国外,盲盒也同样深受海外消费者的喜爱。近几年,盲盒在海外的销售量急速上升,创下了新高。 随着盲…

Linux: network: firewall: firewalld 导致icmp带admin prohibited

文章目录 简介查看相关的配置产生的rule不在rule里的被拒绝重新加载iptables服务进程简介 https://firewalld.org/documentation/man-pages/firewalld.zone.html 最近遇到一个主机主动回icmp,destination unreachable的错误包,而且里面的code是 administratively prohibited…

[音视频学习笔记]八、FFMpeg结构体分析 -上一个项目用到的数据结构简单解析:AVFrame、AVFormatContext、AVCodecContext

前言 上次我们做了一个简单的视频解码,MediaPlay-FFmpeg - Public 这一次简单对这个代码进行一个剖析,对其中的数据结构进行一个解析。 这些数据结构之间的关系 AVFrame 、AVFormatContext 、AVCodecContext 、AVIOContext 、AVCodec 、AVStream 、AV…

Open CASCADE学习|将圆转换为NURBS曲线

NURBS曲线,全称非均匀有理B样条曲线(Non-Uniform Rational B-Splines),是计算机图形学中用于表示几何形状的数学表示方法。它结合了非均匀B样条(B-Splines)和有理基函数(Rational Basis Functio…

idea打包war包部署到tomcat以及访问路径问题

idea将web项目打包成war最重要的是配置atrificats。 首先打开file -》 project structure 创建之后,output directory即为输出war包的路径。Name可以随意,之后点击绿色,打开directory content 选择webapp目录,记得勾选include in…

【机器学习】基于蝴蝶算法优化的BP神经网络分类预测(BOA-BP)

目录 1.原理与思路2.设计与实现3.结果预测4.代码获取 1.原理与思路 【智能算法应用】智能算法优化BP神经网络思路【智能算法】蝴蝶优化算法(BOA)原理及实现 2.设计与实现 数据集: 数据集样本总数2000 多输入多输出:样本特征24&#xff0c…

天艺制盖邀您参观2024第七届世界燕窝及天然滋补品博览会

2024第七届世界燕窝及天然滋补品博览会 2024年8月7-9日| 上海新国际博览中心 上海燕博会 世界燕窝及天然滋补品展览会暨世界滋补产业生态发展大会(简称上海燕博会),2017年创办于中国上海,是一年一度的世界燕窝滋补品行业盛会。…

如何查看期刊/会议的CCF级别(A/B/C类)

相信大家在看论文的时候都不是盲目看的,每次组会汇报的时候第一件事情就是要介绍分享的论文的级别。相信这也是大家关注的。 1、首先,打开中国计算机学会的官网:https://www.ccf.org.cn/ 2、然后在搜索框中直接输入我们要搜索的会议或者期刊的…

扩展自动化,超越RPA的局限

白皮书大纲 01 概述 02 端到端流程超越节省的时间 03 企业自动化与机器人流程自动化的对比 04 将RPA集成到企业工作流程中 05 实现端到端自动化——构建流程 06 中枢神经系统:一个编排平台 07 结合RPA和数环通iPaaS的益处 01 概述 企业运营依赖于流程。有效的流程是…

公众号文章如何插入文件二维码?文件转二维码图片的在线技巧

现在很多的企业或者事业单位的公众号文章中,经常会插入文件类型的二维码,观看公众号文章的用户在阅读完公众号内容之后,通过扫码的方式访问外部的文件,从而获取自己想要了解的信息。 想要制作文件二维码其实制作步骤也很简单&…

3种货币对保证金和杠杆关系,众汇实例分享

在外汇交易中货币对总共分为3种:主要货币对、交叉货币对和新兴市场货币对,这3种不同的货币对保证金和杠杆的关系各自不同,今天众汇外汇实例分享。 1.直接引用 直接报价是美元在分数中处于第二位的外汇汇率。 保证金持仓量*合约规模/杠杆*开…