合合TextIn团队发布 - 文档图像多模态大模型技术发展、探索与应用

合合信息TextIn(Text Intelligence)团队在2023年12月31日参与了中国图象图形学学会青年科学家会议 - 垂直领域大模型论坛。在会议上,丁凯博士分享了文档图像大模型的思考与探索,完整阐述了多模态大模型在文档图像领域的发展与探索,并表达了对未来发展路径和应用场景潜力的看法。

目录

  • 一、合合TextIn(Text Intelligence)研究团队
    • 1.1 研究团队介绍
    • 1.2 研究方向介绍
    • 1.3 TextIn产品发布
  • 二、合合TextIn团队对GPT-4V在文档领域的表现看法
    • 2.1 很强
      • 支持多种场景的文字识别
      • 支持手写和公式识别
      • 支持表格识别
      • 支持卡证、票据识别
    • 2.2 但还不够
  • 三、合合TextIn团队在文档图像多模态大模型领域最新研究成果
    • 3.1 像素级OCR统一模型 UPOCR: Towards Unified Pixel-Level OCR Interface
    • 3.2 OCR大一统模型相关研究
  • 四、合合TextIn团队对LLM在文档领域应用的探索
    • 4.1 检索增强生成(RAG)和文档问答是LLM在文档领域最常见和最广泛的应用之一
    • 4.2 合合TextIn团队文档图像识别与分析产品发布
  • 五、文档图像多模态大模型发展未来趋势
  • 六、京东卡抽奖!

一、合合TextIn(Text Intelligence)研究团队

1.1 研究团队介绍

合合TextIn(Text Intelligence)研究团队,经过16年的专注和深耕于智能文档处理领域,已经在智能文档图像处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、文档安全等全方位的智能文档处理(Intelligent Document Processing)技术上取得显著成就。这一团队不仅获得了117个国内外发明专利,还在16项顶级AI竞赛中获得了世界冠军,对智能文档领域做出了杰出贡献。他们发布的名片全能王、扫描全能王和TextIn智能文档处理云平台textin.com正为全球的用户和企业提供卓越服务。

1.2 研究方向介绍

尽管大模型技术,特别是GPT4-V Gemini等新技术的快速发展,已经极大地推动了技术界的进步,但领域内的核心问题依然存在。在智能文档处理(IDP)领域,有四个主要问题仍然是合合TextIn团队关注的重点。随着大模型技术的出现和发展,我们对技术的期望已经升级,寻求更高效、更精准的解决方案来应对这些长期存在的挑战。

file

合合TextIn团队在智能文档处理技术领域进行了广泛而深入的研究,涵盖了文档图像分析与预处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI安全以及知识化、存储检索和管理等多个关键技术。这些技术的研究不仅彰显了团队的专业能力,而且取得了丰富的成果,极大地推动了智能文档处理领域的发展。

file

1.3 TextIn产品发布

合合TextIn团队推出了TextIn智能文档处理云平台,一个创新性的解决方案,旨在将他们的研究成果以多样化的形式提供给全球用户和企业。通过访问textin.com,用户可以体验到这个平台如何高效、智能地处理文档,从而满足各种文档管理需求。
file

二、合合TextIn团队对GPT-4V在文档领域的表现看法

2023年12月31日,合合TextIn团队丁凯博士参加中国图象图形学学会青年科学家会议 - 垂直领域大模型论坛,在论坛上充分展现了GPT-4V在文档领域的表现。

OpenAI最近发布了GPT-4V(ision),这是一个划时代的大型多模态模型(LMM),它代表了GPT-4在多模态交互方面的重大进步。GPT-4V不仅处理文本,还整合了图像和声音等多种数据类型的输入,显著提升了模型的理解和推理能力。丁凯博士在介绍中强调,与传统方法相比,GPT-4V能够进行更全面的文档和图像分析。它不依赖预定义的规则,而是通过学习大量数据来捕捉复杂的上下文关系和特征表示。这种方法在理解和处理多模态内容方面表现出优越性,能够同时处理文本和图像信息,提供更全面和准确的结果。此外,GPT-4V的架构和训练方式具有高度的灵活性和可扩展性,可根据不同任务和需求进行调整。相比之下,传统的数据处理方法往往局限于特定的算法和流程,难以适应多变的应用场景。GPT-4V的推出不仅标志着OpenAI在多模态技术领域的新突破,也为推动通用智能的发展开辟了新道路。

file

2.1 很强

GPT4-V多模态大模型大幅度提升了AI技术在文档分析与识别领域的能力边界,端到端实现了文档的识别到理解的全过程。支持端到端解决识别和理解问题,认知能力强,支持识别和理解的文档元素类型远超传统IDP算法。

丁凯博士在会议中展示了GPT-4V在智能文档处理(IDP)领域的强大表现:

支持多种场景的文字识别

file

支持手写和公式识别

file

支持表格识别

file

支持卡证、票据识别

file

2.2 但还不够

丁凯博士在会议中展示了GPT-4V在IDP领域的评测结果,表达虽然看到了其强大的能力,但是在OCR精度距离SOTA有较大差距,以及长文档依赖外部的OCR/文档解析引擎。

GPT-4V,尽管在认知领域展现潜能,却在智能文档处理任务中遭遇技术障碍。丁凯博士强调,该模型面临“幻觉现象”——不当地将文字内容与图像细节相结合,导致判断失误和内容产生偏差,特别是在处理手写中文诗歌时尤为明显。一项对GPT-4V在光学字符识别(OCR)能力的综合评估表明,尽管它能有效处理拉丁字符并适应不同分辨率的图像,但在解析多语言文本和复杂视觉场景时仍面临挑战。此外,模型运行的高成本和持续迭代的复杂性也对其广泛应用构成了阻碍。因此,专用OCR系统在这一领域仍具备关键价值。

多模态大型模型在密集文本领域的应用受限,主要由于其侧重于基于文本的语义分析,而在视觉数据解析方面能力不足。例如,面对细粒度文本处理(如细小的签名、复杂的古文字),由于受视觉感知和文字辨识能力的限制,传统的语言模型无法有效应对。为了突破这些限制,需要进一步的研究探索和技术创新。

file

三、合合TextIn团队在文档图像多模态大模型领域最新研究成果

合合信息与华南理工大学联合实验室共同研究,针对多模态大模型目前针对OCR仍无法达到SOTA的问题,提出了两个在文档图像多模态大模型上的研究成果。

3.1 像素级OCR统一模型 UPOCR: Towards Unified Pixel-Level OCR Interface

第一个研究成果是UPOCR,一种文档图像像素级多任务处理的统一模型。模型如图所示,UPOCR是一个通用的OCR模型,引入可学习的Prompt来指导基于ViT的编码器-解码器架构,统一了不同像素级OCR任务的范式、架构和训练策略。 UPOCR的通用能力在文本去除、文本分割和篡改文本检测任务上得到了广泛验证,显著优于现有的专门模型。

  • UPOCR是一个通用的OCR模型,统一了不同像素级OCR任务的范式、架构和训练策略
  • 引入可学习的任务提示来指导基于ViT的编码器-解码器架构
  • UPOCR的通用能力在文本擦除、文本分割和篡改文本检测任务上得到了广泛验证,显著优于现有的专门模型

file

这是文本擦除、分割、及篡改检测与现有子任务的SOTA方法的可视化对比图,可见方法取得了更优异的效果
file

3.2 OCR大一统模型相关研究

丁凯博士在会议中展示了另外一个研究成果,针对OCR大一统模型相关的研究范式概述,以及近期OCR大一统模型相关的研究成果

  • 将文档图像识别分析的各种任务定义为序列预测的形式
  • 文本,段落,版面分析,表格,公式等等
  • 通过不同的prompt引导模型完成不同的OCR任务
  • 支持篇章级的文档图像识别分析,输出Markdown/HTML/Text等标准格式
  • 将文档理解相关的工作交给LLM去做

file

四、合合TextIn团队对LLM在文档领域应用的探索

丁凯博士在会议分享的最后,展示了合合TextIn团队对于多模态大模型在文档领域应用的范式与应用洞见,该范式包含以下几个关键步骤:
新闻简报:

  1. 文档图像输入:技术首先处理文档的图像形式,包括扫描的纸质文件、拍照的照片,或电子文档的页面图像。

  2. 文档识别与版面分析:在此阶段,系统会识别文档中的文字、图片、表格等元素,并分析版面布局。这包括标题、段落、页眉和页脚,有助于理解文档的总体结构和内容组织。

  3. 文档切分和召回:技术将文档切分,分离不同部分的内容以便进一步处理。此外,实施召回策略来检索和提取特定元素,如标题、关键字和段落内容。

  4. 大语言模型问答应用:最后阶段,大语言模型问答用于文档中信息提取的问答任务。通过训练模型理解文档内容,实现智能理解和交互式查询,以回答用户提出的问题。

file

4.1 检索增强生成(RAG)和文档问答是LLM在文档领域最常见和最广泛的应用之一

file

4.2 合合TextIn团队文档图像识别与分析产品发布

可与LLM做上下游的衔接和应用。该产品可对文档的图片版面进行分析,输出图、表、列表、文本、水印、页眉页脚、印章、公式的位置及文字,并输出分版块内容的OCR识别结果,支持52种语言,手写、印刷体混排多种场景。访问链接:https://www.textin.com/market/detail/document

file

五、文档图像多模态大模型发展未来趋势

最新技术动态显示,以GPT4-V为代表的多模态大模型技术在文档识别与分析领域取得了显著进展,为传统的图像文档处理技术带来了重大挑战。虽然大模型技术极大地推进了该领域的发展,但仍有许多待解决的问题,需要进一步的研究和探索。这些问题包括如何更好地结合大模型的能力来优化图像文档处理。展望未来,感知与认知的结合预计将为用户带来更智能化、高效率和个性化的文档处理体验。随着技术的不断进步,这种结合在商业、教育、科研等多个领域的应用将变得越来越重要。我们期待合合信息在模式识别、深度学习、图像处理和自然语言处理等领域的深入发展,以技术创新惠及更广泛的人群。

  • GPT4-V 为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,也给传统的IDP技术带来了挑战
  • 大模型并没有完全解决IDP领域面临的问题,很多问题值得我们研究
  • 如何结合大模型的能力,更好的解决IDP的问题,值得我们做更多的思考和探索

六、京东卡抽奖!

填写问卷抽奖!赠送10人50元京东卡!合合TextIn团队提供给大家福利!

https://qywx.wjx.cn/vm/exOhu6f.aspx
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/290385.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RocketMQ单机部署完整学习笔记

文章目录 前言一、RocketMQ是什么?二、使用步骤1.安装MQ1.安装JDK2.安装mq3.MQ配置(核心) 2.搭建可视化dashboard1.下载源码2.修改配置3.启动 3.整合java1.生产者2.消费者3.启动生产者4.启动消费者5.dashboard添加消费组 三、总结全部的配置 前言 本文是基于4.X版本…

自创题目——吃饺子里的幸运儿

预估难度 入门 题目描述 有个饺子,个人,每人想吃个饺子,但是在个饺子里有1个饺子(编号为)的里面是1角钱,传说吃到这个饺子的人在一年里会很幸福。请输出吃到这个饺子的人和吃不到个饺子的人的编号。 输…

大数据时代的WEB运维高级架构师,Web系统运维工程师的实战成长之路

一、教程描述 本套WEB架构师教程,大小30.61G,共有183个文件。 二、教程目录 01-Web架构之单机时代(共7课时) 02-Web架构之集群时代(共9课时) 03-Web架构之DNS(共6课时) 04-Web…

如何修复卡在恢复模式的Android 手机并恢复丢失的数据

Android 系统恢复是一项内置功能,如果您的 Android 设备无法正常工作或触摸屏出现问题,该功能会很有帮助。您可以启动进入恢复模式并使用它来恢复出厂设置您的 Android 设备,而无需访问设置。此外,它还经常用于重新启动系统、从 A…

js统一公共请求处理与常用工具封装

一个完整的前端项目往往会进行一些必要的抽取公用代码进行封装,这里记录js常用工具及统一的公共请求的封装。 一 2017年 第一版web管理后台在用 web后台管理页面用 /*** Created by hua on 2017/8/24.*/ var requestResult{success :0,failure:1,failureMsg:2 }j…

【PTA-C语言】编程练习5 - 函数与指针

如果代码存在问题,麻烦大家指正 ~ ~有帮助麻烦点个赞 ~ ~ 编程练习5 - 函数与指针 6-1 求实数和的函数(分数 10)6-2 求解一元二次方程实根的函数(分数 10)6-3 求集合数据的均方差(分数 10)6-4 计…

来自云仓酒庄分享为什么同一种葡萄会使用不同的名称?

如果你只是刚刚走进葡萄酒世界,走在葡萄酒通道上可能会令人生畏,因为有不同的国家、地区和生产商,除此之外还有数千酿酒葡萄品种。更令人困惑的是,有些地方对同一种葡萄使用不同的名称!一个著名的例子是西拉和它澳大利…

Yapi安装配置(CentOs)

环境要求 nodejs(7.6) mongodb(2.6) git 准备工作 清除yum命令缓存 sudo yum clean all卸载低版本nodejs yum remove nodejs npm -y安装nodejs,获取资源,安装高版本nodejs curl -sL https://rpm.nodesource.com/setup_8.x | bash - #安装 s…

免费分享:中国地下水资源分布图(附下载方法)

中国地下水资源分布图是一种展示中国各地区地下水资源丰富程度的地图。它通过不同的颜色和图案来表示地下水资源的分布情况,帮助我们了解中国地下水资源的分布特点和规律。 数据简介 中国地下水资源分布图展示了中国各地区地下水资源的丰富程度,包括地…

当老了的完美世界,押注了更老的MMO端游

​“一个测试激活码至少上千,还只是租号,只能玩几天。” 12月29日,完美世界重磅产品《诛仙世界》开启二测,斗鱼包含PPD在内等多位大主播进驻游戏,将游戏冲至斗鱼端游热度第一位。 游戏的测试码也被卖到了天价&#x…

移动神器RAX3000M路由器变身家庭云之四:开放LuCI管理界面,网站服务

前面已经改造成了家庭云供外网访问了。由于这个路由本来就是openwrt,openwrt本身的管理界面LuCI-admin很好用,但被屏蔽了,需要打开。 打开界面 ssh登录路由器,修改 /etc/config/uhttpd配置文件如下: config uhttpd …

AttributeError: ‘ImageDraw‘ object has no attribute ‘textsize‘

解决方案是降级您的版本: pip install pillow9.5.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

Liunx(CentOS)安装Nacos(单机启动,绑定Mysql)

Liunx安装Nacos(单机启动,绑定Mysql) 一,准备安装包 github下载点 二,在/usr/local/目录下创建一个文件夹用于上传和解压Nacos cd /usr/local/ #这里创建文件夹名字可随意,解压后会生成一个名为nacos的文件夹,后续…

CSS免费在线字体格式转换器 CSS @font-face 生成器

今天竟意外发现的一款免费的“网页字体生成器”,功能强大又好用~ 工具地址:https://transfonter.org/ 根据你设置生成后的文件预览: 支持TTF、OTF、WOFF、WOFF2 或 SVG字体格式转换生成,每个文件最大15MB。转换完成以后还会生成一…

【LeetCode每日一题】2487. 从链表中移除节点(调用栈+递归+翻转链表)

2024-1-3 文章目录 [2487. 从链表中移除节点](https://leetcode.cn/problems/remove-nodes-from-linked-list/)方法一:调用栈方法二:递归方法三:翻转链表 2487. 从链表中移除节点 方法一:调用栈 1.将所有节点按顺序压入栈中 2.从…

2020年认证杯SPSSPRO杯数学建模D题(第一阶段)让电脑桌面飞起来全过程文档及程序

2020年认证杯SPSSPRO杯数学建模 D题 让电脑桌面飞起来 原题再现: 对于一些必须每天使用电脑工作的白领来说,电脑桌面有着非常特殊的意义,通常一些频繁使用或者比较重要的图标会一直保留在桌面上,但是随着时间的推移,…

WSL2连接USB设备

准备在WSL2上继续搞点事情,可是当我在WSL内的Linux操作系统上连接USB存储设备时却出现了问题。本文是我解决这个问题的简单记录,以备后查,如果能够帮助到您,那更是我莫大的荣幸。 我的环境。 windows11 22h2WSL 2 Ubuntu 2004 w…

计算机毕业设计-----SSM在线个人PC电脑商城平台网站系统

项目介绍 该项目为前后台项目,分为普通用户与管理员两种角色,前台普通用户登录,后台管理员登录; 管理员角色包含以下功能: 管理员登录,用户管理,一级分类管理,二级分类管理,商品管理,所有订单管理,留言管理,公告管理…

html中的form表单以及相关控件input、文本域、下拉select等等的详细解释 ,点赞加关注持续更新~

文章目录 表单创建表单forminput 标签input标签的value属性设置input标签格式单选框多选框上传文件下拉菜单文本域设置文本域格式label 标签按钮 表单 作用&#xff1a;收集用户信息。 使用场景&#xff1a; 登录页面注册页面搜索区域 创建表单form <form action".…

Spring 七种事务传播性介绍

作者&#xff1a;vivo 互联网服务器团队 - Zhou Shaobin 本文主要介绍了Spring事务传播性的相关知识。 Spring中定义了7种事务传播性&#xff1a; PROPAGATION_REQUIRED PROPAGATION_SUPPORTS PROPAGATION_MANDATORY PROPAGATION_REQUIRES_NEW PROPAGATION_NOT_SUPPORTED…