qwen开年开源了Qwen2.5-VL系列权重模型,笔者观察到相较于传统的多模态系列,增加了文档理解功能。笔者以文档智能中两个比较重要的任务版式分析
和表格识别
,笔者直接测试下Qwen2.5-VL-72B的效果。
版式分析
- case1
- case2
这个case没有输出bbox位置信息。
-
case3
这种报纸的更复杂的版式,输出更加崩溃,ocr吐字由于内容较长,发生停止截断。
表格识别
下面case的测试示例均来自于笔者前文介绍的表格图片《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》
-
case1
-
case2
这个case的问题列单元格合并问题挺大。 -
case3
整体上看起来不错,但表格上前两行合并单元格还存在问题。
结论
通过上述case测试,qwen2.5-VL-72B这波开源的模型在版式分析
和表格识别
的实际测试中仍然效果不加,这也在意料之中,这类任务还是应该采用传统的视觉方法进行处理,并不是模型越大越好。