目录
- 遗留问题:ubuntu使用特定conda环境
- CUDA加速
- 速度对比
- 解析效果
- 公式解析
- 表格解析
- 实验结论
遗留问题:ubuntu使用特定conda环境
发现在vscode中能查看到版本,
但是到虚拟机,同样的目录下查不到
可能是vscode能自己切换Python环境
查看了一下版本,确实
python3 --version
conda env list
查看所有可用环境
conda activate base
在base环境下
在这个环境下,就能够查看得到版本
magic-pdf, version 0.10.6
到demo目录下尝试一下命令行使用
magic-pdf -p small_ocr.pdf -o ./output
CUDA加速
修改这个json文件
cpu改成cuda
magic-pdf -p demo1.pdf -o ./output
和之前一样的demo1.pdf速度对比,平均0.36页每秒,之前是一页30s
速度确实提升了十几倍,每个GPU占用率大概是30以下
并行计算速度很快
效果上差不多
以及横着的表
layout.pdf,将不同的元素用不同颜色框
第二种格式:spans.pdf
GPU加速效率提升上与CPU相比十分显著,大概十几倍的速度提升?
GPU是0.36页每秒,大概1页3秒不到,而CPU一页是30-60s,确实至少10倍的速度提升
速度对比
GPU cuda加速
CPU
解析效果
公式解析
大部分公式能正确识别,%识别效果差,容易识别为q0,u等其他。
表格解析
实验结论
表格中一般没有太多复杂符号,所以解析效果还可以,而且能复现原来的排版(横着或者竖着),对于表格下方注释内容中的公式或者符号效果不好