目录
- 一、前言
- 二、核心代码说明
-
- 1、PyPDF2提取文本
- 2、pdfplumber提取文本和表格
- 3、fitz提取文本和图片
- 4、fitz按页提取图片
一、前言
本博客文章介绍pdf的文本、图片、表格等信息提取的技术方案对比。目前比较熟知的是pdfplumber 、PyPDF2 、fitz(PyMuPDF)。
它们之间对比如下
pdfplumber 的说明
优点
· 结构化文本解析(如报告、合同等)。
· 表格提取(尤其是规则清晰的表格)。
· 带有复杂布局的 PDF。
· 提供丰富的布局信息(如每个字符的位置、字体等)。
· 提取表格和多列文本时表现优异。
缺点
· 图片处理能力较弱。
· 速度较慢,尤其是大文件。
二、核心代码说明
1、PyPDF2提取文本
def extract_page_content<