Python 实现给 pdf 文件自动识别标题并增添大纲

一、背景:

客户方提供过来一个开放平台的pdf文档,文档里有几十个接口,没有大纲和目录可以定位到具体内容,了解整体的API功能,观看体验极度差劲,所以想使用Python代码自动解析pdf文档,给文档增添大纲内容,便于观看和理解。

二、实现思路:

1、可行性调研
  • pdf文档是文本格式的,而非扫描图像,所以可以拿到具体的文本内容。
  • 内容格式整体比较整齐,标题有特定的格式可以识别。
2、技术细节
  • 使用pyPDF2和pdfplumber类库来实现pdf的解析。
  • 根据章节标题的格式,编写正则表达式进行匹配
  • 记录识别结果到csv文件中,方便比对和删除多余的标题内容。
  • 使用pyPDF2来添加书签,生成新的PDF大纲。

三、代码

1、详细python代码
import csv

import pdfplumber
import re
from PyPDF2 import PdfReader, PdfWriter

# TODO PDF文件路径
pdf_path = 'C:\\Users\\admin\\Desktop\\use_book.pdf'  # 更改为您的PDF文件路径
output_pdf_path = '.\output_use_book_with_bookmarks.pdf'  # 输出文件的路径
# 保存目录信息的CSV文件路径
csv_path = 'titles.csv'


# 检测是否为标题的函数
# 现在只匹配包含至少两个点的数字序列
def is_title(line):
    # TODO 正则表达式匹配类似 "3.8.1.2.3 业务接口" 的格式
    # 确保后面紧跟着的是文字而不是数字或符号
    pattern = r'^\d+(\.\d+)+\s+[^\d\W]+.*'
    return re.match(pattern, line) is not None


# 提取标题的函数
def extract_titles(pdf_path):
    titles = []
    with pdfplumber.open(pdf_path) as pdf:
        for page_number, page in enumerate(pdf.pages):
            text = page.extract_text()
            if text:
                for line in text.split('\n'):
                    if is_title(line):
                        titles.append((line.strip(), page_number))  # PDF页码从0开始
    return titles


# 将标题保存到CSV文件
def save_titles_to_csv(titles, csv_path):
    with open(csv_path, 'w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(['Title', 'Page Number'])
        for title in titles:
            writer.writerow(title)


# 从CSV文件读取标题
def read_titles_from_csv(csv_path):
    titles = []
    with open(csv_path, 'r', encoding='utf-8') as file:
        reader = csv.reader(file)
        next(reader)  # 跳过标题行
        for row in reader:
            titles.append((row[0], int(row[1]) - 1))  # 将页码转换为从0开始的索引
    return titles


# 检查是否已经有保存的目录信息
try:
    titles = read_titles_from_csv(csv_path)
except FileNotFoundError:
    # 如果没有找到文件,则提取并保存目录信息
    titles = extract_titles(pdf_path)
    save_titles_to_csv(titles, csv_path)

# 打印目录信息
for title in titles:
    print(f"Title: {title[0]}, Page: {title[1]}")


# 添加大纲的函数
def add_bookmarks_to_pdf(input_pdf_path, output_pdf_path, titles):
    reader = PdfReader(input_pdf_path)
    writer = PdfWriter()

    for page in reader.pages:
        writer.add_page(page)

    for title, page_number in titles:
        writer.add_outline_item(title, page_number)

    with open(output_pdf_path, 'wb') as output_file:
        writer.write(output_file)


if __name__ == '__main__':
    # 调用函数
    titles = read_titles_from_csv(csv_path)
    add_bookmarks_to_pdf(pdf_path, output_pdf_path, titles)

2、涉及依赖版本库
python = 3.10 (anaconda3)
pdfplumber = 0.10.3
PyPDF2 = 3.0.1
3、运行效果
  • csv 文件示例 ( title.csv )
Title,Page Number  
2.1 运行硬件环境,5  
2.2 运行软件环境,5  
3.1 门户应用,6  
3.1.1 门户配置,6  
3.1.2 常用应用,6  
3.1.3 快捷导航,7  
3.1.4 下载,9  
3.1.4.1 插件助手,9  
3.1.4.2 客户端,10  
3.1.4.3 插件,10  
3.1.5 用户登录管理,10
  • pdf 示例
    在这里插入图片描述

四、补充

理论上如果标题格式有层级关系,是可以在添加书签的时候,调整每个书签的层级,达到更好的阅读体验。

# 解析标题层级的函数
def parse_title_level(title):
    # 假设标题格式为 "1.1.1 标题"
    level = title.count('.')  # 层级由点的数量决定
    return level

# 添加大纲的函数 (修改版)
def add_bookmarks_to_pdf(input_pdf_path, output_pdf_path, titles):
    reader = PdfReader(input_pdf_path)
    writer = PdfWriter()

    for page in reader.pages:
        writer.add_page(page)

    bookmarks = [None] * 10  # 重点在这段,假设最大层级为10 
    for title, page_number, level in titles:
        parent = bookmarks[level-1] if level > 0 else None  # 确定父书签
        bookmark = writer.add_outline_item(title, page_number, parent)
        bookmarks[level] = bookmark  # 更新当前层级的书签

    with open(output_pdf_path, 'wb') as output_file:
        writer.write(output_file)

以上代码未进行调试,仅做参考 (* ^ ▽ ^ *) 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/286956.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Spring实战】17 REST服务介绍

文章目录 1. 为什么出现2. 拥有哪些优势3. Spring中的应用4. spring-boot-starter-data-rest总结 REST(Representational State Transfer)是一种软件架构风格,通常用于设计网络应用程序的服务接口。RESTful 服务是基于 REST 原则构建的网络服…

手机录屏没有声音?让你的录屏有声有色

“有人知道手机录屏怎么录声音吗?今天录制了一个小时的直播视频,后面查看的时候发现没有声音,真的非常崩溃,想问问大家有没有办法,解决这个问题。” 在手机录屏的过程中,有时候我们可能会面临录制视频没有…

socket实现视频通话-WebRTC

最近喜欢研究视频流,所以思考了双向通信socket,接下来我们就一起来看看本地如何实现双向视频通讯的功能吧~ 客户端获取视频流 首先思考如何获取视频流呢? 其实跟录音的功能差不多,都是查询电脑上是否有媒体设备,如果…

杰发科技AC7840——Eclipse环境DMA注意事项

0.序 用 户 使 用 DMA 时 , 所 有 DMA 搬 运 的 SRAM 数 据 都 必 须 存 放 在 SRAM_U 区 (0x20000000~0x2000EFFF) 。 1. 修改办法 第一步: RAM定义 /* Specify the memory areas */ MEMORY {FLASH (rx) : ORIGIN 0x00000000, LENGT…

多功能号卡推广分销管理系统 流量卡推广分销网站源码

一套完善,多功能,的号卡分销系统,多接口,包括运营商接口,无限三级代理,最简单易用的PHP~ 目前市面上最优雅的号卡系统!没有之一 软件架构说明 环境要求php7.3以上(建议低于8.0&…

面试题理解深层次的数组名

目录 引言 一:一维数组 举例如下 1.铺垫知识 数组名是数组首元素的地址,但是有两个特殊情况 (1)sizeof(数组名) (2)&数组名 2.分析讲解上述代码结果 2.字符数组 举例一如下 1.知识铺垫 …

Python内置库os和sys的常用方法汇总

更多Python学习内容:ipengtao.com Python是一门强大的编程语言,具有丰富的标准库,其中包括os和sys两个常用模块。os模块用于与操作系统交互,提供了许多文件和目录操作的方法,而sys模块用于与Python解释器进行交互&…

OceanBase入选Gartner®云数据库管理系统魔力象限“荣誉提及”

近日,全球IT市场研究和咨询公司Gartner发布最新报告《Magic Quadrant™ for Cloud Database Management Systems》(全球云数据库管理系统魔力象限)。全自研分布式数据库 OceanBase 入选“荣誉提及”,2022 年推出的云数据库 OB Clo…

uniapp---安卓真机调试提示检测不到手机【解决办法】

最近在做APP,由于华为手机更新过系统,再次用来调试APP发现就不行了。下面给出具体的解决方法: 第一步:打开【允许开发人员选项】 找到【设置】点击【关于手机】找到【版本号】点击7次或多次,允许开发人员选项。 第二…

性能优化:Spark SQL中的谓词下推和列式存储

Apache Spark是一个强大的分布式计算框架,Spark SQL是其一个核心模块,用于处理结构化数据。性能优化是大数据处理中的一个关键问题,本文将深入探讨Spark SQL中的两个性能优化技术:谓词下推(Predicate Pushdown&#xf…

Ps:应用图像

Ps菜单:图像/应用图像 Image/Apply Image 应用图像 Apply Image命令可以将图像的内容(作为“源”)叠加到另一图像(作为“目标”)上,同时提供了控制混合的详细选项。 “应用图像”命令在图像合成、图层蒙版和…

彻底理解前端安全面试题(2)—— CSRF 攻击,跨站请求伪造攻击详解,建议收藏(含源码)

前言 前端关于网络安全看似高深莫测,其实来来回回就那么点东西,我总结一下就是 3 1 4,3个用字母描述的【分别是 XSS、CSRF、CORS】 一个中间人攻击。当然 CORS 同源策略是为了防止攻击的安全策略,其他的都是网络攻击。除了这…

音视频通信

文章目录 一、音视频通信流程二、流媒体协议1、RTSP2、RTMP3、HLS4、WebRTC 一、音视频通信流程 音视频通信完整流程有如下几个环节:采集、编码、前后处理、传输、解码、缓冲、渲染等。 每一个细分环节,还有更细分的技术模块。比如,前后处…

网络端口(包括TCP端口和UDP端口)的作用、定义、分类,以及在视频监控和流媒体通信中的定义

目 录 一、什么地方会用到网络端口? 二、端口的定义和作用 (一)TCP协议和UDP协议 (二)端口的定义 (三)在TCP/IP体系中,端口(TCP和UDP)的作用 (…

canvas绘制圆角矩形示例

查看专栏目录 canvas示例教程100专栏,提供canvas的基础知识,高级动画,相关应用扩展等信息。canvas作为html的一部分,是图像图标地图可视化的一个重要的基础,学好了canvas,在其他的一些应用上将会起到非常重…

【期末考试】数据结构大题

~~08|2.03|2|8 ^^统计出没带头结点的单链表HL中结点的值等于给定值x的结点数。 int CountX(LNode *HL, ElemType x) {int i 0;LNode *p HL;while (p ! NULL){if (P->data x)i;p p->next;}return i; }简答:定义一个i变量来记录节点值等于x的节点个数&…

Debezium发布历史43

原文地址: https://debezium.io/blog/2018/12/05/automating-cache-invalidation-with-change-data-capture/ 欢迎关注留言,我是收集整理小能手,工具翻译,仅供参考,笔芯笔芯. 通过更改数据捕获自动使缓存失效 2018 年…

以 RoCE+软件定义存储同时实现信创转型与架构升级

目前,不少企业数据中心使用 FC 交换机和集中式 SAN 存储(以下简称“FC-SAN 架构”),支持核心业务系统、数据库、AI/ML 等高性能业务场景。而在开展 IT 基础架构信创转型时,很多用户受限于国外交换机:FC 交换…

20 太空漫游

效果演示 实现了一个太空漫游的动画效果,其中包括火箭、星星和月亮。当鼠标悬停在卡片上时,太阳和星星会变成黄色,火箭会变成飞机,月亮会变成小型的月亮。整个效果非常炫酷,可以让人想起科幻电影中的太空漫游。 Code &…

SpringBoot—支付—支付宝

一、流程 二、沙箱操作 1.用支付宝账号登录【开放控制平台】创建应用获取 appid 2.选择沙箱模拟环境 3.沙箱应用-》获取appid(一个appid绑定一个收款支付宝账户) 4.利用开发助手工具生成RSA2密钥 公钥:传给支付宝平台 私钥:配置代码中,…