Python 自动化之修理PDF文件(二)

PDF文件_合并与拆分PDF文档Pro版本


文章目录

  • PDF文件_合并与拆分PDF文档Pro版本
  • 前言
  • 一、要做成什么样子
  • 二、主要用到的函数
  • 三、基本思路
    • 1.引入库
    • 2.创建用户输入模块
    • 3.确定主框架
  • 四、文档合并代码模块
    • 1.用户输入和函数调用
    • 2.引导用户输入文档信息
    • 3.合并文档内容
    • 4.命名新文档+生成路径
    • 5.保存文档+结束调用
  • 五、文档拆分代码模块
    • 1.确定基本框架
    • 2.用户输入和前提准备
    • 3.每一页都拆分代码模块
    • 4.指定页码拆分代码模块
      • 4.1.用户输入和创建对象
      • 4.2.遍历暂存指定页码内容
      • 4.3.指定路径生成指定名称的新PDF
  • 总结


前言

`
上一篇讲了pdf转文字的操作,这篇我们接着讲如何去拆分和合并pdf文件。用过的应该知道,在某软件上虽然可以用,但是也是存在限制的,文档页数过多就需要会员了。

那么怎么样才能不花钱(这个很重要)就能使用呢?自己写一个(# ^ . ^ #)
Alt


一、要做成什么样子

  1. 任意数量、页数的pdf文档,只要你电脑不冒烟~ ~ ~ ~
  2. 可按顺序合并任意数量的pdf文档。
  3. 可按顺序拆分任意页数的pdf文档。
  4. 可任意截取拆分掉pdf文档的某一段。
  5. 拆分的文档会按《原名+第a页》、《原名+第a页_第b页》命名
  6. 合并的文档会提示你给它取个新名字。
  7. 指定位置保存产生的新文件。

目前就想到这么些,后续有新的点子我再往上搞

二、主要用到的函数

都是PyPDF2 库的东西。
一个是PdfReader,用来读取pdf文档数据的;二是PdfWriter,用来写入前面读取到的数据。

三、基本思路

1.引入库

代码如下:

from PyPDF2 import PdfWriter
import PyPDF2

2.创建用户输入模块

代码如下:

print('请选择您要的操作(1 合并  2 拆分) :',  end='')
Go = input()

这里会提示用户是要合并还是拆分pdf文档,输入不同的数字会进入到不同的模式中去。
end=’ '的作用是不换行,可以在文字提示的后面直接输入。


3.确定主框架

代码如下:

if Go == '1':    #文档合并
	......
elif Go == '2':    #文档拆分
	......

上面也提到了,涉及到pdf的两个动作:合并和拆分。所以我这里采用if-----elif----的结构来处理。

接下来就是两个代码模块的编写了。这里我先写文档合并,后写文档拆分。


四、文档合并代码模块

1.用户输入和函数调用

代码如下:

		#提示用户输入
    print('请输入需要合并的pdf文档个数:', end='')
    numbers_pdf = int(input())
    #函数调用
    merger = PdfWriter()

需要合并几个文档就输入数字几就ojbk。
这里调用的函数下面会用到。PdfWriter 对象通常被用来合并PDF文件,或者创建新的PDF文档。


2.引导用户输入文档信息

代码如下:

    #创建空列表,用来存储pdf名称
    list_pdf = []
    
    #进行相应次数的遍历循环
    for number_pdf in range(numbers_pdf):
        #提示用户按照固定格式输入
        print(f'请按顺序输入第 {number_pdf+1} 个pdf(例子:E:\BaiduNetdiskDownload\你好.pdf):', end='')
        old_pdf = input()
        #用户每次输入都会被添加到列表当中
        list_pdf.append(old_pdf)

这段代码的意思是你合并几个文档,程序就会提示你几次输入文档信息。
需要注意的是,输入的先后顺序也代表了后续合并后内容的先后顺序。


3.合并文档内容

代码如下:

    for pdf in list_pdf:
        merger.append(pdf)

代码很少,意思就是遍历刚才用户输入的文档信息,逐个进行合并。


4.命名新文档+生成路径

代码如下:

    #提示输入文档名称
    print('已合并完,请输入新文件名称(例子:aaa)不用添加扩展名:', end='')
    new_pdf_name = input()
    
    # 指定保存 .pdf 文件的完整路径和名称
    output_dir = "D:/"  # 替换为您的实际输出目录
    output_file_name = f"{new_pdf_name}_合并.pdf"
    output_path = output_dir + output_file_name

第一段代码是提示用户输入新文档的名字,下面会用到。
第二段代码的意思是我先指定一个路径,然后生成文档的名称 new_pdf_name_合并.pdf,最后对它俩进行字符串拼接,这样后面才能根据output_path信息在指定路径下保存pdf文档。


5.保存文档+结束调用

代码如下:

    merger.write(output_path)
    print('合并好了去查收吧')
    merger.close()

提示合并好了。然后就去指定目录查看就行了。

合并文档到这里就结束了。


五、文档拆分代码模块

将拆分分为两部分,一是每一页都拆出来形成一个新文档;二是有用户指定范围,形成新文档。所以,在这里又会用到if----elif—结构,相当于嵌套里的嵌套。

这里我会先写每一页都拆,后写指定范围。

1.确定基本框架

代码如下:

    ..........       #用户输入和前提准备
    
    if split == '1':    #每一页都拆
	    ......
    elif split == '2':    #指定范围拆
	    ......

上面也刚说了,这里就不废话了。


2.用户输入和前提准备

代码如下:

        #提示用户输入要拆分的PDF文档
        print('请输入您要查分的文件(例子:E:\BaiduNetdiskDownload\你好.pdf):', end='')
        chaifen_pdf = input()
        
        open_pdf = open(chaifen_pdf, 'rb')       #以二进制形式打开文档
        read_pdf = PyPDF2.PdfReader(open_pdf)    #读取上面打开的PDF文件内容
        get_pdf_pages = len(read_pdf.pages)      #通过read_pdf获取PDF的总页数
        print(f"该文件共有{get_pdf_pages}页")
        
        #提示用户选择拆分模式
        print('全部拆分请输入1 指定位置查分请输入2 :', end='')
        split = input()

先是提示用户输入要拆分的文档;然后程序会打开并读取文档内内容,告诉我们文档总共有多少页;最后是提示用户选择哪种模式拆分。
我就不细说了,代码注释写的很明白。


3.每一页都拆分代码模块

代码如下:

            #遍历文档的每一页
            for get_pdf_page in range(get_pdf_pages):
                #读取文档当前遍历的页
                page = read_pdf.pages[get_pdf_page]
                # 创建一个新的PdfWriter对象
                pdf_writer = PdfWriter()
                # 将当前页添加到新的PdfWriter对象中
                pdf_writer.add_page(page)

                # 获取用户输入的文件名,不包括路径
                pdf_file_name = chaifen_pdf.split('\\')[-1]  # 使用 \\ 分隔符 去掉路径
                pdf_base_name = pdf_file_name.split('.')[0]  # 去掉扩展名
                
                # 指定保存 .pdf 文件的完整路径和名称
                output_dir = "D:/"  # 替换为您的实际输出目录
                output_file_name = f"{pdf_base_name}_第{get_pdf_page + 1}页.pdf"
                output_path = output_dir + output_file_name
                
                pdf_writer.write(output_path)
                pdf_writer.close()
                
            print('拆分好了,快去看一下吧。')

由于基本上都是在for_in range()结构的循环下,我就一块写了,要不让分开写很容易看混。
整体上分为五部分:

  1. 第一部分:读取文档当前遍历的页,然后创建一个新的PdfWriter对象,最后将当前页添加到新的PdfWriter对象中(就是生成一页的文档),三者缺一不可。如果没有PdfWriter对象,会出现第n份文档有n页内容。
  2. 第二部分和第三部分可以看我上一个文档的《第四大段第5小节》有详细解释。这是链接:https://blog.csdn.net/weixin_57061292/article/details/134790966
  3. 第四部分:按照前几分部分的设置进行文件的保存,还有结束函数的调用(有始有终嘛)。
  4. 第五部分:友好提示,出现上面那几个字就代表搞定了。

4.指定页码拆分代码模块

4.1.用户输入和创建对象

代码如下:

            print('请输入开始页 :', end='')
            start_pages = int(input())
            print('请输入结束页 :', end='')
            end_pages = int(input())
            
            # 创建一个新的PdfWriter对象
            pdf_writer = PdfWriter()

两部分,一是引导用户输入需要把从哪一页到哪一页的内容拆出来;二是函数的调用,没啥好说的(这是主力)。


4.2.遍历暂存指定页码内容

代码如下:

            for get_pdf_page in range(start_pages-1, end_pages):
                page = read_pdf.pages[get_pdf_page]
                # 将当前页添加到新的PdfWriter对象中
                pdf_writer.add_page(page)

这个结构用过很多次了,就不赘述了。
意思就是遍历我们选中的页,先把它们暂存起来留到到后面用。


4.3.指定路径生成指定名称的新PDF

代码如下:

           # 获取用户输入的文件名,不包括路径
            pdf_file_name = chaifen_pdf.split('\\')[-1]  # 使用 \\ 分隔符 去掉路径
            pdf_base_name = pdf_file_name.split('.')[0]  # 去掉扩展名
            
            # 指定保存 .pdf 文件的完整路径和名称
            output_dir = "D:/"  # 替换为您的实际输出目录
            output_file_name = f"{pdf_base_name}_第{start_pages}_{end_pages}页.pdf"
            output_path = output_dir + output_file_name
            
            pdf_writer.write(output_path)
            pdf_writer.close()
            
            print('拆分好了,快去看一下吧。')

各位同志,看不懂的话。这里请一定要参考 《 3.每一页都拆分代码模块》 和我的上一篇博客,这是链接:https://blog.csdn.net/weixin_57061292/article/details/134790966


总结

这就是PDF拆分和合并的全部内容了,看看这篇的反馈吧。有需要的话。后面我再找找PDF还有哪些操作大家还常用 给大家写出来。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/241213.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python+requests+unittest API接口测试实例(详解)

我在网上查找了下接口测试相关的资料,大都重点是以数据驱动的形式,将用例维护在文本或表格中,而没有说明怎么样去生成想要的用例, 问题: 测试接口时,比如参数a,b,c,我要…

rk3568 RGMII KSZ8795 MAC TO MAC

RK3568与KSZ8795交换机芯片连接,直接MAC TO MAC方式,这样一下就扩展会4路网口,应该场合比较多,移植过程如下: 参考《Rockchip_Developer_Guide_Linux_MAC_TO_MAC_CN.pdf》 《rockchip RGMIImv88e6390 管理型交换机功…

【设计模式--行为型--命令模式】

设计模式--行为型--命令模式 命令模式定义结构案例优缺点使用场景 命令模式 定义 将一个请求封装为一个对象,使发出请求的责任和执行请求的责任分割开。这样两者之间通过命令对象进行沟通,这样方便将命令对象进行存储,传递,调用…

基于ssm的前后端分离鲜花销售系统论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本鲜花销售系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息&am…

几本学习中整理和面试的PDF,以及精选面试资料

今天和大家分享我在学习过程中整理的笔记,以及我在准备面试中,阅读的PDF,包括Spring Cloud学习手册、Docker学习手册、RabbitMQ学习手册、Spring 6手册、Maven手册、22w字面试手册等等,包括了大部分后端技术以及大部分高频面试题&…

大数据湖体系规划与建设方案:PPT全文51页,附下载

关键词:大数据解决方案,数据湖解决方案,数据数仓建设方案,大数据湖建设规划,大数据湖发展趋势 一、大数据湖体系规划与建设背景 在传统的企业信息化建设中,各个业务系统通常是独立建设的,导致…

【数据结构—栈的实现(数组栈)】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、栈 1.1栈的概念及结构 二、栈的实现 2.1头文件的实现—Stack.h 2.2源文件的实现—Stack.c 2.3源文件的测试—test.c 三、栈的实际测试数据展示 3.1正常的出…

麦克风相关知识——图后续处理

这篇文章重点介绍几种实用的波束形成算法(delaysum,delaysub,一阶差分自适应BF)原理及实现效果,再简单介绍一些知名品牌助听器中的BF方案; 1.易实现的BF算法介绍 1.1 delaysum 延时相加和延时相减是最基…

边缘计算系统设计与实践:引领科技创新的新浪潮

文章目录 一、边缘计算的概念二、边缘计算的设计原则三、边缘计算的关键技术四、边缘计算的实践应用《边缘计算系统设计与实践》特色内容简介作者简介目录前言/序言本书读者对象获取方式 随着物联网、大数据和人工智能等技术的快速发展,传统的中心化计算模式已经无法…

MySQL命令行备份数据库的关键步骤

MySQL是一个广泛使用的开源关系数据库管理系统,它常用于各种规模的应用,从个人博客到大型企业级系统。在使用MySQL的过程中,数据备份是一项至关重要的任务,它能够确保在发生数据丢失或系统故障时,我们可以恢复和重新部…

JavaScript实现飘窗功能

实现飘窗功能很简单 html代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title…

基于yolov2深度学习网络的人员跌倒检测识别matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 YOLOv2深度学习网络 4.2 人员跌倒检测识别原理 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 clc; clear; close all; warning off; a…

2023最新软件测试面试题(带答案)

1. 请自我介绍一下(需简单清楚的表述自已的基本情况&#xff0c;在这过程中要展现出自信&#xff0c;对工作有激情&#xff0c;上进&#xff0c;好学) 面试官您好&#xff0c;我叫###&#xff0c;今年26岁&#xff0c;来自江西九江&#xff0c;就读专业是电子商务&#xff0c;毕…

【Zerotier】自建PLANET服务器内网地址连接

之前已经完成了【Zerotier】通过docker自建PLANET服务器&#xff0c;但是遇到一个问题&#xff0c;因为各种原因&#xff0c;内网里面的ZeroTier Client无法通过PLANET服务器的公网地址连接&#xff0c;愁怀了这下。在经过多方测试验证后&#xff0c;可以采取重新生成一个PLANE…

应收应付模块如何启用?

应收应付模块启动操作手册 系统平台——系统工具——系统状态控制 查看要修改的日期 财务结账到指定期限后进行联用 点击与总账联用按钮

自激活T细胞为肿瘤免疫治疗提供新思路—高分文献分享

CD28是在所有小鼠和人类T细胞上表达的共刺激受体&#xff0c;用来调节T细胞受体(TCR) 的响应。异常的CD28 信号传导是癌症、自身免疫和病毒感染中T细胞功能障碍的决定性特征之一。早期的一些研究表明CD28对CD4 T细胞更重要&#xff0c;但也有越来越多的研究者发现其对CD8 T细胞…

(反序列化)小记录

目录 [CISCN 2023 华北]ez_date 绕过MD5和sha1强相关绕过 date()绕过 payload [FSCTF 2023]ez_php [CISCN 2023 华北]ez_date <?php error_reporting(0); highlight_file(__FILE__); class date{public $a;public $b;public $file;public function __wakeup(){if(is_a…

【Pyqt5】QWidget: Must construct a QApplication before a QWidget

问题说明&#xff1a; pyqt6切换为pyqt5时&#xff0c;引用自定义类时报错&#xff0c;QWidget: Must construct a QApplication before a QWidget 解决办法 修改导入python包的导入顺序后可以正常运行 使用pyqt5时需将pyqtgraph放到pyqt5之后导入

HT4125 低压CMOS 缓冲门器件 单电源电压转换

​​亿胜盈科HT4125 是一款低压CMOS 缓冲门器件&#xff0c;可运行在针对便携式和电池设备的更宽电压范围内。 其采用了较低阀值电路来设计此输入&#xff0c;以便匹配Vcc 3.3V 时的1.8V 输入逻辑&#xff0c;并且可被用 在1.8V 至3.3V 电平上行转换器功能中。此外&#xff0c;…

如何在 Windows 7/8/10/11 中恢复已删除的文件 [7 种方式]

当文件堆积时&#xff0c;您可以删除其中一些文件以获得更多存储空间或组织良好的环境。然而&#xff0c;最糟糕的是 如果您不小心删除了运行 Windows 11、10、8、7 或 XP 的 PC 上的重要文件&#xff0c;就会发生。在这种情况下&#xff0c;您 应该看到 如何在Windows上恢复已…