Python脚本:用py处理PDF的五大功能

一、代码

【第三方库】3个

【Py版本】3.9

【使用前提】关闭所有的word文档

import os
from datetime import datetime
from docx2pdf import convert
from pdf2docx import parse
from PyPDF2 import PdfMerger
from PyPDF2 import PdfReader,PdfWriter


#将文件夹中的所有Word文档批量转换为PDF
def wordtopdf(url):
    if not os.path.exists(url):
        return False
    result=convert(url)#若满足条件"result==None"则表明转换成功
    return result==None

#将文件夹中的所有PDF批量转换为Word文档
def pdftoword(url):
    if not os.path.exists(url):
        return False
    all_files_successful = True  # 假设所有文件都成功转换
    for root, dirs, files in os.walk(url):
        for file in files:
            if file.endswith(".pdf"):
                pdf_file_path = os.path.join(root, file)
                result = parse(pdf_file_path)
                if result is not None:  # 转换失败
                    all_files_successful = False
                    break  # 如果有一个文件转换失败,就跳出内层循环
    return all_files_successful

#合并指定路径的pdf文档(顺序:01 02 03开头文件名依次排序)
def mergepdf(url):
    if not os.path.exists(url):
        return False
    merger = PdfMerger()
    output_path=url+f"\\合并pdf_{datetime.now().strftime('%Y%m%d%H%M%S')}.pdf"#输出路径
    # 遍历文件夹下的所有PDF文件并合并
    for root, dirs, files in os.walk(url):
        for file in files:
            if file.endswith(".pdf"):
                pdf_file_path = os.path.join(root, file)
                merger.append(pdf_file_path)
    # 将合并后的PDF保存到指定输出路径
    merger.write(output_path)
    merger.close()
    return True

#提取pdf的图像
def pdfimages(pdfurl):
    if not os.path.exists(pdfurl):
        return False
    reader = PdfReader(pdfurl)
    all = len(reader.pages) #返回pdf有多少页
    count = 0
    for i in range(0,all):
        page = reader.pages[i]
        for image_file_object in page.images:
            with open(f"{os.path.dirname(pdfurl)}/图{count+1}_{datetime.now().strftime('%Y%m%d%H%M%S')}.png", "wb") as fp:
                fp.write(image_file_object.data)
                count += 1
    return True

# 在PDF文件中加水印函数
def pdfcreatewater(pdfurl, pdf_watermark):
    if not os.path.exists(pdfurl) or not os.path.exists(pdf_watermark):
        return False
    # 把水印的文件读入
    watermark = PdfReader(pdf_watermark)
    # 取出水印文件的第1页
    waterpage = watermark.pages[0]
    # 读入要加入水印的PDF文件
    vreader = PdfReader(pdfurl)
    # 取得要加入水印的文件的页数
    n = len(vreader.pages)
    # print(n)
    # 生成一个PDF文件写对象
    vwriter = PdfWriter()
    # 通过循环给第一页加上水印
    for i in range(n):
        # 取得PDF文件的一页
        onepage = vreader.pages[i]
        # 通过mergePage将水印加到该页面
        onepage.merge_page(waterpage)
        # 在写对象中加入一页
        vwriter.add_page(onepage)
    # 打开最终形成的包含水印的文件
    with open(f"{os.path.dirname(pdfurl)}/合成水印_{datetime.now().strftime('%Y%m%d%H%M%S')}.pdf", 'wb') as f:
        # 通过写对象写到文件中
        vwriter.write(f)
    return True

二、附录:如何为PDF添加水印

第一步,打开word,按以下步骤添加水印

 二、若水印不够多,则双击页眉,可以拖拽水印

【注意】水印背景是透明的不准出现白色,若有覆盖情况请检查水印文件

【效果】 

 三、附录:如何设置合并顺序

按顺序命名即可,例如"01xxx","02xxx","03xxxx"…………

四、打包为GUI程序(Pyinstaller PyQt5)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/476107.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

模板高级使用(非类型模板参数,特化,分离编译)

文章目录 模板没有实例化取内嵌类型报错问题非类型模板参数模板的特化函数模板的特化类模板的特化1.全特化2.偏特化 模板的分离编译 模板没有实例化取内嵌类型报错问题 首先在这里分享一个模板的常见报错问题。就是模板的在没有实例化的情况下去取模板类里面的内嵌类型这时候的…

算法---二分查找

二分查找 1. 简述朴素的二分模板 2. 万能模板原理解释查找左端点查找右端点 查找左边界的二分模板查找右边界的二分模板 1. 简述 二分查找算法是一种在有序数组中查找特定元素的算法。它通过将数组分成两部分,并重复比较目标元素与中间元素的大小关系,从…

模板(初阶)

一、介绍: 1.1模板目的: 将重复的活,从程序员手中交给编译器执行。 1.2泛型编程: 编写与类型无关的通用代码,实现代码的复用。 二、函数模板: 2.1函数模板: 函数模板代表了一个函数家族&…

L4 级自动驾驶汽车发展综述

摘要:为了减小交通事故概率、降低运营成本、提高运营效率,实现安全、环保的出行,自动驾驶 技术的发展已成为大势所趋,而搭配有L4 级自动驾驶系统的车辆是将车辆驾驶全部交给系统。据此,介绍了自动驾驶汽车的主流技术解决方案;分析了国内外L4 级自动驾驶汽车的已发布车型、…

Java:接口

目录 1.接口的概念2.接口的语法规则3.接口使用4.接口的特性5.实现多个接口6.接口中的继承7.抽象类和接口的区别 1.接口的概念 在现实生活中,接口的例子比比皆是,比如:笔记本上的USB口,电源插座等。 电脑的USB口上,可以…

【华为OD机试】悄悄话花费的时间【C卷|100分】

【华为OD机试】-真题 !!点这里!! 【华为OD机试】真题考点分类 !!点这里 !! 题目描述 给定一个二叉树,每个节点上站着一个人,节点数字表示父节点到该节点传递悄悄话需要花费的时间。初始时,根节点所在位置的人有一个悄悄话想要传递给其他人,求二叉树所有节点上的人都接收…

2024.03.21作业

自由发挥实现一个登录窗口的应用场景 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QPen> #include <QBrush> #include <QPainter> #include <QWidget>QT_BEGIN_NAMESPACE namespace Ui { class Widget; class Painter; } QT_END_NAMESPACE…

Vue 3中实现基于角色的权限认证实现思路

一、基于角色的权限认证主要步骤 在Vue 3中实现基于角色的权限认证通常涉及以下几个主要步骤&#xff1a; 定义角色和权限&#xff1a;首先需要在后端服务定义不同的角色和它们对应的权限。权限可以是对特定资源的访问权限&#xff0c;比如读取、写入、修改等。用户认证&#…

CSS问题精粹1

1.关于消除<li>列表前的符号 我相信很多人在初学CSS时会遇到该问题&#xff0c;无论是创作导航&#xff0c;还是列表&#xff0c;前面都会有个黑点点或其它符号。 解决该问题其实很简单 采用list-style-type:none或list-style:none直接解决 如果你想更换前面的黑点点&a…

Redis笔记(4)

目录 事务 管道 发布/订阅&#xff08;了解&#xff09; Redis复制&#xff08;replica&#xff09; 哨兵&#xff08;sentinel&#xff09;监控 集群分片 集群算法-分片-槽位slot&#xff1a; 配置Redis集群&#xff1a; 集群读写&#xff1a; 节点从属调整 主从扩容…

模拟面试题

一、IO多路复用的原理 将多个阻塞任务的文件描述符&#xff0c;统一放到一个检测容器中&#xff0c;然后用一个阻塞函数进行管理&#xff0c;如果检测容器有一个或多个文件描述符对应的事件产生&#xff0c;就会解除阻塞&#xff0c;进而去执行相应的函数。 二、实现IO多路复用…

数据表练习

思维导图 面试题答问1、IO多路复用的引入目的和原理 目的&#xff1a;在有操作系统时&#xff0c;可以用多线程和进程完成任务并发执行&#xff0c;没有操作系统的情况下可以使用IO多路复用技术来进行任务并发。 原理&#xff1a;将多个阻塞任务的文件描述符统一放到一个检查容…

大屏动效合集更更更之实现百分比环形

实现效果 参考链接&#xff1a; https://pslkzs.com/demo/pie/demo1.php 写在最后&#x1f352; 源码&#xff0c;关注&#x1f365;苏苏的bug&#xff0c;&#x1f361;苏苏的github&#xff0c;&#x1f36a;苏苏的码云

MySQL索引的创建与基本用法

MySQL索引 MySQL索引是一种数据结构&#xff0c;用于提高查询数据的效率。MySQL索引可以被看作是数据库表的“目录”。就像书籍的目录帮助我们快速找到特定章节的位置一样&#xff0c;数据库索引帮助数据库快速找到特定数据记录的位置。 MySQL索引的类型与创建方法 MySQL索引…

如何优化前端项目的 SEO

在当今数字化时代&#xff0c;网站对于企业的重要性不言而喻。然而&#xff0c;一个优秀的网站如果在搜索引擎中排名靠后&#xff0c;将无法吸引到足够的流量和用户。因此&#xff0c;优化前端项目的SEO已经成为了网站拓展业务、提升品牌知名度的必经之路。 响应式设计与移动优…

Android14 - AMS之Activity启动过程(1)

Android14 - AMS之Activity启动过程&#xff08;2&#xff09;-CSDN博客 ​​​​​​​ Android14 - AMS之Activity启动过程&#xff08;3&#xff09;-CSDN博客 我们以Context的startActivity场景&#xff08;option null&#xff0c; FLAG_ACTIVITY_NEW_TASK&#xff09;来…

以题为例浅谈双指针算法

什么是双指针算法 双指针是指在遍历元素时&#xff0c;不是使用单个指针进行遍历而是使用两个指针进行访问&#xff0c;从而达到相应目的&#xff1b;注意这个指针不是c语言中那个指向地址的指针&#xff1b; 双指针分类 双指针分为对撞指针和快慢指针&#xff1b; 对撞指针…

ServletConfig和ServletContext

ServletConfig接口 在Servlet运行期间&#xff0c;需要一些配置信息&#xff0c;这些信息都可以在WebServlet注解的属性中配置。当Tomcat初始化一个Servlet时&#xff0c;会将该Servlet的配置信息封装到一个ServletConfig对象中&#xff0c;通过调用init(ServletConfig config…

手写一个跳表,跪了。。。

尼恩说在前面 在40岁老架构师 尼恩的读者交流群(50)中&#xff0c;最近有小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团、蚂蚁、得物的面试资格&#xff0c;遇到很多很重要的相关面试题&#xff1a; 手写一个跳表&#xff1f; redis为什…