Python实现PDF—>Excel的自动批量转换(附完整代码)

Python实现PDF—>Excel的自动批量转换(附完整代码)

话不多说,先看效果!

需要转换的PDF:
在这里插入图片描述

转换后的Excel:
在这里插入图片描述

01、底层原理

PDF 到 Excel 的转换涉及不同文件格式之间的数据提取和重构。底层原理可以简单概括为以下几个步骤:

  1. PDF 文本提取: 首先,使用 Python 中的库(例如 PyPDF2、pdfplumber 或 PyMuPDF)来提取 PDF 文档中的文本内容。PDF 中的文本可以是可选的,有时可能是图像或矢量图形。

  2. 文本处理和解析: 提取的文本可能包含大量无关紧要的信息。在这一步,需要对文本进行处理和解析,以获取有用的信息。这可能涉及到正则表达式、文本分析或其他处理技术,具体取决于 PDF 的结构和内容。

  3. 数据结构化: 将提取的文本数据结构化为表格或类似的数据结构。这通常涉及到将文本转换为适当的数据类型(例如字符串、数字等)并组织成表格形式。

  4. Excel 创建和写入: 使用 Python 中的 pandas 或 openpyxl 等库,将结构化的数据写入 Excel 文件。这涉及到创建 Excel 工作簿、工作表,并将提取的数据逐行或逐列写入。

  5. 格式调整: 对生成的 Excel 文件进行格式调整,以确保数据的呈现方式符合期望。这可能包括设置列宽、行高,应用样式,或者执行其他格式化操作。

  6. 保存文件: 最后,保存生成的 Excel 文件。这可以通过库中提供的保存功能完成,确保生成的文件保存在指定的路径。

需要注意的是!!!

PDF 到 Excel 的转换过程可能会受到 PDF 文档的复杂性和结构的影响。一些 PDF 文件可能包含图像或表格,这可能需要额外的处理步骤,例如图像识别表格提取技术。因此,实际的转换过程可能需要根据具体的 PDF 文件结构进行调整。

02、代码实现

import os
import pdf2docx
import docx
from openpyxl import Workbook
from tkinter import Tk, filedialog

def convert_pdf_to_excel(pdf_path, excel_path):
    # 将PDF文件转换为Word文件
    docx_path = 'temp.docx'
    pdf2docx.parse(pdf_path, docx_path)

    # 打开Word文件
    doc = docx.Document(docx_path)

    # 创建Excel文件
    wb = Workbook()
    ws = wb.active

    # 遍历Word文档中的所有表格
    for table in doc.tables:
        # 复制表格到Excel中
        for row in table.rows:
            ws.append([cell.text for cell in row.cells])

    # 保存Excel文件
    wb.save(excel_path)

def convert_folder_to_excel(folder_path):
    # 获取文件夹中的所有文件
    files = os.listdir(folder_path)

    # 遍历文件夹中的所有文件
    for file in files:
        # 判断文件是否为PDF文件
        if file.lower().endswith('.pdf'):
            # 构造PDF文件的路径
            pdf_path = os.path.join(folder_path, file)

            # 构造Excel文件的路径
            excel_path = os.path.splitext(pdf_path)[0] + '.xlsx'

            # 调用函数将PDF文件转换为Excel文件
            convert_pdf_to_excel(pdf_path, excel_path)

# 创建Tkinter根窗口
root = Tk()
root.withdraw()

# 使用文件夹选择对话框选择文件夹
folder_path = filedialog.askdirectory()

# 调用函数将选择的文件夹中的所有PDF文件转换为Excel格式
convert_folder_to_excel(folder_path)

运行效果如下:

在这里插入图片描述

​ 运行上述代码后,弹出运行框,访问本地路径,选择指定文件夹(包含你要转换的PDF文件),并修改代码中的保存路径,即可将选择文件夹下的PDF文件全部转换为Excel文件,效果如本文开头所示!本次文件夹选择框使用tkinter库实现。

tkinter 是 Python 中用于创建图形用户界面 (GUI) 的标准库之一。它提供了一组用于创建窗口、按钮、文本框等 GUI 元素的工具,使开发者能够轻松构建用户友好的应用程序。以下是对 tkinter 的介绍以及与其他同类型库比较的优劣性:

03、tkinter 的特点:

  1. 内置库: tkinter 是 Python 的标准库之一,无需额外安装。它在大多数 Python 安装中都是默认包含的,因此开发者可以方便地使用而不用担心兼容性或依赖性问题。
  2. 跨平台性: tkinter 提供了对不同操作系统的支持,包括 Windows、Linux 和 macOS。这意味着开发者可以使用相同的代码在不同平台上运行他们的 GUI 应用程序。
  3. 简单易用: tkinter 的设计目标之一是简单易用。它的 API 相对来说较为直观,适合初学者入门。同时,对于一些简单的 GUI 应用,tkinter 提供了足够的功能。

与其他库的比较:

  1. PyQt/PySide:
    • 优势: PyQt 和 PySide 是另外两个流行的 GUI 库,它们提供了更丰富和灵活的功能。它们支持现代的 UI 设计,具有更好的外观和交互效果。
    • 劣势: 相对于 tkinterPyQt 和 PySide 的学习曲线可能更陡峭。此外,它们需要额外的安装步骤,不像 tkinter 那样内置于 Python。
  2. Kivy:
    • 优势: Kivy 是一个专注于移动应用和多点触控的 GUI 库。它支持多种平台,包括 Windows、Linux、macOS 和 Android。
    • 劣势: 相比于 tkinter,Kivy 的文档和社区支持相对较少。它的主要重点是移动应用,可能不适合所有类型的 GUI 应用。
  3. wxPython:
    • 优势: wxPython 提供了一个类似于 tkinter 的简单 API,但也支持更复杂的 GUI 需求。它的外观和感觉可以通过主题进行定制。
    • 劣势:tkinter 相比,wxPython 的文档可能相对较少。而且,与 tkinter 一样,它也需要额外的安装步骤。
总结:
  • tkinter 适用于简单的 GUI 应用,对于入门级开发者和小型项目而言是一个良好的选择。
  • PyQt、PySide、Kivy 和 wxPython 适用于需要更丰富功能、更现代外观或跨平台移动应用的项目,但可能需要更多学习和配置。
    选择 GUI 库的最佳方法取决于项目的需求、开发者的经验水平以及对不同库的个人偏好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/308833.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【GDAL】Windows下VS+GDAL开发环境搭建

Step.0 环境说明(vs版本,CMake版本) 本地的IDE环境是vs2022,安装的CMake版本是3.25.1。 Step.1 下载GDAL和依赖的组件 编译gdal之前需要安装gdal依赖的组件,gdal所依赖的组件可以在官网文档找到,可以根据…

白嫖aws创建Joplin server服务器

网上有很多的Joplin服务器的搭建教程,但是基本都是抄来抄去,对初学者实在是太不友好了。 话不多说,说干就干,自己从头找资料搭了一个,这可能是全网最好的Joplin服务器搭建教程了。 aws服务器 aws的服务器还是很香的&…

idea git回滚之前提交记录

提交代码时,如果不小心提交了不需要提交的内容,在本地仓库中,此时需要回滚版本,如何回滚 1.打开git控制台,左下角git,选择要处理的分支,选择刷新获取最新git提交记录 2)选中自己commit需要回滚…

Fluids —— Minimal fluid setups

目录 Waterline FLIP Boundary Boundary flow 创建流体设置的三个基本方法; Waterline 由FLIP Container SOP与FLIP Solver SOP组成的基本network,可不需要任何外部源; FLIP Container SOP,能使用不同的容器形状;F…

PiflowX-MysqlCdc组件

MysqlCdc组件 组件说明 MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。 计算引擎 flink 组件分组 cdc 端口 Inport:默认端口 outport:默认端口 组件属性 名称展示名称默认值允许值是否必填描述例子hostnameHostname“”无是MySQL…

MySql -数据库基本概念

一、数据库的基本概念 1.为什么要学数据库? 之前我们如果想将一些数据实现永久化存储,可以怎么做呢?没错。使用IO流的技术将数据保存到本地文件中但是接下来我有这样一个需求:将下面的user.txt文件中的王五年龄修改为35 张三 2…

leetcode 动态规划(最后一块石头的重量II、目标和、一和零)

1049.最后一块石头的重量II 力扣题目链接(opens new window) 题目难度&#xff1a;中等 有一堆石头&#xff0c;每块石头的重量都是正整数。 每一回合&#xff0c;从中选出任意两块石头&#xff0c;然后将它们一起粉碎。假设石头的重量分别为 x 和 y&#xff0c;且 x < …

Go语言学习笔记(三)

教程&#xff1a;文档 - Go 编程语言 (studygolang.com) 调用模块代码 在call-module-code需要注意&#xff0c;需要在hello目录下操作 go mod edit -replace example.com/greetings../greetings 这是一个在Go项目的模块管理中的命令。在Go的模块管理工具&#xff08;go mod&…

SpringBoot-admin健康监控

监控-健康监控服务 目的&#xff1a;能够理解健康监控actuator的作用 背景&#xff1a; 在一些大型的业务应用中&#xff0c;工程会根据业务模块做微服务拆分&#xff0c;后期每一个微服务在云上部署以后&#xff0c;都需要对其进行监控、追踪、审计、控制等操纵&#xff0c…

chatglm3的api调用

conda activate chatglm3 cd openai_api_demo python openai_api.py 启动ok&#xff0c;然后内网映射后 anaconda启动jupyter !pip install openai1.6.1 -i https://pypi.tuna.tsinghua.edu.cn/simple/ """ This script is an example of using the OpenAI …

人工智能复习

机器学习中线性回归和逻辑回归&#xff1a; 机器学习的分类&#xff1a; 监督学习和无监督学习&#xff0c;半监督学习 监督学习&#xff08;Supervised Learning&#xff09;&#xff1a; 监督学习是一种利用带有标签&#xff08;标记&#xff09;的数据进行训练的机器学习…

【学习总结】地面路谱分析

本文仅用于记录自己的学习总结&#xff0c;包括个人理解。不保证内容严格正确。 0. 参考资料 [1] 国标GB/T 703-2005/ISO 8608:1995。[2] Bilibili-车辆考研-路面不平度统计特性[3] Bilibili-清华大学《汽车理论》[4] 网络参考文档.[5] 论文&#xff1a;高雄《路面不平度统计…

什么是Helm?它是如何提升云原生应用私有化部署效率的

转载至我的博客 &#xff0c;公众号&#xff1a;架构成长指南 试想一下&#xff0c;如果有一个项目有50 个微服务&#xff0c;每个微服务都有service、deployment、ingress、pvc等 yaml 文件&#xff0c;算下来大概有 200 个文件&#xff0c;然后这个项目需要基于k8s进行私有化…

强化学习求解TSP(四):Qlearning求解旅行商问题TSP(提供Python代码)

一、Qlearning简介 Q-learning是一种强化学习算法&#xff0c;用于解决基于奖励的决策问题。它是一种无模型的学习方法&#xff0c;通过与环境的交互来学习最优策略。Q-learning的核心思想是通过学习一个Q值函数来指导决策&#xff0c;该函数表示在给定状态下采取某个动作所获…

Vue3-41-组件- 动态组件 component 标签 和 is 属性 的使用

说明 <component> 标签 有一个 is 属性&#xff0c; 可以给这个 is属性 赋值为一个 组件对象&#xff0c; 这样这个<component> 标签就可以渲染指定的组件对象了。 使用案例 本案例中会 准备两个简单的组件&#xff0c; 在 App.vue 中导入这两个组件&#xff0c;并…

C#入门篇(一)

变量 顾名思义就是变化的容器&#xff0c;即可以用来存放各种不同类型数值的一个容器 折叠代码 第一步&#xff1a;#region 第二步&#xff1a;按tab键 14种数据类型 有符号的数据类型 sbyte&#xff1a;-128~127 short&#xff1a;-32768~32767 int&#xff1a;-21亿多~21亿多…

VMware Visio OmniGraffle模板和图标

VMware Visio OmniGraffle模板和图标 包含可用于Visio、omnigraffle的图标和SVG矢量图。 简介 这组资源适用于 IT 管理员、系统架构师、网络工程师和其他需要可视化 VMware 基础架构的专业人士创建精确的 VMware 网络和数据中心部署图&#xff0c;通过使用这些模板和图标&am…

css三大特性

css 三大特性 一、层叠性&#xff1a;css样式冲突采取原则&#xff08;后者覆盖前者&#xff09; 二、继承性&#xff1a;对于部分属性样式会有天生的继承 &#xff08;1&#xff09;字体系列属性 font-family&#xff1a;字体系列 font-weight&#xff1a;字体的粗细 fon…

ai中的渐变怎么使用

Adobe Illustrator 是Adobe系统公司推出的基于矢量的图形制作软件&#xff0c;作为全球最著名的矢量图形软件&#xff0c;以其强大的功能和体贴用户的界面&#xff0c;已经占据了全球矢量编辑软件中的大部分份额。据不完全统计全球有37%的设计师在使用Adobe Illustrator进行艺术…

一键修复所有dll缺失的工具,dll修复工具下载使用教程

在计算机使用过程中&#xff0c;我们经常会遇到各种软件或系统错误提示&#xff0c;其中最常见的就是“找不到指定的模块”或“无法找到某某.dll文件”。Dll是动态链接库的缩写&#xff0c;它是Windows操作系统中的重要组成部分&#xff0c;负责提供各种功能和资源给应用程序使…