智能 Uber 发票 PDF 合并工具

在现代商务出行中,尤其是在跨国出差中,处理和整合大量 Uber 发票已成为一项不小的挑战。手动整理和合并这些发票不仅耗时,还容易出错。作为开发者,为什么不开发一个自动化工具,将这些任务交给代码来完成呢?在这篇博客中,我将带你一步步构建一个结合 PyQt5pdfplumberPyPDF2 的智能 Uber 发票合并工具,不仅能自动提取数据,还能动态显示进度条,给用户带来极佳的使用体验。

项目亮点:

  • PyQt5 GUI 界面:基于 PyQt5 实现的可视化界面,简洁大方。
  • 自动提取发票数据:利用 pdfplumber 自动提取 Uber 发票中的日期、金额、地点等信息,支持多语言(中文、英文、西班牙语)。
  • PDF 合并功能:通过 PyPDF2 实现多份 PDF 发票的自动合并,并且生成一份总结页,显示所有行程的详细信息。
  • 动态进度条:实时显示合并进度,让用户一目了然处理状态。

1. 项目简介

本项目的主要目的是通过图形化用户界面(GUI)和后端的 PDF 处理技术,自动处理 Uber 发票,自动从 PDF 中提取关键信息,并合并成一个包含详细摘要的 PDF 文件。这样的工具对于经常出差、需要整理大量发票的用户来说,是一个非常实用的助手。

2. 使用技术栈

在开发过程中,我们使用了以下的技术栈:

  • PyQt5:用于创建用户界面,让用户可以轻松选择文件夹、选择语言以及合并 PDF 文件。
  • pdfplumber:用于从 Uber 发票 PDF 中提取文本和行程信息,支持多语言。
  • PyPDF2:用于将多个 PDF 文件合并成一个,同时在合并前生成一份包含所有行程数据的总结页。
  • ReportLab:用于生成总结页的 PDF 文件,方便将表格数据导出。

3. 代码实现

3.1 主窗口的设计与初始化

我们通过 QMainWindow 创建了主窗口,并初始化了必要的组件,比如上传文件按钮、合并按钮、进度条等。我们还为窗口添加了一个版权信息,并通过 setWindowIcon 方法设置了应用的图标。

class MainWindow(QMainWindow):
    def __init__(self):
        super(MainWindow, self).__init__()
        self.ui = Ui_MainWindow()  # 创建UI对象
        self.ui.setupUi(self)  # 调用setupUi方法,构建界面

        # 初始化进度条
        self.ui.progressBar.setValue(0)  # 初始化进度条值为 0

        # 设置窗口的图标(logo)
        self.setWindowIcon(QIcon('logo.png'))  # 替换为你的 logo 文件路径

        # 设置窗口标题
        self.setWindowTitle("Uber Pdf Merge")  # 设置自定义窗口标题

        # 添加版权信息
        self.add_copyright_label()

        # 其他初始化代码...
3.2 自动提取 Uber 发票中的行程数据

在这一部分中,pdfplumber 被用于提取每一张发票中的行程信息,包括日期、金额、起始地点和目的地。我们通过不同的正则表达式来处理不同语言的发票数据(支持中文、英文和西班牙语)。

    def merge_pdfs(self):
        if self.selected_folder:
            pdf_files = [os.path.join(self.selected_folder, f) for f in os.listdir(self.selected_folder) if f.endswith('.pdf')]

            total_files = len(pdf_files)
            if total_files:
                all_trips = []
                self.ui.progressBar.setValue(0)

                for i, pdf_file in enumerate(pdf_files):
                    # 提取PDF中的行程数据
                    trips = self.extract_trip_data_from_pdf(pdf_file)
                    all_trips.extend(trips)

                    # 更新进度条
                    progress = int(((i + 1) / total_files) * 100)
                    self.ui.progressBar.setValue(progress)

                # 生成总结页PDF
                summary_pdf_path = "summary.pdf"
                self.generate_summary_page(summary_pdf_path, all_trips)

                # 合并PDF
                save_path, _ = QFileDialog.getSaveFileName(self, "Save Merged PDF", "", "PDF Files (*.pdf)")
                if save_path:
                    merger = PdfMerger()
                    merger.append(summary_pdf_path)
                    for pdf in pdf_files:
                        merger.append(pdf)
                    merger.write(save_path)
                    merger.close()
3.4 生成包含行程信息的总结页

为了方便整理行程信息,我们在合并多个发票之前,生成了一份总结页,并将其合并到最终的 PDF 文件中。总结页显示了所有行程的详细信息,并通过 ReportLab 将其以表格形式展示。

def generate_summary_page(self, output_path, trips_data):
    pdfmetrics.registerFont(UnicodeCIDFont('STSong-Light'))  # 使用 STSong-Light 字体
    doc = SimpleDocTemplate(output_path, pagesize=A4)

    table_data = [["日期", "起始时间", "启程地", "结束时间", "目的地", "金额", "单位"]]
    # 循环将行程数据添加到表格
    for trip in trips_data:
        table_data.append([trip["日期"], trip["起始时间"], trip["启程地"], trip["结束时间"], trip["目的地"], trip["金额"], trip["单位"]])

    table = Table(table_data, colWidths=[3 * cm, 2 * cm, 5 * cm, 2 * cm, 5 * cm, 2 * cm, 2 * cm])
    style = TableStyle([...])
    table.setStyle(style)
    elements = [table]
    doc.build(elements)

4. 运行效果展示

当用户运行该程序时,可以选择一个包含多个 Uber 发票的文件夹,点击 "Merge PDF NOW" 按钮后,程序会自动提取每一张发票中的行程数据,并动态更新进度条。处理完成后,用户可以保存最终合并的 PDF 文件,并查看生成的总结页。


5. 总结

通过这篇博客,你学会了如何使用 PyQt5 构建一个图形化的发票合并工具,并结合 pdfplumberPyPDF2ReportLab 实现发票的自动处理、数据提取以及文件合并。这种工具能够极大地提高发票处理的效率,并为用户带来便捷的体验。

如果你对 PDF 处理有需求或希望进一步优化用户界面,这将是一个非常好的入门项目。希望这篇文章对你有所帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/878975.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

成型的程序

加一个提示信息 加上python 常用的包 整个程序打包完 250M 安装 960MB matplot numpy pandas scapy pysearial 常用的包 (pyvisa)… … 啥都有 Python 解释器组件构建 要比 lua 容易的多 (C/Rust 的组件库)

钢材表面缺陷数据集以coco格式做好了数据集的划分,1200张训练集,600张验证集,对应的json文件也在里面

钢材表面缺陷数据集 以coco格式做好了数据集的划分,1200张训练集,600张验证集,对应的json文件也在里面。 钢材表面缺陷检测数据集营销介绍 项目背景: 钢材作为工业生产的重要原材料之一,其表面质量直接影响到成品的性…

MySQL之安装与基础知识

目录 一:在centos7上安装MySQL数据库 1.卸载默认存在的环境 2.配置mysql的yum源 3. 安装MySQL 4.登录mysql 5.设置MySQL的配置文件 二:MySQL基础知识 1.什么是数据库 2.主流数据库 3.服务器,数据库,表关系及使用案例 4…

预训练发展

预训练发展 1.ELMo2.GPT3.Bert3.1Ernie-baidu3.2Ernie- Tsinghua 4.GPT25.UNILM6.Transformer-XL & XLNet6.1方案一6.2方案三 7.Roberta8.SpanBert8.1SBO简介: 9.ALBERT9.1方案一9.2方案二9.3方案三 10.T511.GPT312.从"续写"到"回答"12.1SF…

基于51单片机的直流数字电流表proteus仿真

地址: https://pan.baidu.com/s/1adZbhgOBvvg0KsCO6_ZiAw 提取码:1234 仿真图: 芯片/模块的特点: AT89C52/AT89C51简介: AT89C52/AT89C51是一款经典的8位单片机,是意法半导体(STMicroelectro…

MySQL——数据类型(一)

目录 一、前言 二、数值类型 2.1 tinyint [unsigned] 2.1.1 插入合法数据 2.1.2 插入边界数据 2.1.3 插入不合法数据 2.1.4 结论 2.2 bit [n] 2.3 float [(m, d)] [unsigned] 2.3.1 float 特性 2.3.2 插入整数部分大于 m-d 的数字 2.3.3 插入小数部分大于 d 的数字…

【贪心算法】贪心算法

贪心算法简介 1.什么是贪心算法2.贪心算法的特点3.学习贪心的方向 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励,我们一起努力吧!😃😃 1.什么是贪心算法 与其说是…

MYSQL数据库——MYSQL管理

MYSQL数据库安装完成后,自带四个数据库,具体作用如下: 常用工具 1.mysql 不是指mysql服务,而是指mysql的客户端工具 例如: 2.mysqladmin 这是一个执行管理操作的客户端程序,可以用它来检查服务器的配置和…

vs2022快捷键异常解决办法

安装了新版本的vs2022,安装成功后,发现快捷键发生异常,之前常用的快捷键要么发生改变,要么无法使用,比如原来注释代码的快捷键是ctrlec,最新安装版本变成了ctrlkc,以前编译代码的快捷键是F6或者…

算法入门-贪心1

第八部分:贪心 409.最长回文串(简单) 给定一个包含大写字母和小写字母的字符串 s ,返回通过这些字母构造成的最长的回文串 的长度。 在构造过程中,请注意 区分大小写 。比如 "Aa" 不能当做一个回文字符串…

记录小数点

记录data frame小数点后面省略掉0的问题 iloc得到的series .to_list() 0被省略掉 to_list() 可能会将浮点数转换为默认格式。先将数据转换为字符串以保留格式 df_2708.iloc[2,:].apply(lambda x: f{x:.3f}).to_list()自定义保留小数点后几位 def formatter(value):return &q…

自动驾驶自动泊车场景应用总结

自动泊车技术是当前智能驾驶技术的一个重要分支,其目标是通过车辆自身的感知、决策和控制系统,实现车辆在有限空间内的自主泊车操作。目前自动泊车可分为半自动泊车、全自动泊车、记忆泊车、自主代客泊车四种产品形态,其中, 根据搭载传感器和使用场景的不同,全自动泊车又可…

OpenGL笔记二十一之几何类设计

OpenGL笔记二十一之几何类设计 —— 2024-09-16 下午 bilibili赵新政老师的教程看后笔记 code review! 文章目录 OpenGL笔记二十一之几何类设计1.运行1.1.立方体运行1.2.球体运行 2.几何类搭建1.立方体分析2.球体分析3.图片资源文件4.关键实现4.1.geometry.h4.2.geometry.cpp…

vue3使用provide和inject传递异步请求数据子组件接收不到

前言 一般接口返回的格式是数组或对象,使用reactive定义共享变量 父组件传递 const data reactive([])// 使用settimout模拟接口返回 setTimeout(() > {// 将接口返回的数据赋值给变量Object.assign(data, [{ id: 10000 }]) }, 3000);provide(shareData, dat…

ip映射域名,一般用于mysql和redis的固定映射,方便快捷打包

举个例子 192.168.3.101mysql映射到mysql.smartlink.com 192.168.3.101redis redis.smartlink.com 要将IP地址映射到域名,可以通过几种方式实现,包括修改本地主机文件(仅适用于本地开发环境)、设置DNS解析(适用于生产环…

一文入门生成式AI(理解ChatGPT的原理)

一、什么是生成式AI? 以ChatGPT为代表的生成式AI,是对已有的数据和知识进行向量化的归纳,总结出数据的联合概率。从而在生成内容时,根据用户需求,结合关联字词的概率,生成新的内容。 可以这么联想&#x…

el-table表格的展开行,初始化的时候展开哪一行+设置点击行可展开功能

效果: 表格展开行官网使用: 通过设置 type"expand" 和 Scoped slot 可以开启展开行功能,el-table-column 的模板会被渲染成为展开行的内容,展开行可访问的属性与使用自定义列模板时的 Scoped slot 相同。 但是这种方法…

解决:Vue 中 debugger 不生效

目录 1,问题2,解决2.1,修改 webpack 配置2.2,修改浏览器设置 1,问题 在 Vue 项目中,可以使用 debugger 在浏览器中开启调试。但有时却不生效。 2,解决 2.1,修改 webpack 配置 通…

【农信网-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

【ArcGIS Pro实操第七期】栅格数据合并、裁剪及统计:以全球不透水面积为例

【ArcGIS Pro实操第七期】批量裁剪:以全球不透水面积为例 准备:数据下载ArcGIS Pro批量裁剪数据集1 数据拼接2 数据裁剪3 数据统计:各栅格取值3.1 栅格计算器-精确提取-栅格数据特定值3.2 数据统计 4 不透水面积变化分析 参考 准备&#xff1…