AI办公自动化-用kimi把PDF文档按照章节自动拆分成多个docx文档

一个PDF文档很长,希望按照章节分拆成小文档。

可以在kimichat中输入提示词:

你是一个Python编程专家,要完成一个编写拆分PDF文档的Python脚本的任务,具体步骤如下:

打开文件夹:D:\chatgpt图书\图书1,

读取文件夹里面的PDF文档:Porter L. Learn AI-assisted Python Programming;

这个PDF文档里面一共有11个章节,需要拆分出来的章节是这6、7、8、9这三个章节:

第6章Testing and prompt engineering,页码范围是:99—123

第7章 Problem decomposition,页码范围是:124—157

第8章Debugging and better understanding your code,页码范围是:158—181

第9章Automating tedious tasks,页码范围是:182—215

用PyPDF2库将第7章、第8章、第9章分拆成3个独立的PDF文档,文档标题名和章节标题名一致,保存在文件夹:打开文件夹:D:\chatgpt图书\图书分拆;

然后用python-docx库将PDF文档转换成docx文档格式;

注意:

每一步都要打印相关的信息;

要有错误处理和调试信息,这有助于找出问题所在;

PdfFileReader 类在 PyPDF2 版本 3.0.0 中已经被弃用并移除了,应该使用 PdfReader 类来代替。

这是kimi智能助手生成的代码:

import os

import PyPDF2

from PyPDF2 import PdfReader, PdfWriter

from pdf2docx import Converter

# 定义文件夹路径和文件名

pdf_folder_path = "D:\\chatgpt图书\\图书1"

output_folder_path = "D:\\chatgpt图书\\图书分拆"

pdf_filename = "Porter L. Learn AI-assisted Python Programming.pdf"

# 定义章节的页码范围

chapters = {

"Problem decomposition": (124, 157),

"Debugging and better understanding your code": (158, 181),

"Automating tedious tasks": (182, 215)

}

# 检查输入文件夹是否存在

if not os.path.exists(pdf_folder_path):

print(f"Error: The folder {pdf_folder_path} does not exist.")

exit()

# 检查输出文件夹是否存在,如果不存在则创建

if not os.path.exists(output_folder_path):

os.makedirs(output_folder_path)

# 读取PDF文档

pdf_path = os.path.join(pdf_folder_path, pdf_filename)

if not os.path.exists(pdf_path):

print(f"Error: The file {pdf_filename} does not exist in the folder {pdf_folder_path}.")

exit()

pdf_reader = PdfReader(pdf_path) # 使用PdfReader替代PdfFileReader

num_pages = len(pdf_reader.pages)

print(f"The PDF document has {num_pages} pages.")

# 拆分PDF文档并转换为docx

for chapter_title, (start_page, end_page) in chapters.items():

try:

# 创建一个PDF写入器

pdf_writer = PdfWriter()

# 添加指定页码范围的页面到pdf_writer

for page_num in range(start_page, end_page + 1):

if page_num <= num_pages:

pdf_writer.add_page(pdf_reader.pages[page_num - 1]) # PdfReader使用pages属性

else:

print(f"Warning: Page {page_num} does not exist in the document.")

# 设置文档信息

pdf_writer.add_metadata({

'/Title': chapter_title,

'/Author': 'Porter L.'

})

# 保存PDF文档

output_pdf_path = os.path.join(output_folder_path, f"{chapter_title}.pdf")

pdf_writer.write(open(output_pdf_path, 'wb'))

print(f"Chapter '{chapter_title}' has been successfully saved as {output_pdf_path}")

# 使用pdf2docx转换PDF为docx

cv = Converter(output_pdf_path)

docx_path = os.path.splitext(output_pdf_path)[0] + ".docx"

cv.convert(docx_path, start=0, end=None)

cv.close()

print(f"Chapter '{chapter_title}' has been successfully converted to docx at {docx_path}")

except Exception as e:

print(f"An error occurred while processing chapter '{chapter_title}': {e}")

print("PDF splitting and conversion process completed.")

运行程序,成功分拆文档:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/619471.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Zookeeper 注册中心:单机部署

序言 本文给大家介绍 Zookeeper 单机部署流程、 如何与 Spring 整合使用。除此之外&#xff0c;还有 Zookeeper 作为注册中心与 SpringCloud 的整合流程。 一、部署流程 官网下载 Zookeeper 安装包 解压安装包到指定目录 进入 apache-zookeeper-3.8.4-bin/conf 目录&…

LwIP 之九 详解 UDP RAW 编程、示例、API 源码、数据流

我们最为熟知的网络通信程序接口应该是 Socket。LwIP 自然也提供了 Socket 编程接口,不过,LwIP 的 Socket 编程接口都是使用最底层的接口来实现的。我们这里要学习的 UDP RAW 编程则是指的直接使用 LwIP 的最底层 UDP 接口来直接实现应用层功能。这里先来一张图,对 LwIP 内部…

YOLO数据集制作(二)|json文件转txt验证

以下教程用于验证转成YOLO使用的txt格式&#xff0c;适用场景&#xff1a;矩形框&#xff0c;配合json格式文件转成YOLO使用的txt格式脚本使用。 https://blog.csdn.net/StopAndGoyyy/article/details/138681454 使用方式&#xff1a;将img_path和label_path分别填入对应的图…

图鸟UI vue3:基于Vue3和UniApp的酷炫简洁UI框架

引言 随着前端技术的不断发展&#xff0c;开发效率和用户体验成为了前端开发中的两大关键因素。为了提高开发效率和提供更好的用户体验&#xff0c;各种UI框架应运而生。其中&#xff0c;TuniaoUI作为一款基于Vue3和UniApp开发的UI组件库&#xff0c;以其酷炫简洁的设计和丰富…

JVM调优:JVM中的垃圾收集器详解

JVM&#xff08;Java Virtual Machine&#xff09;垃圾收集器是Java虚拟机中的一个重要组件&#xff0c;负责自动管理Java堆内存中的对象。垃圾收集器的主要任务是找出那些不再被程序使用的对象&#xff0c;并释放它们占用的内存&#xff0c;以便为新的对象分配空间。这个过程被…

客户端机器访问服务端Harbor

书接上回&#xff1a;Docker私有仓库Harbor-CSDN博客 修改客户端机器名称 [roothost01 ~]# hostnamectl hostname client [roothost01 ~]# bash [rootclient ~]# 安装docker [rootclient ~]# yum -y install yum-utils.noarch [rootclient …

分布式任务调度框架xxl-job使用手册

官网地址和文档地址&#xff1a;https://www.xuxueli.com/xxl-job/ 一、快速入门 1.1 下载源码 https://github.com/xuxueli/xxl-job https://gitee.com/xuxueli0323/xxl-job 下载完成后有以下模块 1.2 初始化数据库 官方指定mysql8.0&#xff0c;但我是mysql5.7 执行/xxl…

Git系列:git tag 使用技巧

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

【web开发网页制作】Html+Css明星网页主题开发之邓超(5页面附源码)

HTMLCSS影视主题网页目录 &#x1f354;涉及知识&#x1f964;写在前面&#x1f367;一、网页主题&#x1f333;二、网页效果Page1、首页Page2、个人经历Page3、个人生活Page4、个人作品Page5、个人公益 &#x1f40b;三、网页架构与技术3.1 脑海构思3.2 整体布局3.3 技术说明书…

C++––初识C++

目录 一.绪言 1.什么是C 2.C语言和C的关系 2.1数据类型 2.2数据类型的长度 2.3变量和常量 2.4字符串操作 2.5判断和选择语句&#xff0c;循环语句 2.6逻辑运算符 2.7函数的声明和调用 2.8数组 2.9操作符 二.C入门的基本知识 1.命名空间 2.输入&输出 3.缺省…

Node.js全栈:从一个简单的例子开始

第一章&#xff1a;从一个简单的例子开始第二章&#xff1a;看官方文档的艺术第三章&#xff1a;浏览器显示一个网页 首先&#xff0c;在VSCode编辑器中打开一个没有任何文件的空目录&#xff0c;然后创建一个package.json文件。 为了方便大家复制&#xff0c;我把文件内容放到…

【C语言项目】贪吃蛇(下)

个人主页~ 源码在Gitee仓库~ 上一篇贪吃蛇&#xff08;上&#xff09;~ 贪吃蛇 四、核心的实现游戏测试1、GameStart&#xff08;1&#xff09;控制台窗口大小和名字设置&#xff08;2&#xff09;光标隐藏&#xff08;3&#xff09;打印欢迎界面&#xff08;4&#xff09;创建…

加入全球少儿编程运动:Scratch让每个孩子都能成为创造者(Scratch最新版客户端和初/中/高级学习资料整理分享)

文章目录 &#x1f4d6; 介绍 &#x1f4d6;&#x1f3e1; 演示环境 &#x1f3e1;&#x1f4d2; 文章内容 &#x1f4d2;&#x1f4dd; 安装与使用&#x1f4dd; 社区与资源 &#x1f388; 获取方式 &#x1f388;⚓️ 相关链接 ⚓️ &#x1f4d6; 介绍 &#x1f4d6; 你知道…

没有公网ip,如何实现外网访问内网?

目前拨号上网是最广泛的上网方式&#xff0c;这种方式优点是价格便宜&#xff0c;缺点是没有固定公网ip&#xff0c;每次重新您拨号ip地址都会变。如果有一台服务器&#xff0c;需要实现外网访问&#xff0c;在没有固定公网ip的环境下&#xff0c;该如何实现呢&#xff1f;使用…

2.4 输入和显示

本节必须掌握的知识点&#xff1a; 示例五源代码 代码分析 汇编解析 2.4.1 示例五 ■格式化输入函数scanf scanf函数可以从键盘读取输入的信息。scanf函数同样可以像printf函数那样&#xff0c;通过转换说明“%d”来限制函数只能读取十进制数。scanf函数的参数为可变参数…

外网如何访问内网?快解析

由于公网IP资源短缺&#xff0c;我们的电脑大多处于内网环境&#xff0c;如何在外网访问内网电脑&#xff0c;成为一个令人头疼的问题&#xff0c;下面我给大家推荐一个非常实用的方法。 1&#xff1a;访问快解析下载安装快解析服务器 2&#xff1a;运行软件&#xff0c;点击“…

08.4.grafana自定义图形并直接数据库取值

grafana自定义图形并直接数据库取值 自定义添加油表图形 选择gauge图形&#xff0c;并且配置对应设定值&#xff0c;点击应用 如图所示&#xff0c;可以看到仪表盘上的值是zabbix上取得值 配置grafana直接数据库取值 添加mysql数据源 添加后进行配置&#xff0c;我这…

计算机毕业设计python+spark知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习

本科毕业设计&#xff08;论文&#xff09;开题报告 课题名称 基于Spark的音乐推荐与数据分析系统 的设计与实现 课题类型 系统设计 学院 大数据与人工智能学院 班级 专业 数据科学与大数据技术 指导教师 职称 学生姓名 学号 重庆工程学院教务处制 1.课…

函数模板底层本质

#include<iostream> using namespace std;template<typename T1> T1 ave(T1 a, T1 b) { return a b; }int main() {ave(100, 200);ave(short(100), short(200));return 0; }反汇编代码 模板本质是编译器帮忙生成了不同的函数 就算非类型参数值不一样编译器也重新…

开发一款相亲交友小程序

uni-app框架&#xff1a;使用Vue.js开发跨平台应用的前端框架&#xff0c;编写一套代码&#xff0c;可编译到Android、小程序等平台。 框架支持:springboot/Ssm/thinkphp/django/flask/express均支持 前端开发:vue.js 可选语言&#xff1a;pythonjavanode.jsphp均支持 运行软件…