[Python] 如何导出PDF文件中的图片

文章目录

    • 一、背景说明
    • 二、代码编写
    • 三、问题
      • 3.1、如何得到图片的xref?
      • 3.2、xref有什么用呢?
    • 四、总结


cover


一、背景说明

最近在看一份pdf的书籍,其中有一些图片绘制地比较出色,所以就打算将其复制出来,以便于在需要的时候进行使用。

但是令人无奈的是,pdf中的图片是无法直接另存为的。搜了一些网上的做法,要么是需要收费,要么就需要上传文件到某些网站… 总之方案都不是很理想。

偶然之下了解到Python的fitz这个组件,据说是可以导出PDF中的图片的。所以,在一番学习之下写了一个小的工具,成功导出了所需的图片。

出于备忘的需要,也为了将该方法分享给广大的小伙伴,和我一起享受从PDF中导出图片的自由,所以就有了本文的诞生。

 


二、代码编写

闲言少叙,直接上代码:

import fitz
import os

# 打开文件
pdf_file_name = "E:/books/xxx.pdf"

# 提取图片函数
def extract_pics(file_name, extract_path):

    # 1.打开文件
    doc = fitz.open(file_name)

    #文档页数
    page_count = len(doc)
    print("文档共有{}页".format(page_count))

    # 2.遍历并检查每页的图片
    image_count = 0
    for i in range(page_count):
        # 页面对象
        page = doc[i]

        # 获取图片列表
        images = page.get_images()

        # 遍历图片
        for image in images:
            # 返回图片引用
            xref = image[0]

            # 根据引用从pdf中释放出图片
            base_image = doc.extract_image(xref)
            #获得图片数据
            image_data = base_image["image"]
            # 保存图片
            if not os.path.exists(extract_path):
                os.makedirs(extract_path)
            with open(f'{extract_path}/image_{image_count}.png', 'wb') as f:
                f.write(image_data)
                image_count = image_count + 1
    
    # 3.关闭打开的pdf
    doc.close()
    return image_count

count = extract_pics(pdf_file_name, "./pics")
print("导出 {} 张图片".format(count))

代码思路:

  • 将待导出图片的文件名,定义为一个变量。传入提取图片函数,作为第一个参数。
  • 将图片导出的目标路径作为函数的第二个参数
  • 函数所做的事情如下:
  1. 打开pdf文档。打开文档后会返回一个文档的引用,类型是fitz.Document对象。
     
  2. page.get_images(),会返回page对象中定义的图片列表。列表的每一个元素的结构是:[xref, smask, ...],所以说该方法的结果是数组的列表。我们可以看出:每个元素的第一个值就是xref。
     
  3. 所以代码 xref = image[0] 就是为了获取图片的交叉引用。

而官方文档有这么一句:

Extract the image with img = doc.extract_image(xref). This is a dictionary containing the binary image data as img[“image”].
 
来源:https://pymupdf.readthedocs.io/en/latest/recipes-images.html#how-to-extract-images-pdf-documents

就是说:通过代码 img = doc.extract_image(xref) 可以提取图片。这个方法的返回值是一个字典。通过字典的 img["image"] 可以获取二进制的图片数据


  1. 保存提取出图片的目录。如果目录不存在,就创建之。
  2. 使用with语句优雅地将二进制图片数据写入到指定目录中。图片的命名从0开始,并记录导出图片的数量。
  3. 最后不要忘记关闭pdf文件。释放资源。

 


三、问题

3.1、如何得到图片的xref?

答:
循环访问 Page.get_images() 的项目。它会返回一个列表的列表,列表元素的结构类似于 [xref, smask, …],其中第一个就是图片的交叉引用。可以通过索引获得交叉引用,如image[0]。

3.2、xref有什么用呢?

答:可以使用 img = doc.extract_image(xref) 提取图像。img是一个 字典结构。其中 img[“image”] 可以返回一个二进制图像数

 


四、总结

本文通过Python写了一个可以导出pdf文件中图片的小工具。借助这个工具可以很容易地将pdf中的所有图片都导出到指定目录。

文中对代码的核心功能进行了讲解。并结合官方文档说明了代码为什么这么写。希望对小伙伴们有帮助!!

 
 
 
 
 


参考:

  • https://pymupdf.readthedocs.io/en/latest/module.html
  • https://pymupdf.readthedocs.io/en/1.24.0/recipes-images.html#how-to-extract-images-pdf-documents

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/517232.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

TCP客户端及服务器端开发实践

一、TCP客户端及服务器端开发实践 1、TCP网络应用程序开发分类 ① TCP客户端应用程序开发 ② TCP服务器端应用程序开发 客户端程序是指运行在用户设备上的程序,服务端程序是指运行在服务器设备上的程序,专门为客户端提供数据服务。那如何记忆呢&…

深入浅出 -- 系统架构之单体架构

单体架构(Monolithic Architecture) 单体架构的定义 单体架构(Monolithic Architecture)是一种传统的软件架构模式,将整个应用程序作为一个单一的、统一的单元进行开发、部署和扩展。在单体架构中,所有的功…

【数字图像处理matlab系列】空间域处理之亮度变换(imadjust函数使用)

【数字图像处理matlab系列】空间域处理之亮度变换(imadjust函数使用) 在空间域中,图像处理就是直接对图像的像素进行操作 imadjust 是 MATLAB 中用于调整图像强度值或颜色图的函数。它可以改变图像的对比度,使得图像更清晰或更易于分析。以下是 imadju…

计算机网络针对交换机的配置

实验 目的 交换机的基本配置,交换机VLAN配置 实验条件 Windows,Cisco packet tracer 实验 内容 交换机的基本配置,交换机VLAN配置 实验 过程 一、交换机的基本配置 进入特权模式 Switch>enable 进入配置模式 Switch#configure ter…

第15届蓝桥杯省赛模拟第二期题解及代码实现

试题A:求余数 问题描述 求12345678901234567890123456789012345678901234567890除以2023的余数。 答案提交 这是一道结果填空的题,你只需要算出结果后提交即可。本题的结果为一个整数,在提交答案时只填写这个整数,填写多余…

kubectl explain资源文档命令

学习并使用了一段时间的kubernetes,发现对k8s还是了解甚少,于是利用上下班通勤的时间又去B站看一些大佬的视频,又来重学巩固一遍知识,并做些记录。 之前在学习使用过程中未成了解过explain这个命令,因为自己部署的版本…

三、keepalived双机热备

一、双机热备概述 1、为什么需要双机热备: 双机热备主要为了解决服务器的单点故障问题。 在主机 MASTER 宕机之后可以马上切换到备选服务器 BACKUP。 服务器规划: 2、克隆产生web01服务器: (1) 基于LNMP克隆生成Web01服务器: (…

【TB作品】MSP430单片机读取大气压强传感器BMP180

文章目录 实物main所有代码 实物 main #include <msp430.h> #include "stdio.h" #include "OLED.h"#include <stdio.h> #include <stdlib.h> #include <string.h> #include <math.h>// P2.2 oled scl // P2.3 oled sda// p…

第六期丨酷雷曼无人机技能培训

第6期无人机技能提升培训 盼望着盼望着&#xff0c;第六期无人机技能提升培训会终于如期和大家见面了。 2024年1月1日&#xff0c;国务院、中央军事委员会颁布《无人驾驶航空器飞行管理暂行条例》&#xff0c;对民用无人机飞行活动实施更为严格的规范约束&#xff0c;越来越多…

第十四篇:web后端开发-Springboot

文章目录 一、Web入门1. 什么是Spring2. SpringBootWeb入门3. HTTP 协议3.1 HTTP-概述3.2 HTTP-请求协议3.3 HTTP-响应协议 4. Web服务器4.1 Tomcat---简介4.2 基本使用 5. 请求/响应5.1 请求5.1.1 postman5.1.2 简单参数5.1.3 实体参数5.1.4 数组集合参数5.1.5 日期参数5.1.6 …

echart 仪表盘实现指针的渐变色及添加图片

需求&#xff1a; 在仪表盘中设置指针为渐变色&#xff0c;并在仪表盘中间添加图片。 实现重点&#xff1a; 1、仪表盘指针渐变色的实现 渐变色通过设置pointer的itemStyle属性内的color实现&#xff0c;重点是echart版本&#xff0c;这个原本使用4.8.0的版本不起作用&#xff…

33---PS2-键盘鼠标电路设计

视频链接 PS2-键盘鼠标电路设计01_哔哩哔哩_bilibili PS2-键盘鼠标电路设计 1、PS/2简介 PS/2原是“personal 2”的意思&#xff0c;即“个人系统2”&#xff0c;是IBM公司在上个世纪80年代推出的一种个人电脑。 PS/2协议和接口最初由IBM公司开发并广泛使用的应用于键盘/鼠…

速通数据结构与算法第四站 双链表

系列文章目录 速通数据结构与算法系列 1 速通数据结构与算法第一站 复杂度 http://t.csdnimg.cn/sxEGF 2 速通数据结构与算法第二站 顺序表 http://t.csdnimg.cn/WVyDb 3 速通数据结构与算法第三站 单链表 http://t.csdnimg.cn/cDpcC 感谢佬们…

有人用GPT来做日内交易,居然赚钱了!但是……

在我们还在烦恼会不会被AI替代时&#xff0c;已经有人在教ChatGPT去炒股票了。 在近年ChatGPT火速出圈后&#xff0c;围绕AI能取代什么职业的讨论持续受到大众关注。 从事客服、编程、法律合规以及内容创作等行业人员最早感受到这股AI带来的寒意。 那ChatGPT能不能替代交易员…

Lora 串口透传开发 5

1 简介 串口转usb、转wifi等很多应用 2 设计原理 2.1 设计需求 1将LoRa终端定义成两种角色:Master和Slave 2一个模块发送任意字节长度&#xff08;小于128Byte&#xff09;数据&#xff0c;另一模块都可以接收到 3PC机上通过串口调试助手实现接收和发送 4终端在LCD屏幕上显…

【Redis】分布式锁及其他常见问题

分布式锁及其他常见问题 1. 我看你的项目都用到了 Redis&#xff0c;你在最近的项目的哪些场景下用到了 Redis 呢&#xff1f; 一定要结合业务场景来回答问题&#xff01;要是没有不要硬讲&#xff0c;除非面试官问&#xff1b; 接下来面试官将深入发问。 你没用到的也可能会…

软考109-上午题-【计算机网络】-网络设备

一、网络设备 1-1、物理层的互联设备 物理层的设备&#xff1a;中继器、集线器 1、中继器 中继器&#xff0c;可以使得两个链路在物理层上互联。 可以使得信号再生&#xff0c;信号增强。因此&#xff0c;中继器使得接受用户&#xff0c;收到衰减很小的原始信号 2、集线器&a…

最优控制理论笔记 - 01数学准备

目录 一、向量和矩阵的微分 1. 向量对标量的导数 2. 矩阵对标量的导数 2.1 矩阵对标量的导数的运算公式 2.2 标量函数对向量的导数&#xff1a; 2.3 向量函数对向量的导数 二、函数极值的问题 三、有约束条件的函数极值问题 四、n元函数的Taylor 一、向量和矩阵的微分 …

23linux 自定义shell文件系统

打印环境变量&#xff0c;把当前子进程所有环境变量打印出来 环境变量也是一张表&#xff08;指针数组以null结尾&#xff0c;最后条件不满足就退出了 &#xff09; 用子进程调用 结论1 当我们进行程序替换的时候 &#xff0c;子进程对应的环境变量&#xff08;子进程的环境变…

51入门之LED

目录 1.配置文件 2.点亮一个LED 2.1单个端口操作点亮单个LED 2.2整体操作点亮LED 3.LED闪烁 4.LED实现流水灯 4.1使用for循环和移位实现 4.1.1移位操作符 4.1.2使用移位操作和for循环实现 4.2使用移位函数实现LED流水灯 众所周知&#xff0c;任何一个硬件工程师…