PDF与PDF/A的区别及如何使用Python实现它们之间的相互转换

目录

概述

PDF/A 是什么?与 PDF 有何不同?

用于实现 PDF 与 PDF/A 相互转换的 Python 库

Python 实现 PDF 转 PDF/A

将 PDF 转换为 PDF/A-1a

将 PDF 转换为 PDF/A-1b

将 PDF 转换为 PDF/A-2a

将 PDF 转换为 PDF/A-2b

将 PDF 转换为 PDF/A-3a

将 PDF 转换为 PDF/A-3b

Python 实现 PDF/A 转 PDF

Python 判断 PDF 是否是 PDF/A格式


概述

本文将详细介绍 PDF 与 PDF/A 的区别,并提供在 Python 中实现 PDF 与 PDF/A 相互转换的具体方法。同时,还将探讨如何在 Python 中判断 PDF文档是否是 PDF/A 格式并获取其具体的合规级别。

  • PDF/A 是什么?与 PDF 有何不同?
  • 用于实现PDF 与 PDF/A相互转换的 Python 库
  • Python 实现 PDF 转 PDF/A
  • Python 实现 PDF/A 转 PDF
  • Python 判断 PDF 是否是 PDF/A格式

PDF/A 是什么?与 PDF 有何不同?

PDF/A 是一种专为电子文档的长期存档和保存设计的 PDF 格式。与常规 PDF 不同,PDF/A 对某些功能进行了限制,确保文档不依赖外部资源,即使在未来的技术环境中也能被完整再现。这种格式的主要特点包括:

  1. 禁止外部内容依赖
    PDF/A 不允许链接外部资源,如字体、音频、视频或加密数据。这确保了文档的所有内容完全嵌入文件内部,避免因外部资源丢失或变化而导致内容显示异常。
  2. 嵌入必要信息
    文档所需的字体、颜色配置文件等都会被嵌入文件中,从而确保无论在任何设备或软件中打开,都能准确呈现原始内容。

简而言之,PDF/A 是一种确保文档内容完整性的标准,特别适合用于长期保存和存档。常规 PDF 则更适合日常的共享、打印或编辑,但在内容长期保存和兼容性方面可能存在不确定性。

用于实现 PDF 与 PDF/A 相互转换的 Python 库

在Python中,可以使用 Spire.PDF for Python 库来实现 PDF 和 PDF/A 格式之间的转换。该库提供了丰富的功能,可在 Python 应用中创建、读取、编辑和转换 PDF 文档。

安装方法

在使用前,需要通过以下命令安装 Spire.PDF for Python:

pip install Spire.Pdf

Python 实现 PDF 转 PDF/A

将 PDF 转换为 PDF/A只需要以下两个步骤:

  1. 打开 PDF 文档:使用 PdfStandardsConverter 类打开需要转换的 PDF 文件。
  2. 转换为所需的 PDF/A 格式:选择 PdfStandardsConverter 类的适当方法,将文档转换为特定的 PDF/A 格式。

实现代码

以下是将 PDF 文档转换为不同 PDF/A 格式的实现代码。

将 PDF 转换为 PDF/A-1a

from spire.pdf.common import *
from spire.pdf import *

# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")

# 转换为 PDF/A-1a
converter.ToPdfA1A("PdfA1a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-1b

from spire.pdf.common import *
from spire.pdf import *

converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-1b
converter.ToPdfA1B("PdfA1b.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-2a

from spire.pdf.common import *
from spire.pdf import *

# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-2a
converter.ToPdfA2A("PdfA2a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-2b

from spire.pdf.common import *
from spire.pdf import *

# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-2b
converter.ToPdfA2B("PdfA2b.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-3a

from spire.pdf.common import *
from spire.pdf import *

# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-3a
converter.ToPdfA3A("PdfA3a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-3b

from spire.pdf.common import *
from spire.pdf import *

# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-3b
converter.ToPdfA3B("PdfA3b.pdf")
converter.Dispose()

转换后的 PDF/A 文档均可在 Adobe Acrobat 中成功通过PDF/A规范验证,如下图所示:

Python PDF转PDF/A

Python 实现 PDF/A 转 PDF

虽然 PDF/A 是存档的理想格式,但有时还是需要将文档还原为常规 PDF,以便进行编辑、添加交互元素或加密等操作。

以下是将 PDF/A 转换为常规 PDF的实现代码:

from spire.pdf.common import *
from spire.pdf import *

# 加载 PDF/A 文档
pdf = PdfDocument("PdfA1A.pdf")

# 创建常规 PDF 文档
new_pdf = PdfNewDocument()
new_pdf.CompressionLevel = PdfCompressionLevel.none

# 遍历 PDF/A 的每一页
for i in range(pdf.Pages.Count):
    page = pdf.Pages.get_Item(i)
    size = page.Size
    # 添加空白页面
    new_page = new_pdf.Pages.Add(size, PdfMargins(0.0))
    # 将原始页面内容复制到新页面
    page.CreateTemplate().Draw(new_page, 0.0, 0.0)

# 保存为常规 PDF
new_pdf.SaveToFile("常规PDF.pdf")
new_pdf.Close(True)

Python 判断 PDF 是否是 PDF/A格式

Spire.PDF 提供了 PdfDocument.Conformance 属性,用于判断 PDF 文档是否是 PDF/A 格式,此外还支持获取其具体的合规级别。如果该属性返回的是none,表示该PDF文档是常规PDF,如果返回具体级别,如Pdf_A1A,表明该PDF是PDF/A-1a格式。

以下是判断PDF是否是PDF/A格式并获取其具体级别的实现代码:

from spire.pdf.common import *
from spire.pdf import *

# 打开 PDF 文档
pdf = PdfDocument("ToPdfA1A.pdf")

# 获取文档的 PDF/A级别
conformance_level = pdf.Conformance
print(conformance_level.name)
pdf.Close()

Python 判断PDF是否是PDF/A格式

以上就是关于PDF与PDF/A之间的区别,以及如何使用Python实现它们之间的相互转换的全部内容。感谢阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/929288.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【超图】iClient3D for Cesium 以动静结合方式加载WMTS服务

作者:taco 一、问题来源 在最近支持的项目中,我们面临一个挑战:客户需要在前端动态加载高达3亿级别的白模底面数据。这样做的主要原因是客户的数据库会频繁更新,因此我们需要采用动态加载的方式来确保用户界面能够实时反映最新的…

Y20030026 VUE+Springboot+MYSQL+LW+实体店推广平台的设计与实现 源代码 配置 文档 PPT

实体店推广平台的设计与实现 1.摘要2.开发目的和意义3.系统功能设计4.系统界面截图5.源码获取 1.摘要 随着互联网的普及和电子商务的快速发展,消费者的购物习惯发生了显著变化。越来越多的消费者倾向于在线购物,享受便捷、丰富的选择和个性化的购物体验…

基数排序(代码+注释)

#include <stdio.h> #include <stdlib.h>// 获取数组中的最大值 int GetMax(int* a, int n) {int max a[0];for (int i 1; i < n; i) {if (a[i] > max) {max a[i];}}return max; }// 对数组按照某个位数进行计数排序 void CountingSortForRadix(int* a, i…

esp8266 编译、烧录环境搭建

一、准备 xtensa-lx106-elf-gcc8-4-0-esp-2020r3-win32下载&#xff1a;点击跳转 MSYS2 压缩包文件&#xff1a; 固件烧录工具&#xff1a;点击跳转 esp8266源码地址&#xff1a;点击跳转 二、搭建编译环境 1、在D盘创建一个ESP8266目录&#xff0c;解压MSYS2.zip到里面&a…

【Delphi】modbus-TCP 协议库

在日常开发中&#xff0c;也会遇到使用modbus的部件&#xff0c;比如温度控制器、读卡器等等&#xff0c;那么使用Delphi开发&#xff0c;也就必须遵守modbus-TCP协议&#xff0c;如果自己使用TCP控件写也没有问题&#xff0c;不过如果有开源的三方库&#xff0c;别人已经调试过…

AgGrid 组件封装设计笔记:自定义 icon 以及每个 icon 的点击事件处理

文章目录 问题目前解决效果 v1思路 目前解决效果 v0思路 代码V1 问题 自己封装的 AgGrid 如何自定义传递 icon &#xff0c;以及点击事件的处理&#xff1f; 目前解决效果 v1 思路 目前解决效果 v0 思路 一张图片说明一下 代码 V1 父组件使用 <template><MyPageL…

MySQL——MySQL 日志

文章目录 MySQL 文件介绍二进制日志&#xff08;bin log&#xff09;概念binlog 日志的三种格式两阶段提交binlog 落盘更新语句执行流程 慢查询日志&#xff08;slow query log&#xff09;重做日志&#xff08;redo log&#xff09;redo log 日志的理解WAL 技术redo log 的工作…

解决git did not exit cleanly (exit code 128)问题

解决 git did not exit cleanly &#xff08;exit code 128&#xff09;问题 1、错误描述2、解决方法2.1 方法一2.2 方法二 1、错误描述 使用TortoiseGit进行操作时&#xff0c;总是提示下述错误。 2、解决方法 2.1 方法一 打开 TortoiseGit -> Settings 点击 Network&…

家校通小程序实战教程05教师登录

目录 1 搭建角色选择页面2 设置登录方法3 创建加入班级页面4 创建教师主页页面5 完善登录方法总结 我们上一篇开发了教师管理的后台功能&#xff0c;后台一般是给管理员提供的。教师一般是使用小程序开展各类业务&#xff0c;本篇介绍一下教师如何通过小程序登录。 1 搭建角色选…

yolov5 解决:export GIT_PYTHON_REFRESH=quiet

当我们在第一次运行YOLOv5中的train.py程序时&#xff1a;可能会出现以下报错&#xff1a; This initial warning can be silenced or aggravated in the future by setting the $GIT_PYTHON_REFRESH environment variable. Use one of the following values: - quiet|q|silen…

neo4j如何存储关于liquidity structure的层次和关联结构

在 Neo4j 中存储关于流动性结构&#xff08;liquidity structure&#xff09;的层次和关联结构非常适合&#xff0c;因为 Neo4j 是一个基于图的数据库&#xff0c;能够自然地建模和存储复杂的关系和层次结构。下面是如何在 Neo4j 中设计和实现这样的数据模型的详细步骤和示例。…

SpringBoot高级-底层原理

目录 1 SpringBoot自动化配置原理 01-SpringBoot2高级-starter依赖管理机制 02-SpringBoot2高级-自动化配置初体验 03-SpringBoot2高级-底层原理-Configuration配置注解 04-SpringBoot2高级-底层原理-Import注解使用1 05-SpringBoot2高级-底层原理-Import注解使用2 06-S…

C++模拟堆

模板题目 图片来源Acwing 堆的基础知识 代码实现 #include<iostream> #include<algorithm>using namespace std;const int N 1e5 10; int a[N]; int n, m;void down(int u) {int t u;if (2 * u < n && a[2 * u] < a[u]){t 2 * u;}if (2 * u …

RNACOS:用Rust实现的Nacos服务

RNACOS是一个使用Rust语言开发的Nacos服务实现&#xff0c;它继承了Nacos的所有核心功能&#xff0c;并在此基础上进行了优化和改进。作为一个轻量级、快速、稳定且高性能的服务&#xff0c;RNACOS不仅包含了注册中心、配置中心和Web管理控制台的功能&#xff0c;还支持单机和集…

Flink常见面试题

1、Flink 的四大特征&#xff08;基石&#xff09; 2、Flink 中都有哪些 Source&#xff0c;哪些 Sink&#xff0c;哪些算子&#xff08;方法&#xff09; 预定义Source 基于本地集合的source&#xff08;Collection-based-source&#xff09; 基于文件的source&#xff08;…

BERT和RoBERTa;双向表示与单向的简单理解

目录 BERT和RoBERTa大型预训练语言模型 BERT的原理 RoBERTa的原理 举例说明 双向表示与单向的简单理解 除了预训练语言模型,还有什么模型 一、模型类型与结构 二、训练方式与数据 三、应用场景与功能 四、技术特点与优势 BERT和RoBERTa大型预训练语言模型 BERT(Bi…

OpenAI 推出了 Canvas 和 SearchGPT

今天的故事从 ChatGPT 推出的 Canvas 和 SearchGPT 开始。 ©作者|Ninja Geek 来源|神州问学 ChatGPT 在最近推出了令人兴奋的 Canvas 功能&#xff0c;Canvas 不仅带来了 ChatGPT 界面上的变化&#xff0c;还完全改变了人们撰写文档和书写代码的体验&#xff01; Canvas…

CentOS 9 配置静态IP

文章目录 1_问题原因2_nmcli 配置静态IP3_使用配置文件固定IP4_重启后存在的问题5_nmcli 补充 1_问题原因 CentOS 7 于 2014年6月发布&#xff0c;基于 RHEL 7&#xff0c;并在 2024年6月30日 结束维护。 CentOS 9 作为目前的最新版本&#xff0c;今天闲来闲来无事下载下来后…

ProjectSend 身份认证绕过漏洞复现(CVE-2024-11680)

0x01 产品描述: ProjectSend 是一个开源文件共享网络应用程序,旨在促进服务器管理员和客户端之间的安全、私密文件传输。它是一款相当流行的应用程序,被更喜欢自托管解决方案而不是 Google Drive 和 Dropbox 等第三方服务的组织使用。0x02 漏洞描述: ProjectSend r1720 之前…

【Vulkan入门】01-列举物理设备

目录 先叨叨git信息主要逻辑VulkanEnvEnumeratePhysicalDevices()PrintPhysicalDevices() 编译并运行程序 先叨叨 上一篇已经创建了VkInstance&#xff0c;本篇我们问问VkInstance&#xff0c;在当前平台上有多少个支持Vulkan的物理设备。 git信息 repository: https://gite…