Python 代码轻松实现 HTML 文件及HTML字符串到 PDF 文档的转换

从网页生成文档已经是一种常见需求。无论是为了存档网页内容、离线共享网页或创建可打印的报告,经常会需要一种可靠的方法将HTML文件转换为稳定且普遍可访问的PDF格式。通过利用强大的Python语言,我们可以轻松地使用Python程序将HTML转换为PDF,从而实现从网页文件内容生成PDF的目的。

本文重点介绍如何利用Python代码进行HTML到PDF的转换,包括转换主要步骤和代码示例等内容。文章涵盖以下方面:

文章目录

    • 使用Python将HTML转换为PDF的要点
    • 使用Python进行HTML到PDF转换的步骤和代码示例
    • 使用Python将HTML字符串渲染为PDF的步骤和代码示例
    • 免费在线HTML到PDF转换器
      • 总结

使用Python将HTML转换为PDF的要点

借助Python库,开发人员和用户可以轻松地从HTML文件生成外观专业的PDF文档,包括内容、格式和超链接。同时,Python程序能将这一过程自动化,实现轻松、高效的PDF生成。但由于动态内容、渲染差异等原因,HTML到PDF的转换也具有一定的局限性。因此,为了获得最佳结果,当使用Python进行HTML到PDF转换时,开发人员可以选择更简单的网页,也可以在转换之前预处理HTML文件,如只保留文本内容。
本文所介绍的方法需要用到Spire.Doc for Python,可从官网下载或通过PyPI安装:pip install Spire.Doc

在使用此API转换HTML到PDF时,主要用到以下类和方法:

项目描述
Document 类表示Word文档的类。
Document.LoadFromFile() 方法以DOCX、HTML和其他格式加载文件作为Word文档。
Document.SaveToFile() 方法将Word文档保存为DOCX、PDF、HTML和其他格式的文件。
Paragraph.AppendHTML() 方法在文档中呈现HTML字符串的方法。
FileFormat枚举类,表示不同类型的文件格式。
XHTMLValidationType枚举类,表示XHTML验证的选项,包括无验证、严格验证和过渡验证。

使用Python进行HTML到PDF转换的步骤和代码示例

通过使用LoadFromFile方法加载HTML文件并通过使用SaveToFile方法将其保存为PDF文件,开发人员可以使用简单的Python代码将HTML转换为PDF。主要步骤如下:

  1. 导入所需的模块。
  2. 创建一个 Document 类的对象。
  3. 使用 Document.LoadFromFile() 方法加载HTML文件。
  4. 使用 Document.SaveToFile() 方法将HTML文件转换为PDF并保存。

以下是一个在Python中将HTML转换为PDF的代码示例:

from spire.doc import Document
from spire.doc import FileFormat
from spire.doc import XHTMLValidationType

# 创建一个 Document 类对象
doc = Document()

# 加载一个 HTML 文件
doc.LoadFromFile("示例.html", FileFormat.Html, XHTMLValidationType.none)

# 将文件转换为 PDF 格式并保存
doc.SaveToFile("output/HTML转PDF.pdf", FileFormat.PDF)
doc.Close()

转换效果:
HTML文件转PDF

使用Python将HTML字符串渲染为PDF的步骤和代码示例

HTML字符串通常指包含HTML标签、属性和内容的文本,用于描述网页的结构和呈现。通过使用 Paragraph.AppendHTML() 方法,开发人员可以轻松地在文档中呈现HTML字符串,然后将其保存为PDF文件。主要步骤如下:

  1. 导入所需的模块。
  2. 创建一个 Document 类的对象。
  3. 使用 Document.AddSection() 方法添加一个节(section)到文档,并使用 Section.AddParagraph() 方法添加一个段落(paragraph)到节中。
  4. 指定HTML字符串。
  5. 使用 Paragraph.AppendHTML() 方法在文档中呈现HTML字符串。
  6. 使用 Document.SaveToFile() 方法将文档转换为PDF并保存。

以下是一个在Python中将HTML字符串转换为PDF的代码示例:

from spire.doc import Document
from spire.doc import FileFormat

# 创建一个 Document 类的对象
doc = Document()

# 向文档添加一个节(section)
sec = doc.AddSection()

# 向节添加一个段落(paragraph)
par = sec.AddParagraph()

# 指定 HTML 字符串
htmlString = """
<html>
<head>
  <title>HTML 示例</title>
</head>
<body>
  <h1 style="color: blue;">欢迎访问我的网站</h1>

  <h2>个人信息</h2>
  <ul>
    <li>姓名:John Doe</li>
    <li>年龄:30</li>
    <li>国籍:美国</li>
  </ul>

  <h2>工作经历</h2>
  <table border="1">
    <tr>
      <th>公司</th>
      <th>职位</th>
      <th>年份</th>
    </tr>
    <tr>
      <td>ABC 公司</td>
      <td>软件工程师</td>
      <td>2018-2020</td>
    </tr>
    <tr>
      <td>XYZ 公司</td>
      <td>项目经理</td>
      <td>2020-2022</td>
    </tr>
  </table>

  <h2>项目列表</h2>
  <ol>
    <li>项目 A</li>
    <li>项目 B</li>
    <li>项目 C</li>
  </ol>

</body>
</html>
"""

# 在文档中渲染 HTML 字符串
par.AppendHTML(htmlString)

# 将文档保存为 PDF 文件
doc.SaveToFile("output/HTML字符串转PDF.pdf", FileFormat.PDF)
doc.Close()

生成的PDF文档:
HTML字符串转PDF

免费在线HTML到PDF转换器

对于少量简单的HTML文件转换为PDF文档且不需要进行复杂操作,推荐使用免费在线PDF转换器。该工具通过简单上传HTML文件并下载生成的PDF文档实现轻松转换。它提供了一个简单直接的解决方案,方便快捷地进行转换操作。
免费在线PDF转换器

总结

以上文章侧重于使用Python进行HTML到PDF转换。它解释了使用Python将HTML转换为PDF的优势和限制,并提供了使用Spire.Doc for Python进行HTML到PDF和HTML字符串到PDF转换的说明和代码示例。通过参考上述方法,开发人员可以创建自己的Python程序,实现自动化和高质量的转换。如果有任何问题,可前往Spire产品论坛寻求技术支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/310746.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024在视频号开店怎么样?平台现状如下,有电商经验者优先!

我是王路飞。 现在开网店、做电商的平台有很多&#xff0c;但是有着绝对流量优势的&#xff0c;除了抖音之外就是视频号了。 但是抖音跟视频号相比&#xff0c;已经属于一个很成熟的平台了&#xff0c;商家们也开始进入到内卷阶段了。 所以&#xff0c;如果你们2024年想做电…

100个GEO基因表达芯片或转录组数据处理之GSE126848(003)

写在前边 虽然现在是高通量测序的时代&#xff0c;但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据&#xff0c;还是会有大量的需求去处理芯片数据&#xff0c;并且建模或验证自己所研究基因的表达情况&#xff0c;芯片数据的处理也可能是大部分刚学生信的道友…

如何在OpenWRT部署uhttpd搭建服务器实现远程访问本地web站点

文章目录 前言1. 检查uhttpd安装2. 部署web站点3. 安装cpolar内网穿透4. 配置远程访问地址5. 配置固定远程地址 前言 uhttpd 是 OpenWrt/LuCI 开发者从零开始编写的 Web 服务器&#xff0c;目的是成为优秀稳定的、适合嵌入式设备的轻量级任务的 HTTP 服务器&#xff0c;并且和…

Python--函数

函数是组织好的&#xff0c;可重复使用的&#xff0c;用来实现单一&#xff0c;或相关联功能的代码段。 函数能提高应用的模块性&#xff0c;和代码的重复利用率。你已经知道Python提供了许多内建函数&#xff0c;比如print()。但你也可以自己创建函数&#xff0c;这被叫做用户…

VLAN 详解二(VLAN 基础配置)

VLAN 详解二&#xff08;VLAN 基础配置&#xff09; VLAN 配置其实是非常简单的&#xff0c;但是想要学得比较精还是需要花费一些功夫的&#xff0c;根据不同的 VLAN 划分方式用不同的配置方法&#xff0c;但其实配置方法基本上都大同小异。 下面就以在实际网络中最常用的基于…

[Kubernetes]9. K8s ingress讲解借助ingress配置http,https访问k8s集群应用

前面讲解了使用Helm部署mysql集群,这里来看看使用Ingress搭建负载均衡功能 1.介绍 功能类似 Nginx ,可以根据域名、路径把请求转发到不同的 Service , Ingress 为外部访问集群提供了一个 统一 入口, 避免 了 对外暴露集群端口 ,可以配置 https,http访问集群应用,接下来看看如…

用java实现Client和Server之间的互相通信

概要&#xff1a;看过我之前文章的人都知道&#xff0c;client和server之间的通信必不可少的就是socket。而java已经帮我们做了很多事情。 创建Server端 第一步&#xff0c;创建ServerSocket 这个从名字上就可以看出来&#xff0c;服务器上的socket 0.0 ServerSocket ser…

k8s-调度 13

调度器通过 kubernetes 的 watch 机制来发现集群中新创建且尚未被调度到 Node 上的 Pod。调度器会将发现的每一个未调度的 Pod 调度到一个合适的 Node 上来运行。 kube-scheduler 是 Kubernetes 集群的默认调度器&#xff0c;并且是集群控制面的一部分。 如果你真的希望或者有…

docker一键安装

1.把docker_compose_install文件夹放在任意路径&#xff1b; 2.chmod -R 777 install.sh 3.执行./install.sh 兼容&#xff1a;CentOS7.6、麒麟V10服务器版、统信UOS等操作系统。 下载地址&#xff08;本人上传&#xff0c;免积分下载&#xff09;&#xff1a;https://downlo…

2024新年烟花代码完整版

文章目录 前言烟花效果展示使用教程查看源码HTML代码CSS代码JavaScript 新年祝福 前言 在这个充满希望和激动的2024年&#xff0c;新的一年即将拉开帷幕&#xff0c;而数字科技的创新与发展也如火如荼。烟花绚丽多彩的绽放&#xff0c;一直以来都是新年庆典中不可或缺的元素。…

vue3.2引用unplugin-auto-import插入,解放开发中import组件

目录 前言引用unplugin-auto-import插件的优缺点优点缺点 unplugin-auto-import插件引入安装插件配置vite配置更新TypeScript配置使用代码位置 总结 前言 是否添加unplugin-auto-import取决于项目需求和团队习惯。如果项目中频繁使用Vue相关API&#xff0c;并且团队成员都熟悉这…

Delphi 11.3配置android环境

电脑安装dephi11.3的时候&#xff0c;勾选android sdk&#xff0c;但是软件安装好以后&#xff0c;还有问题 在Delphi—tool —options 里边&#xff0c;Deployment下SDKManager 中&#xff0c;看到SDk里边的感叹号&#xff0c;说明android sdk没有安装好 解决方法有2种 第一种…

Java lambda表达式如何自定义一个toList Collector

匿名类&#xff1a; package l8;import java.util.*; import java.util.function.BiConsumer; import java.util.function.BinaryOperator; import java.util.function.Function; import java.util.function.Supplier; import java.util.stream.Collector; import java.util.s…

布隆过滤器(Bloom Filter)详解

文章目录 简介基本思想位数组hash函数判断元素是否存在 存在的问题准确率问题使用场景的局限 上一篇文章介绍了Bitmap基础原理以及优化之后的高级数据结构Roaring Bitmap&#xff0c;本篇将介绍bitmap的一个经典应用Bloom Filter 简介 Bloom filter是一种高效的数据结构&#…

leaflet学习笔记-贝塞尔曲线绘制(八)

前言 两点之间的连线是很常见的&#xff0c;但是都是直直的一条线段&#xff0c;为了使连线更加平滑&#xff0c;我们可以使用曲线进行连线&#xff0c;本功能考虑使用贝塞尔曲线进行连线绘制&#xff0c;最后将线段的两端节点连接&#xff0c;返回一个polygon。 贝塞尔简介 …

示例说明 Makefile 中的 $(@F),及其用法示例$$dir $@ $< $^ %.c

备忘一个不错的开源编辑器CudaText 下载网址&#xff1a; CudaText - Browse /release at SourceForge.net CudaText 主页&#xff1a; CudaText - Home 1&#xff0c;含义及验证 在 Makefile 中&#xff0c;$(F) 表示当前规则的目标文件名&#xff08;不包括路径部分&…

RabbitMQ入门到实战——基础篇

初识RabbitMQ&#xff1a;高性能异步通讯组件 同步调用 异步调用 场景&#xff1a;1.对结果不关心时异步。订单状态-异步&#xff0c;查询-同步 2.影响性能。调用链超长&#xff0c;可改成异步 MQ技术对比 kafka日志收集 RabbitMQ整体架构 快速入门 交换机只负责路由消息&am…

Linux学习之网络编程(纯理论)

写在前面 刚刚更新完Linux系统编程&#xff0c;特别推荐大家去看的Linux系统编程&#xff0c;总共44个小时&#xff0c;老师讲的非常好&#xff0c;我是十天肝完的&#xff0c;每天大概看20集&#xff0c;每天还要以写blog的形式来写笔记来总结一下&#xff0c;虽然这十天有点…

回顾2023,立2024flag

文章目录 回顾2023与CSDN相识专栏整理数据回顾 立2024flag 回顾2023 在过去的一年里&#xff0c;前端技术不断演进和创新。新技术、新框架层出不穷&#xff0c;给前端工程师提供了更多选择和挑战。2023年已经成为过去&#xff0c;回首这一年&#xff0c;我们也经历了许多挑战和…

C# Linq+ValueTuple(元祖),成为Linq高手!

文章目录 前言简单使用:能被2整除ValueTuple使用:两数相加等于4不使用元祖使用元祖排序 基于类的LinqGroupByJoinDistinct去重普通去重选择去重 集合去重ExceptIntersectUnion 总结 前言 Linq是C# 最强语法之一&#xff0c;和委托,get set并列(在我的心中)。我很早就听说了Lin…