​xml.dom.minidom --- 最小化的 DOM 实现​

源代码: Lib/xml/dom/minidom.py


xml.dom.minidom 是文档对象模型接口的最小化实现,具有与其他语言类似的 API。 它的目标是比完整 DOM 更简单并且更为小巧。 对于 DOM 还不十分熟悉的用户则应当考虑改用 xml.etree.ElementTree 模块来进行 XML 处理。

警告

xml.dom.minidom 模块对于恶意构建的数据是不安全的。 如果你需要解析不受信任或未经身份验证的数据,请参阅 XML 漏洞。

DOM 应用程序通常会从将某个 XML 解析为 DOM 开始。 使用 xml.dom.minidom 时,这是通过各种解析函数来完成的:

from xml.dom.minidom import parse, parseString

dom1 = parse('c:\\temp\\mydata.xml')  # parse an XML file by name

datasource = open('c:\\temp\\mydata.xml')
dom2 = parse(datasource)  # parse an open file

dom3 = parseString('<myxml>Some data<empty/> some more data</myxml>')

parse() 函数可接受一个文件名或者打开的文件对象。

xml.dom.minidom.parse(filename_or_fileparser=Nonebufsize=None)

根据给定的输入返回一个 Document。 filename_or_file 可以是一个文件名,或是一个文件类对象。 如果给定 parser 则它必须是一个 SAX2 解析器对象。 此函数将修改解析器的处理程序并激活命名空间支持;其他解析器配置(例如设置一个实体求解器)必须已经提前完成。

如果你将 XML 存放为字符串形式,则可以改用 parseString() 函数:

xml.dom.minidom.parseString(stringparser=None)

返回一个代表 string 的 Document。 此方法会为指定字符串创建一个 io.StringIO 对象并将其传递给 parse()。

两个函数均返回一个代表文档内容的 Document 对象。object representing the content of the document.

parse() 和 parseString() 函数所做的是将 XML 解析器连接到一个 "DOM 构建器",它可以从任意 SAX 解析器接收解析事件并将其转换为 DOM 树结构。 这两个函数的名称可能有些误导性,但在学习此接口时是很容易掌握的。 文档解析操作将在这两个函数返回之前完成;简单地说这两个函数本身并不提供解析器实现。

你也可以通过在一个 "DOM 实现" 对象上调用方法来创建 Document。 此对象可通过调用 xml.dom 包或者 xml.dom.minidom 模块中的 getDOMImplementation() 函数来获取。 一旦你获得了一个 Document,你就可以向它添加子节点来填充 DOM:

from xml.dom.minidom import getDOMImplementation

impl = getDOMImplementation()

newdoc = impl.createDocument(None, "some_tag", None)
top_element = newdoc.documentElement
text = newdoc.createTextNode('Some textual content.')
top_element.appendChild(text)

一旦你得到了 DOM 文档对象,你就可以通过其属性和方法访问对应 XML 文档的各个部分。 这些属性定义在 DOM 规格说明当中;文档对象的主要特征属性是 documentElement。 它给出了 XML 文档中的主元素:即包含了所有其他元素的元素。 以下是一个示例程序:

dom3 = parseString("<myxml>Some data</myxml>")
assert dom3.documentElement.tagName == "myxml"

当你完成对一个 DOM 树的处理时,你可以选择调用 unlink() 方法来鼓励尽早清除已不再需要的对象。 unlink() 是针对 DOM API 的 xml.dom.minidom 专属扩展,它会将特定节点及其下级标记为不再有用。 在其他情况下,Python 的垃圾回收器将负责最终处理树结构中的对象。

参见

文档对象模型 (DOM) 第 1 层级规格说明

被 xml.dom.minidom 所支持的 W3C 针对 DOM 的建议。

DOM 对象

Python 的 DOM API 定义被作为 xml.dom 模块文档的一部分给出。 这一节列出了该 API 和 xml.dom.minidom 之间的差异。

Node.unlink()

破坏 DOM 的内部引用以便它能在没有循环 GC 的 Python 版本上垃圾回收器回收。 即使在循环 GC 可用的时候,使用此方法也可让大量内存更快变为可用,因此当 DOM 对象不再被需要时尽早调用它们的这个方法是很好的做法。 此方法只须在 Document 对象上调用,但也可以在下级节点上调用以丢弃该节点的下级节点。

你可以通过使用 with 语句来避免显式调用此方法。 以下代码会在 with 代码块退出时自动取消链接 dom:

with xml.dom.minidom.parse(datasource) as dom:
    ... # Work with dom.

Node.writexml(writerindent=''addindent=''newl=''encoding=Nonestandalone=None)

将 XML 写入到写入器对象。 写入器接受文本而非字节串作为输入,它应当具有与文件对象接口相匹配的 write() 方法。 indent 形参是当前节点的缩进层级。 addindent 形参是用于当前节点的下级节点的缩进量。 newl 形参指定用于一行结束的字符串。

对于 Document 节点,可以使用附加的关键字参数 encoding 来指定 XML 标头的编码格式字段。

类似地,显式指明 standalone 参数将会使单独的文档声明被添加到 XML 文档的开头部分。 如果将该值设为 True,则会添加 standalone="yes",否则它会被设为 "no"。 未指明该参数将使文档声明被省略。

在 3.8 版更改: writexml() 方法现在会保留用户指定的属性顺序。

在 3.9 版更改: 增加了 standalone 形参。

Node.toxml(encoding=Nonestandalone=None)

返回一个包含 XML DOM 节点所代表的 XML 的字符串或字节串。

带有显式的 encoding 1 参数时,结果为使用指定编码格式的字节串。 没有 encoding 参数时,结果为 Unicode 字符串,并且结果字符串中的 XML 声明将不指定编码格式。 使用 UTF-8 以外的编码格式对此字符串进行编码通常是不正确的,因为 UTF-8 是 XML 的默认编码格式。

standalone 参数的行为与 writexml() 中的完全一致。

在 3.8 版更改: toxml() 方法现在会保留用户指定的属性顺序。

在 3.9 版更改: 增加了 standalone 形参。

Node.toprettyxml(indent='\t'newl='\n'encoding=Nonestandalone=None)

返回文档的美化打印版本。 indent 指定缩进字符串并默认为制表符;newl 指定标示每行结束的字符串并默认为 \n

encoding 参数的行为类似于 toxml() 的对应参数。

standalone 参数的行为与 writexml() 中的完全一致。

在 3.8 版更改: toprettyxml() 方法现在会保留用户指定的属性顺序。

在 3.9 版更改: 增加了 standalone 形参。

DOM 示例

此示例程序是个相当实际的简单程序示例。 在这个特定情况中,我们没有过多地利用 DOM 的灵活性。

import xml.dom.minidom

document = """\
<slideshow>
<title>Demo slideshow</title>
<slide><title>Slide title</title>
<point>This is a demo</point>
<point>Of a program for processing slides</point>
</slide>

<slide><title>Another demo slide</title>
<point>It is important</point>
<point>To have more than</point>
<point>one slide</point>
</slide>
</slideshow>
"""

dom = xml.dom.minidom.parseString(document)

def getText(nodelist):
    rc = []
    for node in nodelist:
        if node.nodeType == node.TEXT_NODE:
            rc.append(node.data)
    return ''.join(rc)

def handleSlideshow(slideshow):
    print("<html>")
    handleSlideshowTitle(slideshow.getElementsByTagName("title")[0])
    slides = slideshow.getElementsByTagName("slide")
    handleToc(slides)
    handleSlides(slides)
    print("</html>")

def handleSlides(slides):
    for slide in slides:
        handleSlide(slide)

def handleSlide(slide):
    handleSlideTitle(slide.getElementsByTagName("title")[0])
    handlePoints(slide.getElementsByTagName("point"))

def handleSlideshowTitle(title):
    print(f"<title>{getText(title.childNodes)}</title>")

def handleSlideTitle(title):
    print(f"<h2>{getText(title.childNodes)}</h2>")

def handlePoints(points):
    print("<ul>")
    for point in points:
        handlePoint(point)
    print("</ul>")

def handlePoint(point):
    print(f"<li>{getText(point.childNodes)}</li>")

def handleToc(slides):
    for slide in slides:
        title = slide.getElementsByTagName("title")[0]
        print(f"<p>{getText(title.childNodes)}</p>")

handleSlideshow(dom)

minidom 和 DOM 标准

xml.dom.minidom 模块实际上是兼容 DOM 1.0 的 DOM 并带有部分 DOM 2 特性(主要是命名空间特性)。

Python 中 DOM 接口的用法十分直观。 会应用下列映射规则:

  • 接口是通过实例对象来访问的。 应用程序不应实例化这些类本身;它们应当使用 Document 对象提供的创建器函数。 派生的接口支持上级接口的所有操作(和属性),并添加了新的操作。

  • 操作以方法的形式使用。 因由 DOM 只使用 in 形参,参数是以正常顺序传入的(从左至右)。 不存在可选参数。 void 操作返回 None

  • IDL 属性会映射到实例属性。 为了兼容针对 Python 的 OMG IDL 语言映射,属性 foo 也可通过访问器方法 _get_foo() 和 _set_foo() 来访问。 readonly 属性不可被修改;运行时并不强制要求这一点。

  • short intunsigned intunsigned long long 和 boolean 类型都会映射为 Python 整数类型。

  • DOMString 类型会映射为 Python 字符串。 xml.dom.minidom 支持字节串或字符串,但通常是产生字符串。 DOMString 类型的值也可以为 None,W3C 的 DOM 规格说明允许其具有 IDL null 值。

  • const 声明会映射为它们各自的作用域内的变量 (例如 xml.dom.minidom.Node.PROCESSING_INSTRUCTION_NODE);它们不可被修改。

  • DOMException 目前不被 xml.dom.minidom 所支持。 xml.dom.minidom 会改为使用标准 Python 异常例如 TypeError 和 AttributeError。

  • NodeList 对象是使用 Python 内置列表类型来实现的。 这些对象提供了 DOM 规格说明中定义的接口,但在较早版本的 Python 中它们不支持官方 API。 相比在 W3C 建议中定义的接口,它们要更加的 "Pythonic"。

下列接口未在 xml.dom.minidom 中实现:

  • DOMTimeStamp

  • EntityReference

这些接口所反映的 XML 文档信息对于大多数 DOM 用户来说没有什么帮助。

备注

1

包括在 XML 输出中的编码格式名称应当遵循适当的标准。 例如,"UTF-8" 是有效的,但 "UTF8" 在 XML 文档的声明中是无效的,即使 Python 接受其作为编码格式名称。 详情参见 https://www.w3.org/TR/2006/REC-xml11-20060816/#NT-EncodingDecl 和 Character Sets。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/245450.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

leetcode -- 209 长度最小的子数组[滑动窗口/c++]

原题链接&#xff1a;209. 长度最小的子数组 - 力扣&#xff08;LeetCode&#xff09; 算法原理&#xff1a; 滑动窗口其实就是同向双指针&#xff0c;因为计算结果的单调性&#xff0c;在符合条件的情况下&#xff0c;左右指针不必往回回溯&#xff0c;而实现优化的效果。 滑…

Python type函数:动态创建类

之前学习过使用 type() 函数可以查看变量的类型&#xff0c;但如果想使用 type() 直接查看某个类的类型呢&#xff1f;看如下程序&#xff1a; class Role:pass r Role() # 查看变量r的类型 print(type(r)) # <class __main__.Role> # 查看Role类本身的类型 print(type(…

SpringBoot之数组,集合,日期参数的详细解析

1.4 数组集合参数 数组集合参数的使用场景&#xff1a;在HTML的表单中&#xff0c;有一个表单项是支持多选的(复选框)&#xff0c;可以提交选择的多个值。 多个值是怎么提交的呢&#xff1f;其实多个值也是一个一个的提交。 后端程序接收上述多个值的方式有两种&#xff1a; 数…

打造绿色计算数智动力 HashData 入选“绿色计算最具价值解决方案”

12月13日-14日&#xff0c;由绿色计算产业联盟(GCC)、边缘计算产业联盟&#xff08;ECC&#xff09;联合举办“2023计算产业生态大会”&#xff08;CIEC 2023&#xff09;在北京举行。作为计算领域的权威会议&#xff0c;本次大会邀请了多位两院院士、众多产业专家&#xff0c;…

Python自动化测试系列[v1.0.0][多种数据驱动实现附源码]

前情提要 请确保已经熟练掌握元素定位的常用方法及基本支持&#xff0c;请参考Python自动化测试系列[v1.0.0][元素定位] 数据驱动测试是自动化测试中一种重要的设计模式&#xff0c;这种设计模式可以将测试数据和测试代码分开&#xff0c;实现数据与代码解耦&#xff0c;与此同…

C++随记

#include<bits/stdc.h> using namespace std; int main() { char* p "C Language"; cout<<p<<\n; cout<<p1<<\n; cout<<*p<<\n; cout<<*(p2)<<\n; } 随记 C Language Language C L 输出结果是p会输入整个字符…

【一秒梵高】基于OpenCV4实现图像九种风格迁移

风格迁移 图像风格迁移、色彩填充与色彩变换等&#xff0c;严格意义上来说都属于计算机视觉任务中图像处理的分支。它们输入的是图像&#xff0c;输出的也是图像&#xff0c;过程实现图像到图像的内容与风格的转换&#xff0c;深度学习在这类图像处理任务上也取得了良好的效果…

吴恩达深度学习L2W3作业

欢迎来到本周的编程作业。 到目前为止&#xff0c;你一直使用numpy来构建神经网络。现在&#xff0c;我们将引导你使用深度学习框架&#xff0c;该框架将使你可以更轻松地构建神经网络。TensorFlow&#xff0c;PaddlePaddle&#xff0c;Torch&#xff0c;Caffe&#xff0c;Kera…

小项目:迷宫

目录 引言1.题目描述及思想2.代码实现3.最终结果 引言 这个迷宫的话就是去年这时候&#xff0c;我记得当时讲这个的时候我还是一脸懵逼&#xff0c;就是事后花时间能够看懂&#xff0c;能够理解&#xff0c;但是自己肯定是不能够实现的&#xff0c;而且觉得这个东西非常的庞大…

一文讲清 QWidget 大小位置

一文讲清 QWidget 大小位置 前言 ​ QWidget 的位置基于桌面坐标系&#xff0c;以左上角为原点&#xff0c;向右x轴增加&#xff0c;向下y轴增加。 一、图解 ​ ​ 如上图所示&#xff0c;当窗口为顶层窗口时&#xff08;即没有任何父窗口&#xff09;&#xff0c;系统会自…

docker小白第三天

docker小白第三天 docker为什么会比虚拟机快 1、docker有着比虚拟机更少的抽象层。不需要Hypervisor实现硬件资源虚拟化&#xff0c;运行在docker容器上的程序直接使用的都是实际物理机的硬件资源&#xff0c;因此在CPU、内存利用率上docker将会在效率上有明显优势。 2、dock…

利用闭包与高阶函数实现缓存函数的创建

缓存函数是一种用于存储和重复利用计算结果的机制。其基本思想是&#xff0c;当一个函数被调用并计算出结果时&#xff0c;将该结果存储在某种数据结构中 (通常是一个缓存对象)以备将来使用。当相同的输入参数再次传递给函数时&#xff0c;不再执行实际的计算&#xff0c;而是直…

Unity 控制刚体的移动与旋转的方法

在场景创建一个Cube,并添加刚体&#xff0c;如图&#xff1a; 编写脚本&#xff1a; using System.Collections; using System.Collections.Generic; using UnityEngine;[RequireComponent(typeof(Rigidbody))] public class RibRotate : MonoBehaviour {//private Vector3 mo…

使用过滤器Filter实现请求拦截

早期使用servlet进行网络开发时&#xff0c;没有拦截器这些内容&#xff0c;那时做请求拦截都是使用Filter过滤器实现的&#xff0c;配置Filter要对哪些请求路径处理&#xff0c;有权限或不需要拦截的路径放行&#xff0c;没有权限的路径直接拦截请求。 一、Filter直接进行拦截…

JAVA架构师或者teamleader要了解的东西

一、java架构师必备基本知识 什么是Java中的内存泄漏?如何避免内存泄漏? Java中的内存泄漏是指程序在申请内存后,无法释放未再使用的内存空间。避免内存泄漏的方法包括:避免使用finalize方法,使用缓存时需要手动清理不再使用的对象,及时关闭资源等。 什么是Java中的多态…

dockerfile---创建镜像

dockerfile创建镜像&#xff1a;创建自定义镜像。 包扩配置文件的创建&#xff0c;挂载点&#xff0c;对外暴露的端口。设置环境变量。 docker镜像的方式: 1、基于官方源进行创建 根据官方提供的镜像源&#xff0c;创建镜像&#xff0c;然后拉起容器。是一个白板&#xff0c…

<JavaEE> 网络编程 -- 网络通信基础(协议和协议分层、数据封装和分用)

目录 一、IP地址 1&#xff09;IP地址的概念 2&#xff09;IP地址的格式 二、端口号 1&#xff09;端口号的概念 2&#xff09;端口号的格式 3&#xff09;什么是知名端口号&#xff1f; 三、协议 1&#xff09;协议的概念 2&#xff09;协议的作用 3&#xff09;TC…

IBIS AMI Model 算法模式的选择

常规的信号完整性仿真&#xff0c;只会包含传统的基于IBIS的芯片行为级模型&#xff0c;但高速串行总线在使用过程中&#xff0c;经常会由于传输信道或链路过长以及信号频率较高而造成信号衰减过大&#xff0c;接收端无法正确判别信号&#xff0c;因此&#xff0c;这类SerDes芯…

Amazon SageMaker:让机器学习变得更简单、更强大

授权说明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在 亚马逊云科技开发者社区, 知乎&#xff0c;自媒体平台&#xff0c;第三方开发者媒体等亚马逊云科技官方渠道。 前言&#xff1a; 在大数据时代的浪潮中&#xff0c;数据不再只…

指令数据:训练大模型的“隐形助力”

作者&#xff1a;谭婧 &#xff08;一&#xff09;指令数据&#xff0c;了解一下 先聊一件圈内趣事&#xff1a; 2023年初&#xff0c;大约在1月到2月份前后&#xff0c; 百度公司如流工作卡上有一个任务&#xff0c; 让百度员工打开脑洞&#xff0c;写“问答对”。 一问一答都…