Python从0到100(三十二):lxml模块的学习与应用

在这里插入图片描述

学习目标

  • 掌握使用lxml库提取数据的方法。
  • 理解lxml在数据处理后提取的数据类型。
  • 学习将元素(element)转换为字符串的方法。

1. lxml的安装

通过以下命令安装lxml库:

pip install lxml

2. lxml的使用

2.1 基础使用
  • 导入lxml的etree库:
    from lxml import etree
    
  • 将字符串转换为Element对象,并使用xpath方法提取数据:
    html = etree.HTML(text)
    ret_list = html.xpath("xpath字符串")
    
  • 将Element对象转换为字符串(bytes类型):
    etree.tostring(element)
示例

假设有以下HTML内容,我们将对其进行操作:

<div> <ul> 
  <li class="item-1"><a href="link1.html">first item</a></li> 
  <li class="item-1"><a href="link2.html">second item</a></li> 
  <li class="item-inactive"><a href="link3.html">third item</a></li> 
  <li class="item-1"><a href="link4.html">fourth item</a></li> 
  <li class="item-0"><a href="link5.html">fifth item</a> <!-- 注意此处缺少闭合标签 -->
  </ul> </div> 

使用lxml进行操作的代码如下:

from lxml import etree

text = """ 
<div> <ul> ... </ul> </div> """

html = etree.HTML(text)
print(type(html))

handeled_html_str = etree.tostring(html).decode()
print(handeled_html_str)

输出结果:

<class 'lxml.etree._Element'>
<html><body><div> ... </div> </body></html>

注意:lxml能够补充缺失的标签,但在数据提取时可能遇到问题。使用etree.tostring方法可以观察lxml处理后的HTML结构。

2.2 进阶练习

假设每个class为item-1li标签代表一条新闻数据,我们将这些数据组成字典。

from lxml import etree

text = """ 
<div> <ul> ... </ul> </div> """

html = etree.HTML(text)

# 获取所有`li`标签的`href`和标题
href_list = html.xpath("//li[@class='item-1']/a/@href")
title_list = html.xpath("//li[@class='item-1']/a/text()")

# 组装新闻数据
for href in href_list:
    item = {"href": href, "title": title_list[href_list.index(href)]}
    print(item)

输出结果:

{'href': 'link1.html', 'title': 'first item'}
{'href': 'link2.html', 'title': 'second item'}
{'href': 'link4.html', 'title': 'fourth item'}
2.3 进阶使用

如果提取的是一个节点而非属性或文本,lxml会返回Element对象,可以继续使用xpath方法。

from lxml import etree

text = """ 
<div> <ul> ... </ul> </div> """

html = etree.HTML(text)
li_list = html.xpath("//li[@class='item-1']")

for li in li_list:
    item = {"href": li.xpath("./a/@href")[0] if li.xpath("./a/@href") else None,
            "title": li.xpath("./a/text()")[0] if li.xpath("./a/text()") else None}
    print(item)

输出结果:

{'href': None, 'title': 'first item'}
{'href': 'link2.html', 'title': 'second item'}
{'href': 'link4.html', 'title': 'fourth item'}

小结

  • 安装lxml库:pip install lxml
  • 导入lxml库:from lxml import etree
  • 使用lxml转换和解析HTML:etree.HTML(text)
  • 使用xpath提取数据:data.xpath("//div/text()")
  • 注意lxml提取的数据都是列表类型
  • 对于复杂数据,先提取大节点,再遍历小节点进行操作,即先分组再提取数据

通过上述学习,你应该能够使用lxml库进行基本的数据提取和处理。在实际应用中,你可能需要根据具体情况调整xpath表达式以适应不同的数据结构。

好书推荐

在这里插入图片描述
《人工智能注意力机制:体系、模型与算法剖析》融合了资深开发工程师多年一线工作经验,从注意力机制这一重要角度入手,阐述注意力机制的产生背景和发展历程,通过详实的理论剖析,以深入浅出的方式着重介绍注意力机制在计算机视觉与自然语言处理两大人工智能方向中的体系、模型与算法,并在最后将注意力机制在其他智能领域的应用加以拓展。内容循序渐进,图文细腻讲解,使读者身临其境,迅速、深入地掌握各种经验和技巧。
内容简介
“注意”作为一切思维活动的起点,一直是哲学、心理学和认知神经科学的重点研究对象。随着计算机技术的发展,人类对注意力机制的模拟和应用成为计算机科学领域的热点研究方向——让计算机能够具有类似人类的注意力机制,使其能够有效地应用于对数据的理解和分析。Transformer模型诞生后,注意力机制在人工智能各大重要领域的研究和应用更是如火如荼,成果丰硕。
《人工智能注意力机制:体系、模型与算法剖析》从注意力机制这一重要角度入手,阐述注意力机制的产生背景和发展历程,通过详实的理论剖析,以深入浅出的方式着重介绍注意力机制在计算机视觉、自然语言处理,以及多模态机器学习三大人工智能方向中的应用思路、模型与算法。
《人工智能注意力机制:体系、模型与算法剖析》以人工智能相关专业研究人员,特别是计算机视觉与自然语言处理等领域的研发人员作为主要读者对象,一方面帮其梳理技术的发展脉络、开拓思路、构建完整的认知体系;另一方面为其剖析算法原理、深刻理解算法细节。本书提供配套源代码,下载方式见封底。

购买链接:https://item.jd.com/14544040.html
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/698679.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

用英语介绍端午节,柯桥零基础英语培训

端午节 Dragon Boat Festival 中国传统节日&#xff0c;农历五月初五。相传古代诗人屈原在五月初五投江自杀&#xff0c;后人把这天作为节日纪念他。有划龙舟比赛、包粽子等风俗。 A traditional Chinese festival on the fifth day of the fifth lunar month. Legend has i…

Doris 2.1 元数据更新

metadata_refresh_interval_sec 20

护理考试搜题软件哪个免费?分享九个搜题直接出答案的软件 #知识分享#微信

培养自己的阅读习惯&#xff0c;并不仅仅限于课外读物&#xff0c;还包括学术期刊、行业报告等&#xff0c;以不断提升自己的知识水平和思考能力。 1.彩虹搜题 这是一个公众号 是一款专门针对于大学生或者是成年自考等学生顺利完成证件考试的应用软件&#xff0c;这款软件涵…

AI巅峰对决:8款大模型边缘作文谁领风骚?

前几天我们预测高考作文题目&#xff0c;然后有朋友说我们预测对了&#xff0c;但是我们认真看&#xff0c;发现和全国卷作文人工智能有点交集&#xff0c;但是不能说预测对。 这次我们不预测了&#xff0c;而是让实力说话——邀请8个国产AI大模型参与一场别开生面的“边缘作文…

人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本 像ChatGPT这样的人工智能系统可能很快就会耗尽让它们变得更聪明的东西——人们在网上写下和分享的数万亿字。 Epoch AI研究集团发布的一项新研究预计&#xff0c;科技公司将在大约十年之交——2026年至203…

Spring--Bean的作用域,生命周期

Bean的作用域 Bean的作用域有很多种&#xff0c;在Spring Framework中支持6种&#xff08;其中有四种只有在web环境中才能生效&#xff09;&#xff0c;同时Spring还支持自定义Bean的范围。 Spring Framework中支持的6种范围&#xff1a; 作用域解释singleton每个Spring IoC…

【数学建模】微分方程的数值求解

微分方程的数值求解 一阶差分求解微分方程原理:四阶龙格-库塔方法应用:小船渡河问题: 进阶求二阶微分方程 一阶差分求解微分方程原理: d y d x f ( x n , y n ) \dfrac{dy}{dx}f(x_n,y_n) dxdy​f(xn​,yn​) y n 1 − y n x n 1 − x n f ( x n , y n ) \dfrac{y_{n1}-y_n…

React+TS前台项目实战(一)-- 项目初始化配置及开此系列的初衷

文章目录 前言一、初始化项目二、基础配置1. 项目目录及说明如下2. TS版本使用Craco需注意 总结 前言 前面 后台管理系统实战 系列教程暂时告一段落了&#xff0c;想了解全局各种配置的可自行查看。本次教程将重点介绍React前台项目的实操&#xff0c;关于具体的配置&#xff…

51单片机-数码管显示多个

目录 简介: 一. 简单全亮 二. 控制单个变化 三. 2024 书接上回 51单片机-数码管显示单个 http://t.csdnimg.cn/Ii6x0 简介: 51 单片机作为控制核心&#xff0c;可以与数码管相连接来实现数字的显示。 数码管通常有多个段&#xff0c;通过控制这些段的点亮和熄灭状态&…

弘君资本炒股技巧:银行降准对股票的影响?

银行降准会带动股票市场变得相对活泼起来&#xff0c;假如降准前股价在跌落状态&#xff0c;降准能够起到一定缓冲股价跌落的效果。 什么是降准&#xff1a;降准指的是减少银行在央行的存款准备金率&#xff0c;也便是说银行需求存放于央行的资金份额下降&#xff0c;银行能够…

Tensorflow2.10 完成图像分割任务

前言 图像分割在医学成像、自动驾驶汽车和卫星成像等方面有很多应用&#xff0c;本质其实就是图像像素分类任务&#xff0c;也就是使用深度学习模型为输入图像的每个像素分配一个标签&#xff08;或类&#xff09;。 准备 本文的准备如下&#xff0c;使用 pip 安装如下配置&…

动态内存管理<C语言>

导言 在C语言学习阶段&#xff0c;指针、结构体和动态内存管理&#xff0c;是后期学习数据结构的最重要的三大知识模块&#xff0c;也是C语言比较难的知识模块&#xff0c;但是“天下无难事”&#xff0c;只要认真踏实的学习&#xff0c;也能解决&#xff0c;所以下文将介绍动态…

成都石室中学学子游汶鑫展现新时代好少年风采 拾金不昧获表彰

在繁华的都市中,每天都有无数的故事在上演,而其中的一些故事,却以其独特的温暖和正能量,深深打动着我们的心灵。近日,成都石室中学初中学校的一名学生游汶鑫同学,就用他的实际行动,诠释了新时代好少年的风采,展现了中华民族传统美德在当代青少年身上的生动体现。 成都石室中学初…

# Mac下反编译微信小程序获得源码

Mac下反编译微信小程序获得源码 所需工具 mac版微信 最好3.8以上版本node环境wxappUnpacker wxappUnpacker: 小程序反编译(支持分包) 小程序反编译(支持分包) https://gitee.com/ksd/wxappUnpacker 大体步骤 用微信搜索打开对应小程序&#xff0c;为的是把产物文件加载到…

郑州小区火灾防范需重视:可燃气体报警器检测的日常管理与维护

近日&#xff0c;郑州市一小区发生了一起严重的火灾事故&#xff0c;这起事故不仅给遇难者家属带来了巨大悲痛&#xff0c;也再次引发了社会对于小区火灾防范与应急处理的关注。 在对此次事故进行深入分析的同时&#xff0c;我们不得不思考可燃气体报警器在小区火灾检测中的重…

选课清单--数据结构课程设计(十字链表+哈希表实现)

题目如上(九院版&#xff0c;被老师要求选这个题目做&#xff0c;不知道还有没有别的学校是这种题目&#xff0c;都可以相互借鉴hh) 代码写的有冗余&#xff0c;结构体应该有三个&#xff0c;一个学生&#xff0c;一个课程&#xff0c;一个十字链表的结构体&#xff0c;如果公…

如何有效处理服务器后台密码暴露

服务器后台密码的暴露是信息安全领域中的严重事件&#xff0c;它可能引发未经授权的数据访问、恶意软件植入或系统功能滥用等一系列问题。本文将探讨几种处理服务器后台密码暴露的有效策略&#xff0c;包括紧急响应步骤、密码安全增强措施及长期预防机制&#xff0c;并提供实际…

【LeetCode 第 401 场周赛】K秒后第 N 个元素的值

文章目录 1. K秒后第 N 个元素的值&#x1f197; 1. K秒后第 N 个元素的值&#x1f197; 题目链接&#x1f517; &#x1f427;解题思路&#xff1a; 前缀和 小规律&#x1f34e; &#x1f34e; 从上图观察可知&#xff0c;规律一目了然&#xff0c;arr[i] arr[i] 对上一…

【机器学习】基于3D CNN通过CT图像分类预测肺炎

1. 引言 1.1. 研究背景 在医学诊断中&#xff0c;医生通过分析CT影像来预测疾病时&#xff0c;面临一些挑战和局限性&#xff1a; 图像信息的广度与复杂性&#xff1a; CT扫描生成的大量图像对医生来说既是信息的宝库也是处理上的负担。每组CT数据可能包含数百张切片&#xf…

代码随想录算法训练营第36期DAY57

DAY57 今天的好消息&#xff1a;能去华五。 1143最长公共子序列 Code: class Solution {public: int longestCommonSubsequence(string text1, string text2) { vector<vector<int>> dp(text1.size()1,vector<int>(text2.size()1,0)); f…