python爬虫之xpath入门

文章目录

    • 一、前言
      • 参考文档:
    • 二、xpath语法-基础语法
      • 常用路径表达式
      • 举例说明
    • 三、xpath语法-谓语
      • 表达式举例
      • 注意
    • 四、xpath语法-通配符
      • 语法
      • 实例
    • 五、选取多个路径
      • 实例
    • 六、Xpath Helper
      • 安装
      • 使用说明
      • 例子:
    • 七、python中 xpath 的使用
      • 安装xpath 的依赖包
      • xml节点的获取
      • xpath解析 html内容
        • 1. 以读取 html文件的方式进行解析
        • 2、对 html的内容进行解析

一、前言

XPATH(XML Path Language),它可以在 XML 和 HTML文档中对元素和属性进行查找和遍历。

  1. XPath 使用路径表达式来选取 XML 文档中的节点或节点集。
  2. 这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常类似。
  3. 使用chrome 插件选择标签时候,选中时,选中的标签会添加属性class=“xh-highlight”

参考文档:

基础语法:https://www.w3school.com.cn/xpath/index.asp
python使用 xpath:https://blog.csdn.net/q1246192888/article/details/123649072

二、xpath语法-基础语法

常用路径表达式

表达式说明
nodename选取此节点的所有子节点
/绝对路径,如果写在最前面则从根节点选取,否则是当前节点下的子节点
//相对路径, 从匹配选择的当前节点下的直接或间接节点,而不考虑他们的位置。
.当前节点,类似于 linux 的当前目录
当前节点的父节点,类似与 linux 的上一级目录
text()一个开闭标签之间的文本内容
@某个节点标签内的属性

举例说明

  • footer: 获取 footer 节点下的所有子节点
  • /title: 根节点下所有title 标签
  • //div:根节点下所有的div 标签
  • ./div[@class=test-class].text():当前节点下,属性class=test-class的所有div 的文本内容
  • ./div[@id=test-id]…//a.text(): 当前节点下,属性id=test-id的div的 所有上一级a 标签的文本内容

三、xpath语法-谓语

可以根据标签的属性值、下标等来获取特定的节点

谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。

表达式举例

路径表达式结果
//title[@lang=“eng”]选择lang 属性值为 eng 的所有 title元素
//bookstore/book[1]选取属于 bookstore 子元素的第一个book 元素
//bookstore/book[last()]选取属于 bookstore子元素的最后一个 book 元素
//bookstore/book[last()-1]选取属于 bookstore 子元素的倒数第二个 book 元素
//bookstore/book[position()>1]选择所有 bookstore 下面的 book元素,从第二个开始选择
//book/title[text()=‘Harry Potter’]选择所有 book下的title元素,仅仅选择文本为 Harry Potter 的 title 元素
//div[@id=“test-div-1”]/span选择 id="test-div-1"下的 div下的所有 span 节点
/bookstore/book[price>35]/title选取 bookstore元素的所有 title节点,且其中的 price 子节点的值必须大于35
//div[@id=“test-container”]/span/@class找到 id="test-container"的div下 的 span节点的所有class的值
//span[i>2000]找到所有 span 节点,且其中的 i子节点的text()大于2000
//div[span[2]>=9.4]找到所有的 div 节点,且子节点中第二个 span 的text()内容大于9.4
//div[contains(@id,“test_div_”)]找到所有 div节点,且id包含了"test_div_"
//div[@class=“pagination”]//span[contains(text(),“下一页”)]先找到class="pagination"的 div,再找其子节点span,且文本内容包下一页

注意

  • 只要涉及到条件的加[],只要涉及到加属性值加@
  • 凡事 /text(),/@ 加在最后,是取值,取的是前面 标签的属性值
  • text(),@ 加在[]中,则是修饰符,表示使用标签的属性名或属性值 来筛选节点,
  • xpath 的索引下标是从1开始
  • 常用函数 text()取标签之间的文本,contains(属性,“内容”)表示某节点属性包含的内容

四、xpath语法-通配符

xpath 的通配符用来选取未知的 html/xml 元素

语法

通配符说明
*匹配任何的元素节点
@*匹配任何属性节点
node()匹配任何类型的节点

实例

路径表达式说明
/bookstore/*选取bookstore节点下的所有子节点
//*选取文档中的所有文档
//tittle[@*]选取所有带有属性的 title元素

五、选取多个路径

通过 xpath 的运算符|,选取多个路径,表示多个路径的并集

实例

路径表达式说明
//book/title | //book/price选取 book元素下的所有title和 price元素
//title | //price选取文档中的所有title和 price元素
/bookstore/book/title | //price选取属于 bookstore节点下 book 节点下的所有 title节点 以及文档中所有的 price 元素

六、Xpath Helper

Xpath Helper是一个免费的 chrom插件,是用来方便调试 xpath 用的,可以提高效率,由日本的一名程序员开发,只是目前只有外网可以访问。
我是使用了CMYNetwork加速器 VPN通道来进行安装。当然往上免费的也可以下载到。

扩展链接地址
注:VPN节点最好选择美国的节点

安装

在这里插入图片描述

使用说明

  • 打开一个任意网站,百度贴吧为例,https://tieba.baidu.com/p/8940673717
  • 可以在浏览器的右上角点击图标按钮,或按下 Ctrl+Shift+X快捷键(mac os 上是 Command+Shift+X)就可以开启 xpath helper,如下图
    左侧区域显示的是 xpath 语法来筛选,右侧区域就来显示效果。
    在这里插入图片描述
  • 查找某一个或某一块节点元素的 xpath,可以按 Shift键,将鼠标移动到指定节点元素的位置就可以看到xpath了
    在这里插入图片描述
  • 也可以在右键—>检查,选择具体的节点,然后右键—>Copy—>Copy Xpath
    在这里插入图片描述
    将 copy的xpath复制到 xpath helper的查询框,就可以看结果是否正确了
    在这里插入图片描述

例子:

  • 以查看人工智能贴吧的某一条内容为例子:
<!--查看 class="d_post_content_main"节点下的 id="post_content_149887537934"节点的内容-->
//div[@class="d_post_content_main"]//div[@id="post_content_149887537934"]

在这里插入图片描述

  • 查看分页
    如下是来查找分页的 下一页的href的链接值
//div[@id="thread_theme_5"]//ul[@class="l_posts_num"]//a[text()="下一页"]/@href

在这里插入图片描述

七、python中 xpath 的使用

安装xpath 的依赖包

pip install lxml

xml节点的获取

源码上 xml 解析的源码,https://gitee.com/allen-huang/python/blob/master/crawler/do-parse/test_xml_xpath.py

  • xml 文件的内容
<?xml version="1.0" encoding="UTF-8" ?>
<root>
    <head>
        <title>xml的 xpath 测试</title>
    </head>
    <bookstore>
        <book>
            <title lang="zh">图解 HTTP 协议</title>
            <price>59</price>
        </book>
        <book>
            <title lang="zh">网络爬虫开发实战</title>
            <price>139</price>
        </book>
    </bookstore>
</root>
  • xml的解析文本内容
def test_xml(self):
    tree = etree.parse('book.xml')
    # 获取 head 节点下的 title 节点的文本内容
    print(tree.xpath('head/title/text()'))

    # 获取 bookstore 节点下的 book 的内容
    for element in tree.xpath('//bookstore'):
        # 当前节点下的 book 节点的 title 节点的文本内容
        print(element.xpath('book/title/text()'))
        # 当前节点下的 book 节点的 price 节点的文本内容
        print(element.xpath('book/price/text()'))
    pass

在这里插入图片描述

  • xml的属性筛选
def test_xml_fromstring(self):
    """
    加载 xml 字符串,筛选属性的所有 title 的节点内容
    @return:
    """
    xml_str = """
    <root>
        <head>
            <title>xml的 xpath 测试</title>
        </head>
        <bookstore>
            <book>
                <title lang="zh">图解 HTTP 协议</title>
                <price>59</price>
            </book>
            <book>
                <title lang="zh">网络爬虫开发实战</title>
                <price>139</price>
            </book>
        </bookstore>
    </root>
    """
    tree = etree.fromstring(xml_str)
    title_nodes = tree.xpath("//title[@lang='zh']")
    for node in title_nodes:
        print(node.text)
    
    price_nodes = tree.xpath("//price")
    for node in price_nodes:
        print(node.text)
    pass

在这里插入图片描述

xpath解析 html内容

解析 html的内容的源码地址:https://gitee.com/allen-huang/python/blob/master/crawler/do-parse/test_html_xpath.py

1. 以读取 html文件的方式进行解析

文件也一同放在码云上,book.html
读取一个html文档,需要是标准的html,对于标签不全的html,就会报错,而HTML()会修复html的标签

  • html文件的结构
<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta http-equiv="content-type" content="text/html; charset=utf-8"/>
    <title>豆瓣阅读</title>
</head>
<body>
<div class="bookstore-container">
    <ul class="bookstore-list">
        <li id="book-1" class="bookstore-item">
            <a href="https://read.douban.com/reader/ebook/52497819/" class="bookstore-cover">
                <div class="bookstore-info">
                    <div class="title">Java高并发编程:多线程与架构设计</div>
                    <div class="author">王文君</div>
                    <div class="price">59.00</div>
                    <div class="score">8.7</div>
                    <div class="publisher">机械工业出版社</div>
                </div>
            </a>
        </li>
        <li id="book-2" class="bookstore-item">
            <a href="https://read.douban.com/reader/ebook/153139284/" class="bookstore-cover">
                <div class="bookstore-info">
                    <div class="title">Java高并发编程详情</div>
                    <div class="author">王文君</div>
                    <div class="price">55.00</div>
                    <div class="score">8.2</div>
                    <div class="publisher">机械工业出版社</div>
                </div>
            </a>
        </li>
        <li id="book-3" class="bookstore-item">
            <a href="https://read.douban.com/reader/ebook/128052544/" class="bookstore-cover">
                <div class="bookstore-info">
                    <div class="title">深入理解Java虚拟机:JVM高级特性与最佳实践(第3版)</div>
                    <div class="author">周志明</div>
                    <div class="price">99</div>
                    <div class="score">9.4</div>
                    <div class="publisher">机械工业出版社</div>
                </div>
            </a>
        </li>
    </ul>
</div>
</body>
</html>
  • 单元测试中的前置操作,设置共用对象
def setUp(self):
    """
    前置操作
    @todo 1.将一个html文件转化成html对象,etree.parse()默认只能读取一个标准的html文档,对于标签不全的html,需要加上etree.HTMLParser(),否则就会报错,
        而使用HTML()会修复html的标签
    @todo 2.将html字符串转化成html对象,并使用etree.HTML()读取
    @return:
    """
    # 从本地文件中读取 book.html 文档,并使用标准的html解析器
    self.html_load = etree.parse("book.html", etree.HTMLParser())
    # 这里在末尾特意少了一个</li>,用来测试,最后是否自动补全
    self.html_str = """
    <div class="fruits-container">
        <ul>
             <li class="item-0"><a href="apple.html">苹果</a></li>
             <li class="item-1"><a href="orange.html">"橘子"</a></li>
             <li class="item-inactive"><a href="banana.html"><span class="bold">香蕉</span></a></li>
             <li class="item-1"><a href="pear.html">香梨</a></li>
             <li class="item-0"><a href="strawberries.html">草莓</a></li>
             <li class="item-0"><a href="pineapple.html">菠萝</a>
         </ul>
     </div>
    """
    pass
  • 将 Element对象转为字符串
def test_tostring(self):
    """
    获取 html中的最外层的div标签
    @return:
    """
    html_div = self.html_load.xpath('//div[@class="bookstore-container"]')
    print(html_div)
    # 将 html对象转换成字符串是 bytes 类型,并且格式化输出,并进行解码
    print(etree.tostring(html_div[0], pretty_print=True, encoding="utf-8").decode())
    pass

在这里插入图片描述

  • 解析获取豆瓣读书的基本信息:

通过 xpath 将书的链接,书名,作者等存入到 mongodb 中

def test_load_file(self):
    """
    获取 html中所有的li标签
    @return:
    """
    html_li = self.html_load.xpath('//li[@class="bookstore-item"]')
    # 遍历 class="bookstore-item" 的所有li标签
    book_list = []
    for key, li in enumerate(html_li):
        # 获取当前li标签下的a标签的href属性
        url = li.xpath("./a/@href")
        # 获取当前li 标签下的 div=title的文本内容
        title = li.xpath(".//div[@class='title']/text()")
        # 获取当前 li 标签下的 div=author的文本内容
        author = li.xpath(".//div[@class='author']/text()")
        # 获取当前li 标签下的 div=price的文本内容
        price = li.xpath(".//div[@class='price']/text()")
        # 获取当前li 标签下的 div=score的文本内容
        score = li.xpath(".//div[@class='score']/text()")
        # 获取当前li 标签下的 div=publisher的文本内容
        publisher = li.xpath(".//div[@class='publisher']/text()")
        book_dict = {
            # "_id": key,  # 主键
            "url": Tools.get_list_element(url, 0),
            "title": Tools.get_list_element(title, 0),
            "author": Tools.get_list_element(author, 0),
            "price": Tools.get_list_element(price, 0),
            "score": Tools.get_list_element(score, 0),
            "publisher": Tools.get_list_element(publisher, 0)
        }
        book_list.append(book_dict)

    # 格式化打印数据
    pprint(book_list)

    # 将数据存入到 mongodb中
    res = MongoPool().test.bookstore.insert_many(book_list)
    print(res.inserted_ids)
  • 结果:
    在这里插入图片描述
  • mongo 的数据
    在这里插入图片描述
2、对 html的内容进行解析

这是直接使用 etree.HTML()进行分析,它一般是来解析来自远程响应的内容,并自带修复 html 标签的功能

  • html的结构
<div class="fruits-container">
    <ul>
         <li class="item-0"><a href="apple.html">苹果</a></li>
         <li class="item-1"><a href="orange.html">"橘子"</a></li>
         <li class="item-inactive"><a href="banana.html"><span class="bold">香蕉</span></a></li>
         <li class="item-1"><a href="pear.html">香梨</a></li>
         <li class="item-0"><a href="strawberries.html">草莓</a></li>
         <li class="item-0"><a href="pineapple.html">菠萝</a>
     </ul>
 </div>
  • 代码:
def test_parse_html(self):
    """
    使用 etree.HTML() 解析 html 文档
    etree.HTML() 会修复 html 标签,并且将 html 转化成 html 对象
    @return:
    """
    html = etree.HTML(self.html_str)
    print(etree.tostring(html, pretty_print=True, encoding="utf-8").decode())

    # 获取class=item-inactive的 标签最终的 text 内容
    text_list = html.xpath('//li[@class="item-inactive"]//text()')
    print(text_list)

    # 获取class=item-0 的最后一个标签的 text 内容
    itme0_last_text = html.xpath('//li[@class="item-0"][last()]//text()')
    print(itme0_last_text)

    # 获取class=item-1 的所有链接地址
    item1_href = html.xpath('//li[@class="item-1"]//a/@href')
    print(item1_href)

    # 查找所有class=bold 的标签,*所有标签
    bold_info = html.xpath('//*[@class="bold"]')
    # 将 bold_tag 转化成字符串
    print(etree.tostring(bold_info[0], pretty_print=True, encoding="utf-8").decode())
    print(bold_info[0].tag)
    pass

经过测试,打印出来的内容,自动补全为标准化 html
在这里插入图片描述
解析的结果:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/471305.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年 信息系统管理工程师(中级)

2024年信息系统管理工程师全套视频、历年真题及解析、历年真题视频解析、教材、模拟题、重点笔记等资料 1、2023、2022、2021、2020年全套教程精讲视频。 2、信息系统管理工程师历年真题及解析&#xff08;综合知识、案例分析&#xff09;、历年真题视频解析。 3、官方最新信…

有实际意义的伦敦金交易策略参考

一谈起有实际意义的伦敦金交易策略参考&#xff0c;很多人以为是讨论的是什么飞天遁地的技术&#xff0c;其实这些都是没有实际意义。对普通投资者来说&#xff0c;什么才是有实际意义的呢&#xff1f;那就是生存。要讨论实际有意义的伦敦金交易策略参考&#xff0c;就是投资者…

【赠书第21期】游戏力:竞技游戏设计实战教程

文章目录 前言 1 竞技游戏设计的核心要素 1.1 游戏机制 1.2 角色与技能 1.3 地图与环境 2 竞技游戏设计的策略与方法 2.1 以玩家为中心 2.2 不断迭代与优化 2.3 营造竞技氛围与社区文化 3 实战案例分析 4 结语 5 推荐图书 6 粉丝福利 前言 在数字化时代的浪潮中&…

ARM实验 LED流水灯

.text .global _start _start: 使能GPIOE GPIOF的外设时钟 RCC_MP_AHB4ENSETR的第[4][5]设置为1即可使能GPIOE GPIOF时钟 LDR R0,0X50000A28 指定寄存器地址 LDR R1,[R0] 将寄存器原来的数值读取出来&#xff0c;保存到R1中 ORR R1,R1,#(0x3<<4) 将第4位设置为1 S…

蓝桥杯需要掌握的几个案例(C/C++)

文章目录 蓝桥杯C/C组的重点主要包括以下几个方面&#xff1a;以下是一些在蓝桥杯C/C组比赛中可能会涉及到的重要案例类型&#xff1a;1. **排序算法案例**&#xff1a;2. **查找算法案例**&#xff1a;3. **数据结构案例**&#xff1a;4. **动态规划案例**&#xff1a;5. **图…

30天拿下Rust之错误处理

概述 在软件开发领域&#xff0c;对错误的妥善处理是保证程序稳定性和健壮性的重要环节。Rust作为一种系统级编程语言&#xff0c;以其对内存安全和所有权的独特设计而著称&#xff0c;其错误处理机制同样体现了Rust的严谨与实用。在Rust中&#xff0c;错误处理通常分为两大类&…

有没有好的视频素材网站官网?高清无水印素材下载

在这个数字化的时代&#xff0c;找到优质的素材对于创作者来说就像寻找一片绿洲一样重要。无论是个人项目还是专业作品&#xff0c;好的素材能够为作品增色不少。以下是我精选的一些素材网站&#xff0c;它们各具特色&#xff0c;提供从图片、视频到音效等多种素材&#xff0c;…

蓝桥杯练习03个人博客

个人博客 介绍 很多人都有自己的博客&#xff0c;在博客上面用自己的方式去书写文章&#xff0c;用来记录生活&#xff0c;分享技术等。下面是蓝桥云课的博客&#xff0c;但是上面还缺少一些样式&#xff0c;需要大家去完善。 准备 开始答题前&#xff0c;需要先打开本题的…

springboot284基于HTML5的问卷调查系统的设计与实现

问卷调查系统的设计与实现 摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理&#xff0c;然而&#xff0c;随着近些年信息技术的迅猛发展&#xff0c;让许多比较老套的信息管理模式进行了更新迭代&#xff0c;问卷信息因为其管理内容繁杂&#xff0c;管理数量繁多导…

2024年3月23日(星期六)骑行陡普鲁

2024年3月23日 (星期六&#xff09;骑行陡普鲁(春漫西翥千亩梨花节&#xff09;&#xff0c;早8:30到9:00&#xff0c;昆明氧气厂门口&#xff0c;9:30准时出发【因迟到者&#xff0c;骑行速度快者&#xff0c;可自行追赶偶遇。】 偶遇地点:昆明氧气厂门口集合 &#xff0c;家…

MySQL 多表关系(介绍) 一对多/多对多

一对多 举例介绍 例子: 部门与员工 在常理上来说: 一个部门有多个员工&#xff0c;一个员工只对应一个部门实现方式: 在多的一方建立外键&#xff0c;指向一的一方的主键 多对多 举例介绍 例子: 学生与课程 在常理上来说: 一个学生可以有多个课程,一门课程可以有多个学生实…

ideaSSM 工程车辆人员管理系统bootstrap开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 idea 开发 SSM 工程车辆人员管理系统是一套完善的信息管理系统&#xff0c;结合SSM框架和bootstrap完成本系统&#xff0c;对理解JSP java编程开发语言有帮助系统采用SSM框架&#xff08;MVC模式开发&#xff09;&#xff0c;系统具 有完整的源代码和数据库&…

10:00面试,10:06就出来了,问的问题有点变态。。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到8月一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40%…

Docker之大鲸鱼

什么是Docker&#xff1f; Docker 是一个开源的应用容器引擎&#xff0c;让开发者可以打包他们的应用以及依赖包到一个可移植的容器中&#xff0c;然后发布到任何流行的 Linux 机器上&#xff0c;也可以实现虚拟化。 Docker常见命令&#xff1f; docker run -d \--name mys…

qt5-入门-国际化

参考&#xff1a; Qt 国际化(上)_w3cschool https://www.w3cschool.cn/learnroadqt/fwkx1j4j.html QT5实现语言国际化&#xff08;中英文界面动态切换&#xff0c;超详细&#xff09;_qt qevent::languagechange-CSDN博客 https://blog.csdn.net/m0_49047167/article/details/…

fs方法举例

fs.readFile() 读取文件 const fs require(node:fs) const path require(node:path) const s path.resolve(__dirname, ./hello.txt) const buf fs.readFileSync(s) console.log(buf.toString())输出的Buffer对象 用toString()方法转字符串之后 fs.appendFile() 创建新…

[视觉基础知识]: img to bev # include bev seg

参考&#xff1a;https://towardsdatascience.com/monocular-birds-eye-view-semantic-segmentation-for-autonomous-driving-ee2f771afb59 有源传感器&#xff08;lidar or radar&#xff09;得到的数据&#xff0c;天然就是一种bev表示&#xff08;x-y平面&#xff09;&#…

伊理威科技:抖音店铺运营好做吗

在数字营销的浪潮中&#xff0c;抖音以其强大的用户基础和独特的算法推荐机制成为了众多商家眼中的“香饽饽”。然而&#xff0c;对于许多初涉此领域的商家来说&#xff0c;心中不免有这样的疑问&#xff1a;“抖音店铺运营好做吗?” 运营一个抖音店铺并非易事。它既需要创意的…

一次完整的 HTTP 请求所经历的步骤

1&#xff1a; DNS 解析(通过访问的域名找出其 IP 地址&#xff0c;递归搜索)。 2&#xff1a; HTTP 请求&#xff0c;当输入一个请求时&#xff0c;建立一个 Socket 连接发起 TCP的 3 次握手。如果是 HTTPS 请求&#xff0c;会略微有不同。 3&#xff1a; 客户端向服务器发…

深入理解Sora技术原理

OpenAI 发布的视频生成模型 Sora(https://openai.com/sora)&#xff0c;能根据文本生成长达一分钟的高质量视频&#xff0c;理论上支持任意分辨率&#xff0c;如 1920x1080 、1080x1920 &#xff0c;生成能力远超此前只能生成 25 帧 576x1024 图像的顶尖视频生成模型 Stable Vi…