网络爬虫第1天之数据解析库的使用

一、正则表达式

正则表达式(Regular Expression 简称regex或regexp)是一种强大的文本处理工具,它可以帮助实现快速的检索、替换或验证字符串中的特定模式。

1、match

  match()方法会尝试从字符串开始的位置到字符结束的位置匹配正则表达式,如果匹配,返回匹配的结果,不匹配返回None。

import re
content = 'Hello 123456 welcome to tuling'
print(len(content))
result = re.match('Hello\s\d\d\d\s\d{3}\w{9}',content)
print(result)
print(result.group())
pritn(result.span())

# group()返回本正则匹配的字符串
# start()返回匹配开始的位置
# span()返回一个元组包含匹配(开始,结束)的位置
(1)匹配数字
import re
content = 'Hello 123456 welcome to tuling'
print(len(content))
result = re.match('Hello\s\d\d\d\s\d{3}\w{9}',content)
print(result)
print(result.group())
pritn(result.span())

# group()返回本正则匹配的字符串
# start()返回匹配开始的位置
# span()返回一个元组包含匹配(开始,结束)的位置
(2)通用匹配
import re

content = 'Hello 123 456 welcome to tuling'
result = re.match('^Hello\s(\d+)\swelcome',content)
print(result)
print(result.span())
(3)贪婪和非贪婪

python默认贪婪模式(匹配的更多)

在“*”,“?”,“+”,“{m,n}”后面加上?,使贪婪变成非贪婪

import re
concent = 'https://feier.com/yyds'
result1 = re.match('http.*?com/(.*?)',content)
result2 = re.match('http.*?com/(.*)',content)
print('result1:',result1.group()) #输出:result1: https://feier.com/
print('result2:',result2.group()) #输出:result2: https://feier.com/yyds
(4)修饰符

2、search

匹配时会扫描整个字符串,然后返回第一个匹配成功的结果,如果搜索完还没有找到,就返回None。

二、PyQuery

  PyQuery 是一个用于解析HTML和XML文档的Python库,它提供了与jQuery类似的语法,使得从文档中提取信息变得简单快捷。PyQuery 是基于lxmletree 库构建的,因此它速度很快,并且可以处理复杂的XML/HTML文档。

使用PyQuery具体步骤如下:

安装PyQuery

首先,你需要安装 PyQuery。通常可以通过pip来安装(使用国内阿里镜像源):

如果以后安装不想输入  -i Simple Index

可以配置pip.ini文件,具体步骤如下:https://mp.csdn.net/mp_blog/creation/editor/135030143

pip install pyquery -i http://mirrors.aliyun.com/pypi/simple/
使用PyQuery解析HTML

一旦安装了 PyQuery,你就可以开始使用它来解析HTML或XML了。下面是一个简单的例子:

在这个例子中,pq(html) 创建了一个 PyQuery 对象,然后我们使用CSS选择器 'p' 来查找所有的<p>标签。

from pyquery import PyQuery as pq

# 定义一个HTML字符串
html = """
<div>
    <p class="hello">Hello</p>
    <p class="world">World</p>
</div>
"""

# 创建PyQuery对象
d = pq(html)

# 查找所有的<p>标签
paragraphs = d('p')
for p in paragraphs.items():
    print(p.text())
    print(p)

#输出
'''
Hello
<p class="hello">Hello</p>
    
World
<p class="world">World</p>
'''
使用PyQuery从网络获取内容

PyQuery 也可以直接从网址或者文件加载内容,例如:

from pyquery import PyQuery as pq

# 从网址获取内容
d = pq(url='http://example.com/')

# 从文件获取内容
# d = pq(filename='path/to/your/file.html')

# 使用CSS选择器
h1 = d('h1').text()
print(h1)
# 输出 Example Domain
使用PyQuery进行更高级的选择和操作

PyQuery 支持多种CSS选择器和各种操作,例如:

from pyquery import PyQuery as pq

html = """
<ul>
    <li class="item-0">item 1</li>
    <li class="item-1 active"><a href="link2.html">item 2</a></li>
    <li class="item-0" id="unique-item"><a href="link3.html">item 3</a></li>
    <li class="item-1 active"><a href="link4.html">item 4</a></li>
    <li class="item-0">item 5</li>
</ul>
"""

d = pq(html)

# 查找第一个li元素
first_li = d('li:first')
print(first_li.text())

# 查找ID为"unique-item"的元素
unique_item = d('#unique-item')
print(unique_item.text())

# 找到所有 class 包含 active 的 li 元素
active_items = d('li.active')
for item in active_items.items():
    print(item.text())

# 查找 href 为 "link3.html" 的 a 元素的父元素
parent_li = d('a[href="link3.html"]').parent()
print(parent_li.attr('class'))

'''
输出:
item 1
item 3
item 2
item 4
item-0
'''

PyQuery 的强大功能使其成为处理复杂HTML/XML文档时的一个良好选择,尤其对于那些已经熟悉jQuery语法的开发者。

三、Xpath

XPath(XML Path Language)是一种在XML和HTML文档中查找信息的语言。它使用路径表达式来选取文档中的节点或节点集。XPath 由 W3C 作为一个标准发布,被广泛应用于各种XML解析和处理技术中,比如在XSLT(Extensible Stylesheet Language Transformations)中选取数据,或者在Python的lxml库中解析HTML文档。

插件下载:https://chorme.zzzmh.cn/index

XPath 语法允许你指定文档的结构,以便精确选取出你想要的节点,比如元素、属性、文本等。一些基本的XPath选择器包括:

  • nodename: 选取此节点的所有子节点。
  • /: 从根节点选取。
  • //: 从匹配选择的当前节点选择文档中的节点,不考虑它们的位置。
  • .: 选取当前节点。
  • ..: 选取当前节点的父节点。
  • @: 选取属性。

例子

下面是一些XPath表达式的例子及其描述:

  • /bookstore: 选取根元素bookstore。只有bookstore元素才能被选取。
  • bookstore/book: 选取属于bookstore子元素的所有book元素。
  • //book: 选取所有book子元素,而不管它们在文档中的位置。
  • bookstore//book: 选取属于bookstore元素的后代的所有book元素,而不管它们位于bookstore下的什么位置。
  • //@lang: 选取名为lang的所有属性。

在Python中,可以使用lxml库来执行XPath查询。下面是如何使用lxml和XPath来解析HTML文档的一个例子:

from lxml import etree

# 假设我们有以下HTML文档
html_content = """
<html>
  <body>
    <div id="content">
      <ul id="list">
        <li>Item 1</li>
        <li>Item 2</li>
        <li>Item 3</li>
      </ul>
      <div class="footer">Footer information</div>
    </div>
  </body>
</html>
"""

# 解析HTML内容
tree = etree.HTML(html_content)

# 使用XPath选取所有的<li>元素
items = tree.xpath('//li')
for item in items:
    print(item.text)  # 输出: Item 1, Item 2, Item 3

# 使用XPath选取id为"list"的<ul>元素下的所有子节点
list_items = tree.xpath('//ul[@id="list"]/li')
for item in list_items:
    print(item.text)  # 输出: Item 1, Item 2, Item 3

# 使用XPath获取class为"footer"的div的文本
footer = tree.xpath('//div[@class="footer"]/text()')[0]
print(footer)  # 输出: Footer information

在上述例子中,我们使用lxml.etree.HTML函数将HTML字符串解析为一个元素树,然后利用xpath方法来执行XPath查询。这是在Python中进行XML和HTML文档处理时的一种常见做法。

四、Beautiful Soup

Beautiful Soup是一个用于从HTML和XML文件中提取数据的Python库。它创建了一个解析树,这便于开发者能够轻松地搜索和修改解析树。Beautiful Soup自动将输入文档转换为Unicode编码,并输出有效的HTML/XML。它适用于多种解析器,如Python标准库中的html.parserlxmlhtml5lib

安装 Beautiful Soup

首先,你需要安装Beautiful Soup库,通常可以通过pip来安装:

pip install beautifulsoup4

使用 Beautiful Soup 解析HTML

安装完成后,你就可以开始使用Beautiful Soup来解析HTML了。下面是一些基本用法的例子:

from bs4 import BeautifulSoup

# 定义一个HTML字符串
html_doc = """
<html>
<head>
    <title>The Dormouse's story</title>
</head>
<body>
    <p class="title"><b>The Dormouse's story</b></p>

    <p class="story">Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
    and they lived at the bottom of a well.</p>

    <p class="story">...</p>
</body>
</html>
"""

# 创建一个Beautiful Soup对象
soup = BeautifulSoup(html_doc, 'html.parser')

# 获取<title>标签的内容
title_tag = soup.title
print(title_tag)  # 输出: <title>The Dormouse's story</title>
print(title_tag.string)  # 输出: The Dormouse's story

# 查找文档中所有的<a>标签
a_tags = soup.find_all('a')
for tag in a_tags:
    # 输出每个<a>标签的href属性
    print(tag.get('href'))

# 查找文档中所有类属性为"sister"的<a>标签
sisters = soup.find_all('a', class_='sister')
for sister in sisters:
    # 输出sister的文本内容
    print(sister.string)

在这个例子中,我们使用了BeautifulSoup(html_doc, 'html.parser')来创建一个Beautiful Soup对象。然后我们使用了.title来获取标题标签和.find_all()方法来获取所有的<a>标签。

使用不同的解析器

Beautiful Soup支持不同的解析器,这里是如何选择解析器的例子:

  • html.parser: 使用Python内置的HTML解析器。
  • lxml: 使用lxml的HTML解析器。
  • lxml-xml: 使用lxml的XML解析器。
  • html5lib: 使用html5lib解析器,它会像浏览器一样解析HTML。
# 使用lxml解析器来创建Beautiful Soup对象
soup = BeautifulSoup(html_doc, 'lxml')

# 其他用法与html.parser相同

请注意,使用lxmlhtml5lib可能需要你先安装这些库(可以使用pip安装)。

pip install lxml
pip install html5lib

Beautiful Soup库在爬虫和数据挖掘中非常有用,因为它可以轻松处理网页中的复杂元素和嵌套。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/252934.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JS中浅拷贝和深拷贝

本篇文章咱们一起来学习下JS中的浅拷贝和深拷贝&#xff0c;了解它们在内存上的区别&#xff0c;并掌握浅拷贝和深拷贝的常用实现方法。 引用赋值 在学习拷贝之前&#xff0c;咱们先来看一个常见的情景&#xff0c;如下图&#xff1a; 大家觉得这是深拷贝还是浅拷贝&#xff0…

gitee gihub上传步骤

上传 1. 到具体要上传的文件目录 2. 右击git Bash Here 初始化仓库&#xff1a;git init 3. 添加文件 添加所有文件 : git add . &#xff08;注意这里有个点&#xff09;添加具体文件&#xff1a; git add test.md 4. 添加到暂存区 git commit -m 暂存区 5. 将本地代…

深入解析HashMap数据结构及其应用

目录 引言 1. HashMap简介 2. 哈希表的基本原理 3. HashMap的内部结构 4. 哈希冲突的处理 5. HashMap的常见操作 6. HashMap的性能优化 7. 实际应用场景 结论 引言 在计算机科学中&#xff0c;数据结构是构建和组织数据的一种方式&#xff0c;而HashMap是其中一种常用…

Wiley将废除OA期刊“Hindawi”,MDPI、Frontier系列OA期刊将受巨大影响

公众号&#xff1a;生信漫谈&#xff0c;获取最新科研信息&#xff01; Wiley将废除OA期刊“Hindawi”&#xff0c;MDPI、Frontier系列OA期刊将受巨大影响https://mp.weixin.qq.com/s/w1QvXnHHDV04gbABUxo3kA 周三上午&#xff0c;知名国际出版商Wiley在财报电话会议上宣布&a…

Java小案例-RocketMQ的11种消息类型,你知道几种?(请求应答消息)

前言 Rocket的请求应答消息是指在使用Rocket&#xff08;这里可能是RocketMQ或者Rocket框架&#xff09;进行通信时&#xff0c;客户端发送一个请求到服务端&#xff0c;然后服务端处理该请求并返回一个响应的过程中的数据交换。 在RocketMQ中&#xff1a; 请求应答消息通常…

代码随想录算法训练营Day4 | 24.两两交换链表中的节点、19.删除链表的倒数第 N 个节点、面试题. 链表相交、142.环形链表II

LeetCode 24 两两交换链表中的节点 本题要注意的条件&#xff1a; 遍历终止条件改变引用指向的时候&#xff0c;需要保存一些节点记录 为了更好的操作链表&#xff0c;我定义了一个虚拟的头节点 dummyHead 指向链表。如下图所示 既然要交换链表中的节点&#xff0c;那么肯定…

在线学习平台,云课堂云教育类网站源码,在线题库+随身携带的刷题神器+视频安装教程

源码介绍 在线题库&#xff1a;由传统的线下学习模式改为在线学习。能够实现学员在线学习、练习、考试 优点&#xff1a;方便、便宜、自我管理、选择性更多 、成人教育 &#xff08;1&#xff09;公考&#xff1a;国考、省考、事业单位… &#xff08;2&#xff09;升学&…

9. DashBoard

9. DashBoard 文章目录 9. DashBoard9.1 部署Dashboard9.2 使用DashBoard 在kubernetes中完成的所有操作都是通过命令行工具kubectl完成的。 为了提供更丰富的用户体验&#xff0c;kubernetes还开发了一个基于web的用户界面&#xff08;Dashboard&#xff09;。 用户可以使用…

在Windows上通过VS2019自带的Cmake来编译OpenCV-4.5.3源码

文章目录 用VS打开OpenCV源码cmake的配置及生成操作生成及安装 用VS打开OpenCV源码 方式一&#xff1a;文件–》打开–》Cmake 找到源码根目录下CMakeLists.txt文件 导入即可。 方式二&#xff1a;在开始使用这里 选择 打开本地文件夹 找到源码的根目录&#xff0c;导入即可…

「斗罗二」七怪大赛1击穿12,蝶神斩打爆人面魔蛛,二代七怪诞生

Hello,小伙伴们&#xff0c;我是拾荒君。 《斗罗大陆Ⅱ绝世唐门》第27集的更新&#xff0c;为我们带来了激烈的二代七怪竞选大赛的精彩瞬间。在这一集中&#xff0c;新一代史莱克七怪的表现尤为出色&#xff0c;他们面对的挑战也愈发艰难。 比赛进行得如火如荼&#xff0c;贝贝…

[ 云计算 | Azure 实践 ] 在 Azure 门户中创建 VM 虚拟机并进行验证

文章目录 一、前言二、在 Azure Portal 中创建 VM三、验证已创建的虚拟机资源3.1 方法一&#xff1a;在虚拟机服务中查看验证3.1 方法二&#xff1a;在资源组服务中查看验证 四、文末总结 一、前言 本文会开始创建新系列的专栏&#xff0c;专门更新 Azure 云实践相关的文章。 …

linux日志管理_日志轮转logrotate

10.2 日志轮转logrotate 10.2.1 简介 日志&#xff1a;记录了程序运行时各种信息。通过日志可以分析用户行为&#xff0c;记录运行轨迹&#xff0c;查找程序问题。 ​ 但由于磁盘的空间是有限的&#xff0c;日志轮转就像飞机里的黑匣子&#xff0c;记录的信息再重要也只能记录…

flume系列之:监控flume agent channel的填充百分比

flume系列之:监控flume agent channel的填充百分比 一、监控效果二、获取flume agent三、飞书告警四、获取每个flume agent channel的填充百分比一、监控效果 二、获取flume agent def getKafkaFlumeAgent():# 腾讯云10.130.112.60zk = KazooClient(hosts

【案例】--“特别抢购”案例

目录 一、案例背景二、技术方案思路三、技术方案具体设计3.1、表设计3.2、Java代码实现一、案例背景 A公司向供应商B公司买了一套软件产品。B公司的这套产品有多个应用系统服务【如appId1、appId2、appId3】,每个应用都有各自的业务应用场景,但都需要管理文档,那么就需要磁…

Linux驱动(中断、异步通知):红外对射,并在Qt StatusBus使用指示灯进行显示

本文工作&#xff1a; 1、Linux驱动与应用程序编写&#xff1a;使用了设备树、中断、异步通知知识点&#xff0c;实现了红外对射状态的异步信息提醒。 2、QT程序编写&#xff1a;自定义了一个“文本指示灯”类&#xff0c;并放置在QMainWidget的StatusBus中。 3、C与C混合编程与…

C++:函数重载

1.函数重载概念 函数重载就是用同一个函数名定义的不同函数&#xff0c;当函数名和不同的参数搭配时函数的功能和含义不同。 2.实现函数重载的条件 同一个作用域&#xff0c;参数个数不同或者参数类型不同或者参数顺序不同(满足一个即可) void func(){} void func(int x){} v…

55 代码审计-JAVA项目注入上传搜索或插件挖掘

目录 必备知识点演示案例:简易Demo段SQL注入及预编译IDEA审计插件FindBugs安装使用Fortify_SCA代码自动审计神器使用Ofcms后台SQL注入-全局搜索关键字Ofcms后台任意文件上传-功能点测试 涉及资源&#xff1a; 我们一般针对java项目&#xff0c;进行漏洞分析的话&#xff0c;主要…

SolidWorks二次开发 C#-读取基于Excel的BOM表信息

SolidWorks二次开发 C#-读取基于Excel的BOM表信息 问题点来源解决方案及思路相关引用链接 问题点来源 这是一位粉丝问的一个问题&#xff0c;他说到: 老师&#xff0c;请问Solidworks二次开发工程图中"基于Excel的材料明细表"怎么读取里面的数据&#xff1f; Ps:这…

风速预测(五)基于Pytorch的EMD-CNN-LSTM模型

目录 前言 1 风速数据EMD分解与可视化 1.1 导入数据 1.2 EMD分解 2 数据集制作与预处理 2.1 先划分数据集&#xff0c;按照8&#xff1a;2划分训练集和测试集 2.2 设置滑动窗口大小为96&#xff0c;制作数据集 3 基于Pytorch的EMD-CNN-LSTM模型预测 3.1 数据加载&…

「Verilog学习笔记」流水线乘法器

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点&#xff0c;刷题网站用的是牛客网 timescale 1ns/1nsmodule multi_pipe#(parameter size 4 )(input clk , input rst_n ,input [size-1:0] mul_a ,input [size-1:0] mul_b ,output …