【Python从入门到进阶】32、bs4的基本使用

接上篇《31、使用JsonPath解析淘票票网站地区接口数据》
上一篇我们介绍了如何使用JSONPath来解析淘票票网站的地区接口数据,本篇我们来学习BeautifulSoup的基本概念,以及bs4的基本使用。

一、BeautifulSoup简介

1、bs4基本概念

BeautifulSoup是一个Python库(简称“bs4”),用于从HTML或XML文件中提取数据。它的设计目标是使解析复杂的文档变得简单、快速,并提供一种便捷的方式来浏览和搜索文档树。

BeautifulSoup可以处理不规则标记、修复糟糕的HTML和提供简单的遍历和搜索功能。使用BeautifulSoup,可以通过标签名称、属性值和文本内容等条件来搜索文档元素,并提取所需的数据。

通过BeautifulSoup,可以轻松地提取文档中的数据,例如标题、段落、链接、表格等。您还可以通过遍历树状结构,定位某个特定元素、获取其属性值以及修改文档内容。

2、BeautifulSoup与lxml对比

(1)BeautifulSoup优点
简单易用,提供了简洁的API,使得从文档中提取数据变得容易。
支持多种解析器,包括标准库中的html.parser、lxml和xml等,具有较好的兼容性。可以处理不规则标记和修复糟糕的HTML,适用于实际应用中常见的网页解析任务。
(2)BeautifulSoup缺点
解析速度相对较慢,特别是在处理大型文档时可能会更明显。
功能相对较少,相比于专注于解析的库如lxml,功能选项较少。
(3)lxml优点
解析速度快,由于是C库的实现,处理大型文档效率高。
提供了丰富的功能选项,如XPath表达式、CSS选择器等,可以更精确地定位和提取数据。
(4)lxml缺点
相对于BeautifulSoup,使用起来稍微复杂一些,需要学习额外的功能和语法。
安装和配置可能需要一些额外的工作,尤其在某些平台和环境下。

综上所述,如果我们需要简单而易用的文档解析和数据提取,可以选择BeautifulSoup。如果您处理的是大量数据或复杂的文档结构,并且需要更高的解析速度和更多的功能选项,可以选择lxml。

二、bs4的安装及创建

使用BeautifulSoup需要先安装bs4库,然后导入相关模块。然后可以将HTML或XML文件传递给BeautifulSoup对象进行解析。解析后的文档将被转换成一个层次结构的树状对象,可以使用各种方法和属性来访问和操作这个树。示例代码:
注:首先要通过“pip install bs4”来安装bs4库。

# _*_ coding : utf-8 _*_
# @Time : 2023-08-20 17:48
# @Author : 光仔December
# @File : bs4基础联系
# @Project : Python_Projects

from bs4 import BeautifulSoup

# 要解析的HTML或XML文档
html_doc = """
<html>
<head>
    <title>示例网页</title>
</head>
<body>
    <h1>欢迎使用BeautifulSoup</h1>
    <p class="description">这是一个示例网页,用于演示BeautifulSoup的基本用法。</p>
    <ul>
        <li>列表项1</li>
        <li>列表项2</li>
        <li>列表项3</li>
    </ul>
</body>
</html>
"""

# 创建BeautifulSoup对象,并制定解析器(此处使用默认的html.parser)
soup = BeautifulSoup(html_doc, 'html.parser')

# 访问和操作解析后的文档树
title = soup.title # 获取标题元素
h1 = soup.h1 # 获取第一个<h1>元素
description = soup.find(class_="description") # 根据class属性查找<p>元素
list_items = soup.find_all('li') # 查找所有<li>元素

# 打印获取到的内容
print("标题:", title.text)
print("第一个<h1>元素:", h1.text)
print("描述段落:", description.text)
print("列表项:")
for item in list_items:
    print(item.text)

效果:

三、bs4的常用语法和操作

1、创建BeautifulSoup对象

使用BeautifulSoup函数可以将HTML或XML内容转换为BeautifulSoup对象。
语法:soup = BeautifulSoup(html_doc, 'html.parser')

2、标签选择器

使用标签名称可以直接选择对应的元素。
语法:soup.tag_name(选择第一个匹配到的标签)或 soup.find('tag_name')(选择所有匹配到的标签)。
第二层直接访问,如soup.a.name或soup.a.attrs。

3、属性选择器

使用标签名称和属性来选择元素。
语法:soup.find('tag_name', attrs={'attr_name': 'attr_value'})

4、CSS选择器

使用CSS选择器语法来选择元素。
语法:soup.select('css_selector')(返回所有匹配到的元素列表)

5、遍历文档树

使用.contents属性可以获取当前节点的所有子节点。
使用.parent属性可以访问当前节点的父节点。
使用.next_sibling和.previous_sibling属性可以访问当前节点的下一个兄弟节点和上一个兄弟节点。

6、获取元素内容

使用.text属性可以获取元素的文本内容。
使用.get('attribute_name')方法可以获取元素的特定属性值。

7、搜索文档树

使用.find()方法可以按条件查找第一个匹配的元素。
使用.find_all()方法可以查找所有匹配的元素。
可以通过标签名称、属性值、文本内容等条件进行搜索。

8、修改文档树

使用.replace_with(new_tag)方法可以替换当前节点为指定的新节点。
使用.append(new_tag)方法可以在当前节点末尾添加一个新节点。
使用.extract()方法可以将当前节点从文档树中移除。

以上是bs4的一些常用语法和操作,可以根据具体需求使用对应的方法和属性来解析、遍历和搜索HTML或XML文档树,并获取所需的数据。下面的示例代码演示了使用bs4常用的语法和操作来解析、遍历、搜索和修改包含更复杂HTML结构的文档树。通过逐个示例,大家可以了解如何使用不同的方法和属性来实现所需的功能:

# _*_ coding : utf-8 _*_
# @Time : 2023-08-20 18:06
# @Author : 光仔December
# @File : bs4基本语法练习
# @Project : Python_Projects

from bs4 import BeautifulSoup

# HTML文档
html_doc = """
<html>
<head>
    <title>示例网页</title>
</head>
<body>
    <h1>欢迎使用BeautifulSoup</h1>
    <div id="content">
        <p class="description">这是一个示例网页,用于演示BeautifulSoup的基本用法。</p>
        <ul>
            <li><a href="https://www.example.com">链接1</a></li>
            <li><a href="https://www.example.com">链接2</a></li>
            <li><a href="https://www.example.com">链接3</a></li>
        </ul>
        <table>
            <tr>
                <th>姓名</th>
                <th>年龄</th>
            </tr>
            <tr>
                <td>张三</td>
                <td>25</td>
            </tr>
            <tr>
                <td>李四</td>
                <td>30</td>
            </tr>
        </table>
    </div>
</body>
</html>
"""

# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')

# 标签选择器示例
title = soup.title
print("标题:", title.text)
h1 = soup.h1
print("第一个<h1>元素:", h1.text)

# 直接访问标签示例
a_tag = soup.a
print("a标签名称:", a_tag.name)
print("a标签属性:", a_tag.attrs)

# 属性选择器示例
description = soup.find('p', class_="description")
print("描述段落:", description.text)

# 搜索文档树示例
first_link = soup.find('a')
print("第一个链接地址:", first_link['href'])

# CSS选择器示例
links = soup.select('ul li a')
print("链接:")
for link in links:
    print(link.text)

# 遍历文档树示例
table = soup.table
rows = table.find_all('tr')
print("表格内容:")
for row in rows:
    cells = row.find_all('td')
    for cell in cells:
        print(cell.text)
    print()

# 修改文档树示例
replacement_tag = soup.new_tag('b')
replacement_tag.string = "新的加粗文本"
# 将p中间的字符串替换为新的加粗文本
description.string.replace_with(replacement_tag)

# 打印修改后的内容
print("更换后的描述段落:", soup.div.p)

效果:

至此,有关使用BeautifulSoup的基本介绍及语法示例就全部学习完毕,下一篇我们来使用BeautifulSoup来抓取星巴克的数据。

参考:尚硅谷Python爬虫教程小白零基础速通教学视频

转载请注明出处:https://guangzai.blog.csdn.net/article/details/132394556

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/81982.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

.Net Core 动态加载和卸载程序集

从 .Net Core 3.0开始支持程序集的加载和卸载&#xff0c;在 .Net FrameWork中使用独立的应用程序域来实现同样的功能&#xff0c;.Net Core 不支持创建多个应用程序域&#xff0c;所以无法使用多个应用程序域来实现程序集动态加载和卸载。 AssemblyLoadContext 程序集加载上下…

使用pnpm workspace管理Monorepo架构

在开发项目的过程中&#xff0c;我们需要在一个仓库中管理多个项目&#xff0c;每个项目有独立的依赖、脚手架&#xff0c;这种形式的项目结构我们称之为Monorepo&#xff0c;pnpm workspace就是管理这类项目的方案之一。 一、pnpm简介 1、pnpm概述 pnpm代表performance npm…

Docker容器:docker基础概述、安装、网络及资源控制

文章目录 一.docker容器概述1.什么是容器2. docker与虚拟机的区别2.1 docker虚拟化产品有哪些及其对比2.2 Docker与虚拟机的区别 3.Docker容器的使用场景4.Docker容器的优点5.Docker 的底层运行原理6.namespace的六项隔离7.Docker核心概念 二.Docker安装 及管理1.安装 Docker1.…

525. 连续数组

525. 连续数组 原题链接&#xff1a;完成情况&#xff1a;解题思路&#xff1a;参考代码&#xff1a; 原题链接&#xff1a; 525. 连续数组 https://leetcode.cn/problems/contiguous-array/description/ 完成情况&#xff1a; 解题思路&#xff1a; 参考代码&#xff1a; …

初出茅庐的小李博客之STM32CubeMx配置定时器的编码器模式

STM32CubeMx配置定时器的编码器模式 上次文章写了编码器是如何工作的&#xff0c;今天就来用STM32F103C8T6的TIM3的通道1跟通道2编写一个编码器识别程序。 编程思路&#xff1a; A相:TIM3_CH1 B相:TIM3_CH2 SWITCH:PB5&#xff08;外部中断的方式&#xff09; 实现效果&a…

基于Java/springboot铁路物流数据平台的设计与实现

摘要 随着科学技术的飞速发展&#xff0c;社会的方方面面、各行各业都在努力与现代的先进技术接轨&#xff0c;通过科技手段来提高自身的优势&#xff0c;铁路物流数据平台当然也不能排除在外&#xff0c;从文档信息、铁路设计的统计和分析&#xff0c;在过程中会产生大量的、各…

基于SpringCloud的会议室预约系统Java基于微服务的会议室报修系统【源码+lw】

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人七年开发经验&#xff0c;擅长Java、微信小程序、Python、Android、大数据等&#xff0c;大家有这一块的问题可以一起交流&#xff01; &#x1f495;&#x1f495…

Docker入门——实战图像分类

一、背景 思考&#xff1a; 在一个项目的部署阶段&#xff0c;往往需要部署到云服务器或者是终端设备上&#xff0c;而环境的搭建往往是最费时间和精力的&#xff0c;特别是需要保证运行环境一致性&#xff0c;有什么办法可以批量部署相同环境呢&#xff1f; Docker本质——…

Django模型基础

文章目录 一、models字段类型概述属性命名限制使用方式逻辑删除和物理删除常用字段类型 二、常用字段参数常用字段选项(通过字段选项&#xff0c;可以实现对字段的约束) 实践创建模型执行迁移命令 并 创建超级用户登录admin后台添加文件和图片字段定义模型字段和约束及在Admin后…

vscode如何汉化

首先我们到vscode官网下载 链接如下&#xff1a; Visual Studio Code - Code Editing. Redefined 根据自己需要的版本下载就好 下载并且安装完毕之后 运行vscode 然后按快捷键 CTRLSHIFTX 打开安装扩展界面 搜索简体中文 安装就可以了 谢谢大家观看

聊聊看React和Vue的区别

Vue 更适合小项目&#xff0c;React 更适合大公司大项目&#xff1b; Vue 的学习成本较低&#xff0c;很容易上手&#xff0c;但项目质量不能保证...... 真的是这样吗&#xff1f;借助本篇文章&#xff0c;我们来从一些方面的比较来客观的去看这个问题。 论文档的丰富性 从两个…

kubesphere 集成 sonar

文章目录 安装 helm通过 helm 安装 sonar配置 SonarQube 服务器创建 SonarQube 管理员令牌SonarQube 配置添加到 ks-installer创建 Webhook 服务器将 SonarQube 服务器添加至 Jenkins将 sonarqubeURL 添加到 KubeSphere 控制台重启服务 为新项目创建 SonarQube Token 官方文档&…

Hlang--用Python写个编程语言-函数与基本数据结构实现

文章目录 前言语法表述解析器修改词法解析函数节点函数节点解析List的解析实现解释器节点函数操作String和List处理总结前言 okey,经过一段时间的努力,接下来要实现的是函数。当然还有对应的基本数据结构,那么之后的话,我们的工作就开始进一步转换了。 那么在这块我们要实…

绘制原型图的常用工具之墨刀

&#x1f973;&#x1f973;Welcome Huihuis Code World ! !&#x1f973;&#x1f973; 接下来看看由辉辉所写的关于OA项目的相关操作吧 目录 &#x1f973;&#x1f973;Welcome Huihuis Code World ! !&#x1f973;&#x1f973; 一.墨刀是什么 二.墨刀的作用 三.墨刀界…

【ES6】—使用 const 声明

一、不属于顶层对象window 使用const关键字 声明的变量&#xff0c;不会挂载到window属性上 const a 5 console.log(a) console.log(window.a) // 5 // undefined二、不允许重复声明 使用const关键字不允许重复声明相同的变量 cosnt a 5 cosnt a 6 // Uncaught SyntaxEr…

自然语言处理技术:NLP句法解析树与可视化方法

自然语言处理(Natural Language Processing,NLP)句法解析树是一种表示自然语言句子结构的图形化方式。它帮助将句子中的每个词汇和短语按照语法规则连接起来,形成一个树状结构,以便更好地理解句子的语法结构和含义。句法解析树对于理解句子的句法关系、依存关系以及语义角…

【Android Framework系列】第11章 LayoutInflater源码分析

1 前言 本章节我们主要目目的是了解Activity的xml布局解析、对LayoutInfater源码进行分析。 我们知道Android界面上的每一个控件都是一个个View&#xff0c;但是Android也提供了通过xml文件来进行布局控制&#xff0c;那么xml布局文件如何转成最终的View的呢&#xff1f;转换利…

新版QQ NT 桌面版如何实现内存优化

一、背景 QQ 作为国民级应用,从互联网兴起就一直陪伴着大家,是很多用户刚接触互联网就开始使用的应用。而 QQ 桌面版最近一次技术架构升级还是在移动互联网兴起之前,在多年迭代过程中,QQ 桌面版也积累了不少技术债务,随着业务的发展和技术的进步,当前的架构已经无法很好…

Matplotlib数据可视化(一)

目录 1.Matplotlib简介 2.Matplotlib绘图基础 2.1 创建画布与子图 2.2 添加画布属性 2.3 绘图的保存与显示 1.Matplotlib简介 Matplotlib是一个用于绘制数据可视化图表的Python库。它提供了广泛的功能和灵活性&#xff0c;可以创建各种类型的图表&#xff0c;包括折线图、…

angular中如何定义一个全局组件?

需求&#xff0c;我们需要新建一个navBreadcrumb的全局组件。这是一个面包屑导航&#xff0c;在不同的页面引入时传入一个路由数组即可。 第一步&#xff1a;我们新建这个组件&#xff1a; ng g c navBreadcrumb ng g m navBreadcrumb----------nav-breadcrumb.module-------…