Python Beautiful Soup 使用详解

        大家好,在网络爬虫和数据抓取的领域中,Beautiful Soup 是一个备受推崇的 Python 库,它提供了强大而灵活的工具,帮助开发者轻松地解析 HTML 和 XML 文档,并从中提取所需的数据。本文将深入探讨 Beautiful Soup 的使用方法和各种功能,希望能给大家带来一些帮助。

一、Beautiful Soup介绍

        Beautiful Soup 是一个 Python 库,用于解析 HTML 和 XML 文档,并提供简单而直观的 API 来遍历文档树、搜索元素、提取内容等。它的名字取自于《爱丽丝梦游仙境》中的一段描写:“来吧,让我们到美丽的汤中一起吃面包吧!”正如这句话所暗示的那样,Beautiful Soup 让我们可以轻松地“吃掉”网页中的内容。

应用场景:

  1. 网络爬虫和数据抓取:Beautiful Soup 可以轻松地解析网页 HTML 或 XML 文档,并从中提取所需的数据,用于构建网络爬虫和进行数据抓取。

  2. 数据分析和挖掘:通过解析网页中的结构化数据,Beautiful Soup 可以帮助开发者进行数据分析和挖掘,发现数据之间的关系和规律。

  3. 网页内容提取:Beautiful Soup 可以提取网页中的各种内容,包括文本、链接、图片、表格等,用于构建内容提取系统和网页分析工具。

  4. 自动化测试:Beautiful Soup 可以用于自动化测试框架中,帮助测试人员解析网页内容、验证数据正确性,进行网页元素抓取等操作。

  5. 网页数据转换:通过解析网页内容,Beautiful Soup 可以将网页数据转换为其他格式,如 JSON、CSV 等,用于数据导出和数据转换。

优点:

  1. 简单易用:Beautiful Soup 提供了简单而直观的 API,易于学习和使用,不需要深入了解 HTML 和 XML 的结构。

  2. 功能丰富:Beautiful Soup 支持解析 HTML 和 XML 文档、文档树遍历、元素搜索、内容提取等功能,满足各种数据抓取和分析需求。

  3. 解析速度快:使用第三方解析器(如 lxml)可以提高解析速度,适用于大规模数据抓取和分析。

  4. 灵活性强:Beautiful Soup 支持多种解析器和定制化配置,可以根据具体需求进行灵活选择和调整。

缺点:

  1. 解析效率低:相比于一些专门的解析库(如 scrapy),Beautiful Soup 的解析效率相对较低,不适合处理大规模的数据抓取任务。

  2. 不支持异步解析:Beautiful Soup 不支持异步解析,无法充分利用异步编程模型的优势,可能影响程序的性能和并发能力。

  3. 功能相对有限:虽然 Beautiful Soup 提供了丰富的功能和 API,但相比于一些专门的数据分析工具(如 pandas),其功能相对有限,不适合进行复杂的数据处理和分析。

        总的来说,Beautiful Soup 是一个功能强大、简单易用的 HTML 和 XML 解析库,适用于各种数据抓取和数据分析场景,但在处理大规模数据和需要高性能的场景下可能存在一些限制。

二、安装 Beautiful Soup

可以使用 pip 命令来安装 Beautiful Soup:

pip install beautifulsoup4

三、解析器

        解析器是 Beautiful Soup 中用于解析 HTML 或 XML 文档的核心组件。Beautiful Soup 支持多种解析器,包括 Python 标准库的解析器以及第三方解析器,如 lxml 和 html5lib。每种解析器都有其特点和适用场景,可以根据自己的需求选择合适的解析器。

1、Python 标准库解析器(html.parser)

        Python 标准库中的 html.parser 是一个基于 Python 实现的简单解析器,速度适中,解析速度不如 lxml,但通常足够应付一般的解析任务。它不需要安装额外的库,是 Beautiful Soup 的默认解析器。

from bs4 import BeautifulSoup

# 使用 Python 标准库解析器
soup = BeautifulSoup(html_doc, 'html.parser')

2、第三方解析器(lxml)

        lxml 是一个非常快速且功能强大的 XML 解析器,它基于 libxml2 和 libxslt 库,支持 XPath 查询和 CSS 选择器,解析速度比 Python 标准库的解析器更快,通常推荐在性能要求较高的场景中使用。

from bs4 import BeautifulSoup

# 使用 lxml 解析器
soup = BeautifulSoup(html_doc, 'lxml')

3、第三方解析器(html5lib)

        html5lib 是一个基于 HTML5 规范的解析器,它会根据 HTML5 规范解析文档,支持最新的 HTML5 元素和属性,解析结果更加准确和稳定。但是,html5lib 的解析速度比较慢,通常在需要最高准确性和稳定性的情况下使用。

from bs4 import BeautifulSoup

# 使用 html5lib 解析器
soup = BeautifulSoup(html_doc, 'html5lib')

4、如何选择解析器

        我们在选择解析器时,需要考虑解析速度、内存占用、准确性和稳定性等因素。一般来说,如果对解析速度要求较高,可以选择 lxml 解析器;如果对准确性和稳定性要求较高,可以选择 html5lib 解析器;如果只是进行简单的数据抓取,可以使用 Python 标准库解析器。

四、文档树遍历

        文档树遍历是 Beautiful Soup 中常用的操作之一,它允许以树形结构遍历 HTML 或 XML 文档,访问文档中的各个节点、子节点、父节点等。

1、访问节点

文档树中的每个元素都是一个节点,可以通过直接访问节点来获取元素的标签名、属性等信息。

# 获取文档树的根节点
root = soup.html

# 获取节点的标签名
print("Tag name:", root.name)

# 获取节点的属性
print("Attributes:", root.attrs)

2、遍历子节点

可以使用 .children 属性来遍历节点的子节点,它返回一个生成器,用于逐个访问子节点。

# 遍历子节点
for child in root.children:
    print(child)

3、遍历子孙节点

可以使用 .descendants 属性来遍历节点的所有子孙节点,包括子节点、子节点的子节点等。

# 遍历子孙节点
for descendant in root.descendants:
    print(descendant)

4、访问父节点和祖先节点

可以使用 .parent 属性来访问节点的父节点,使用 .parents 属性来遍历节点的所有祖先节点。

# 访问父节点
parent = root.parent

# 遍历祖先节点
for ancestor in root.parents:
    print(ancestor)

5、查找兄弟节点

可以使用 .next_sibling.previous_sibling 属性来访问节点的下一个兄弟节点和上一个兄弟节点。

# 访问下一个兄弟节点
next_sibling = root.next_sibling

# 访问上一个兄弟节点
previous_sibling = root.previous_sibling

五、搜索元素

        搜索元素是 Beautiful Soup 中非常常用的功能之一,它允许根据特定的条件来查找文档中的元素,并提取所需的内容。

1、使用标签名搜索

可以使用标签名来搜索文档中的元素,通过指定标签名,可以获取所有匹配的元素。

# 使用标签名搜索
soup.find_all('div')  # 查找所有 div 元素

2、使用 CSS 类名搜索

可以使用 CSS 类名来搜索文档中的元素,通过指定类名,可以获取所有具有指定类名的元素。

# 使用 CSS 类名搜索
soup.find_all(class_='class-name')  # 查找所有具有指定类名的元素

3、使用 id 搜索

可以使用 id 来搜索文档中的元素,通过指定 id,可以获取具有指定 id 的元素。

# 使用 id 搜索
soup.find_all(id='content')  # 查找具有指定 id 的元素

4、使用正则表达式搜索

Beautiful Soup 还支持使用正则表达式来搜索文档中的元素,通过指定正则表达式,可以匹配符合条件的元素。

import re

# 使用正则表达式搜索
soup.find_all(re.compile('^b'))  # 查找所有以 'b' 开头的元素

5、搜索嵌套元素

可以通过在搜索方法中传入多个条件来搜索嵌套元素,这样可以更精确地定位到目标元素。

# 搜索嵌套元素
soup.find_all('div', class_='class-name')  # 查找所有 class 为 class-name 的 div 元素

6、限制搜索结果数量

可以通过 limit 参数来限制搜索结果的数量,这样可以节省内存和提高搜索速度。

# 限制搜索结果数量
soup.find_all('a', limit=10)  # 查找前 10 个 a 元素

六、提取内容

        提取内容是 Beautiful Soup 中的核心功能之一,它允许从 HTML 或 XML 文档中提取出所需的信息和内容。

1、提取文本内容

可以使用 .get_text() 方法来提取元素的文本内容,这将返回元素及其子孙节点中的所有文本内容,并将它们合并为一个字符串。

# 提取文本内容
text_content = soup.get_text()
print(text_content)

2、提取链接

可以使用 .get('href') 方法来提取链接元素(如 <a> 标签)的链接地址。

# 提取链接
for link in soup.find_all('a'):
    print(link.get('href'))

3、提取图片链接

可以使用 .get('src') 方法来提取图片元素(如 <img> 标签)的链接地址。

# 提取图片链接
for img in soup.find_all('img'):
    print(img.get('src'))

4、提取属性值

可以使用 .get() 方法来提取元素的任意属性值,包括标签的 class、id 等属性。

# 提取属性值
for element in soup.find_all('div'):
    print(element.get('class'))

5、提取特定标签的内容

可以通过搜索特定的标签来提取其内容,例如提取所有 <p> 标签的文本内容。

# 提取特定标签的内容
for paragraph in soup.find_all('p'):
    print(paragraph.get_text())

6、提取表格内容

可以通过搜索 <table> 标签并遍历其中的 <tr><td> 标签来提取表格中的内容。

# 提取表格内容
for table in soup.find_all('table'):
    for row in table.find_all('tr'):
        for cell in row.find_all('td'):
            print(cell.get_text())

七、修改文档

        修改文档是 Beautiful Soup 中的重要功能之一,它允许对解析后的文档树进行各种修改操作,包括添加、删除、修改元素和属性等。

1、添加元素

可以使用 .new_tag() 方法创建一个新的元素,然后使用 .append() 方法将其添加到文档中。

# 创建新的元素
new_tag = soup.new_tag('div')
new_tag.string = 'New content'

# 将新元素添加到文档中
soup.body.append(new_tag)

2、删除元素

可以使用 .decompose() 方法来删除文档中的元素,将其从文档树中移除。

# 查找需要删除的元素
tag_to_delete = soup.find(id='content')

# 删除元素
tag_to_delete.decompose()

3、修改属性

可以通过修改元素的属性来改变元素的外观和行为,例如修改元素的 class、id 等属性。

# 查找需要修改属性的元素
tag_to_modify = soup.find('a')

# 修改属性
tag_to_modify['href'] = 'http://www.example.com'

4、替换元素

可以使用 .replace_with() 方法来替换文档中的元素,将一个元素替换为另一个元素。

# 创建新的元素
new_tag = soup.new_tag('span')
new_tag.string = 'Replacement content'

# 查找需要替换的元素
tag_to_replace = soup.find(id='old-content')

# 替换元素
tag_to_replace.replace_with(new_tag)

5、插入元素

可以使用 .insert() 方法在文档中插入元素,将新元素插入到指定位置。

# 创建新的元素
new_tag = soup.new_tag('div')
new_tag.string = 'Inserted content'

# 查找需要插入元素的位置
target_tag = soup.find(class_='container')

# 插入元素
target_tag.insert(0, new_tag)  # 在指定位置插入元素

八、示例

from bs4 import BeautifulSoup

# HTML 文档内容
html_doc = """
<html>
<head>
    <title>Example HTML Page</title>
</head>
<body>
    <h1 class="heading">Beautiful Soup Example</h1>
    <p>Welcome to <strong>Beautiful Soup</strong>!</p>
    <a href="http://www.example.com">Example Link</a>
    <a href="http://www.example.com/page1">Page 1</a>
    <a href="http://www.example.com/page2">Page 2</a>
    <div id="content">
        <p>This is some content.</p>
    </div>
</body>
</html>
"""

# 创建 Beautiful Soup 对象并指定解析器
soup = BeautifulSoup(html_doc, 'html.parser')

# 1. 解析器
print("解析器:", soup.builder.NAME)

# 2. 文档树遍历
print("\n文档树遍历:")
# 遍历子节点
for child in soup.body.children:
    print(child)
# 遍历子孙节点
for descendant in soup.body.descendants:
    print(descendant)

# 3. 搜索元素
print("\n搜索元素:")
# 使用标签名搜索
heading = soup.find('h1')
print("标签名:", heading.name)
# 使用 CSS 类名搜索
heading = soup.find(class_='heading')
print("CSS 类名:", heading.name)
# 使用 id 搜索
content_div = soup.find(id='content')
print("id:", content_div.name)
# 使用正则表达式搜索
for tag in soup.find_all(re.compile('^a')):
    print("正则表达式:", tag.name)

# 4. 提取内容
print("\n提取内容:")
# 提取文本内容
text_content = soup.get_text()
print("文本内容:", text_content)
# 提取链接
for link in soup.find_all('a'):
    print("链接:", link.get_text(), link.get('href'))
# 提取图片链接
for img in soup.find_all('img'):
    print("图片链接:", img.get('src'))

# 5. 修改文档
print("\n修改文档:")
# 添加元素
new_tag = soup.new_tag('div')
new_tag.string = 'New content'
soup.body.append(new_tag)
print("添加元素后的文档:", soup)
# 删除元素
tag_to_delete = soup.find(id='content')
tag_to_delete.decompose()
print("删除元素后的文档:", soup)
# 修改属性
heading = soup.find('h1')
heading['class'] = 'header'
print("修改属性后的文档:", soup)
# 替换元素
new_tag = soup.new_tag('span')
new_tag.string = 'Replacement content'
tag_to_replace = soup.find(id='old-content')
tag_to_replace.replace_with(new_tag)
print("替换元素后的文档:", soup)
# 插入元素
new_tag = soup.new_tag('div')
new_tag.string = 'Inserted content'
target_tag = soup.find(class_='container')
target_tag.insert(0, new_tag)
print("插入元素后的文档:", soup)

        这个示例代码涵盖了 Beautiful Soup 的解析、搜索、提取、修改等功能,包括了解析器的选择、文档树的遍历、搜索元素、提取内容和修改文档等方面。大家可以根据需要修改示例代码,并尝试在实际项目中应用 Beautiful Soup 进行数据抓取和分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/647012.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

解决:LVGL+GUI Guider 1.7.2运行一段时间就会卡死死机,内存泄露溢出的问题

概括&#xff1a; 我在使用NXP官方GUI Guider生成的代码出现了内存泄漏的问题。但我遇到的并不是像其他人所说的style的问题&#xff0c;如下链接。而是因为在页面渲染之前就使用了该页面内的组件&#xff0c;内存就会不断增加。 LVGL 死机 内存泄漏_lvgl 内存溢出-CSDN博客 运…

springboot整合kkFileView部署,前端使用

前言&#xff1a; 官方文档&#xff1a;https://kkfileview.keking.cn/zh-cn/docs/production.html docker方式或加入星球获取发行包直接获取启动&#xff0c;无需以下步骤&#xff1a; 拉取镜像# 网络环境方便访问docker中央仓库 docker pull keking/kkfileview:4.1.0# 网…

明星IP切片带货爆单营,0基础搞定IP切片带货短视频(69节课)

把握带货趋势&#xff0c;了解切片流程&#xff0c;剪辑带货创收营 课程目录&#xff1a; 01第一章实操链路-第一节IP选择.mp4 02第一章实操链路-第二节账号准备.mp4 03第一章实操链路-第四节开通权限.mp4 04第一章实操链路-第五节货品准备.mp4 05第一章实操链路-第六节素…

Java进阶学习笔记26——包装类

包装类&#xff1a; 包装类就是把基本类型的数据包装成对象。 看下API文档&#xff1a; deprecated&#xff1a;极力反对、不赞成的意思。 marked for removal&#xff1a;标识为去除的意思。 自动装箱&#xff1a;基本数据类型可以自动转换成包装类。 自动拆箱&#xff1a;…

编写子函数+最大公约数和最小公倍数

目录 计算级数和 判断并找出非素数 主函数操作流程 求最大公约数和最小公倍数 编写子函数&#xff0c;该函数的功能是是计算下列级数和&#xff0c;并将和值返回主调函数输出。数据由主函数输入。 fun 函数 sum 函数 main 函数 注意事项 编写函数&#xff0c;该函数的…

Jenkins pipeline发布前端项目

说明&#xff1a;第一次使用jenkins生成pipeline片段&#xff0c;做个记录... 1.全局工具配置添加自定义node版本 2.系统管理添加前端应用部署服务器 2.1 点击高级选择账号密码验证方式&#xff0c;添加服务器的用户和密码 3.系统管理--凭据--系统--全局凭据--添加自己的git凭据…

总是等不是办法,向媒体投稿你得学会用新方法

初入信息宣传领域,我怀揣着对文字的热爱与传播价值的热情,肩负起了单位活动的宣传报道重任。那时的我,满脑子都是传统的投稿思维:精心撰写每一篇稿件,然后逐一搜寻各大媒体的投稿邮箱,一封封邮件满怀期待地发出,像播撒希望的种子,渴望在广袤的媒体土壤中生根发芽。然而,理想很丰…

Hibernate

主流ORM框架Object Relation Mapping对象关系映射&#xff0c;将面向对象映射成面向关系。 如何使用 1、导入相关依赖 2、创建Hibernate配置文件 3、创建实体类 4、创建实体类-关系映射文件 5、调用Hibernate API完成操作 具体操作 1、创建 Maven工程&#xff0c;在pom.xml中导…

基于PID的单片机温度控制系统设计

基于PID的温度控制系统设计 摘要 温度是工业上最基本的参数&#xff0c;与人们的生活紧密相关&#xff0c;实时测量温度在工业生产中越来越受到重视&#xff0c;离不开温度测量所带来的好处&#xff0c;因此研究控制和测量温度具有及其重要的意义。 本设计介绍了以AT89C52单片…

Go GORM介绍

GORM 是一个功能强大的 Go 语言 ORM&#xff08;对象关系映射&#xff09;库&#xff0c;它提供了一种方便的方式来与 SQL 数据库进行交互&#xff0c;而不需要编写大量的 SQL 代码。 GORM的关键特性 全功能的ORM&#xff1a;支持几乎所有的ORM功能&#xff0c;包括模型定义、基…

揭秘C++ String容器:字符串操作的艺术

目录 ​编辑 引言 一、初识std::string&#xff1a;构造与初始化 二、字符串的操纵艺术&#xff1a;拼接、查找与替换 三、访问与遍历&#xff1a;字符的细腻触感 四、大小与容量&#xff1a;动态调整的智慧 五、进阶功能&#xff1a;探索更多可能 结语 引言 在C标准库…

vue3+electron+typescript 项目安装、打包、多平台踩坑记录

环境说明 这里的测试如果没有其他特别说明的&#xff0c;就是在win10/i7环境&#xff0c;64位 创建项目 vite官方是直接支持创建electron项目的&#xff0c;所以&#xff0c;这里就简单很多了。我们已经不需要向开始那样自己去慢慢搭建 yarn create vite这里使用yarn创建&a…

特殊变量笔记3

输入一个错误命令, 在输出$? 特殊变量&#xff1a;$$ 语法 $$含义 用于获取当前Shell环境的进程ID号 演示 查看当前Shell环境进程编号 ps -aux|grep bash输出 $$ 显示当前shell环境进程编号 小结 常用的特殊符号变量如下 特殊变量含义$n获取输入参数的$0, 获取当前She…

将3D检测的box框投影到BEV图片上

前言 点云数据作为一种丰富的三维空间信息表达方式&#xff0c;通常用于自动驾驶、机器人导航和三维建模等领域。然而&#xff0c;点云数据的直观性不如二维图像&#xff0c;这限制了它在一些需要快速视觉反馈的应用场景中的使用。本文将探讨如何将点云数据转换为二维图像&…

Thymeleaf 搭建家居网首页

文章目录 1.引入Thymeleaf sunliving-commodity模块1.在resources目录下引入Thymeleaf 所需资源2.pom.xml引入Thymeleaf依赖3.application.yml 关闭缓存&#xff0c;使页面实时刷新4.在application-prod.yml开启缓存5.编写com/sun/sunliving/commodity/web/IndexController.jav…

OpenUI 可视化 AI:打造令人惊艳的前端设计!

https://openui.fly.dev/ai/new 可视化UI的新时代&#xff1a;通过人工智能生成前端代码 许久未更新, 前端时间在逛github&#xff0c;发现一个挺有的意思项目&#xff0c;通过口语化方式生成前端UI页面&#xff0c;能够直观的看到效果&#xff0c;下面来给大家演示下 在现代…

idea2023的git从dev分支合并到主分支master

1.本地项目切换到主分支master 右键项目-git-Branches 依次点击项目-Remote-Origin-master-CheckOut 现在你的idea中的这个项目就是远程master分支的代码了。 2.合并dev分支到master 右击项目-git-Merge 选择origin-dev 点击Merge按钮&#xff0c;此时只是合并到本地的maste…

Weblogic XML反序列化漏洞 [CVE-2017-10271]

漏洞环境搭建请参考 http://t.csdnimg.cn/i11e2 漏洞原理 Weblogic的wls security组件对外提供webservice服务&#xff0c;wls security组件使用了xmldecoder来解析用户传入的xml数据&#xff0c;如果用户进行xml恶意数据的构造&#xff0c;即可触发反序列化漏洞 漏洞版本 O…

【MySQL】聊聊count的相关操作

在平时的操作中&#xff0c;经常使用count进行操作&#xff0c;计算统计的数据。那么具体的原理是如何的&#xff1f;为什么有时候执行count很慢。 count的实现方式 select count(*) from student;对于MyISAM引擎来说&#xff0c;会把一个表的总行数存储在磁盘上&#xff0c;…

Dbs封装_连接池

1.Dbs封装 每一个数据库都对应着一个dao 每个dao势必存在公共部分 我们需要将公共部分抽取出来 封装成一个工具类 保留个性化代码即可 我们的工具类一般命名为xxxs 比如Strings 就是字符串相关的工具类 而工具类 我们将其放置于util包中我们以是否有<T>区分泛型方法和非泛…