【Python爬虫实战】DrissionPage 与 ChromiumPage:高效网页自动化与数据抓取的双利器

  🌈个人主页:易辰君-CSDN博客
🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html

目录

前言

一、DrissionPage简介

(一)特点

(二)安装

(三)基本用法

(四)常见操作示例

二、ChromiumPage简介

(一)特点

(二)安装 ChromiumPage 和依赖

(三)基本用法

(四)常见操作

(五)适用场景

(六)ChromiumPage总结

三、总结


前言

在数据抓取与自动化测试领域,处理静态和动态网页的需求日益增加。传统的工具如 requestsselenium 虽然各有优势,但往往需要根据需求在二者之间切换,增加了代码的复杂度。DrissionPage 则创新性地整合了这两种模式,提供了统一的 API,使得静态和动态网页的处理变得更加简洁高效。此外,DrissionPageChromiumPage 模块结合了 Playwright 的强大性能,专为处理复杂的动态网页而设计,让开发者可以在无头浏览器中高效执行 JavaScript、进行模拟操作,为网页自动化和数据抓取提供了理想的解决方案。


一、DrissionPage简介

DrissionPage 是一个基于 Python 的网页自动化和数据抓取库,结合了 requestsselenium 两种工具的优势,为开发者提供了统一的 API,从而简化了静态和动态网页的处理。通过 DrissionPage,可以轻松切换不同的操作模式,适用于从简单的数据抓取到复杂的网页自动化操作。

(一)特点

(1)双模式支持:提供了两种模式,分别是 requests 模式和 selenium 模式。

  • requests 模式:适合加载速度快的静态网页抓取。

  • selenium 模式:适合处理动态网页和需要用户操作的网页,比如点击按钮、表单输入等。

(2)统一 APIDrissionPage 提供的 API 简洁且一致,无论是 requests 还是 selenium 模式,使用的接口基本一致,从而简化了代码的切换和维护。

(3)简化浏览器控制:在 selenium 模式下,可以自动加载页面、执行脚本、模拟用户操作(点击、输入等),便于实现自动化浏览器任务。

(4)智能解析与提取:集成了便捷的 CSS 选择器支持,可轻松定位页面元素,适用于快速数据提取和处理。

(二)安装

使用 pip 进行安装:

pip install drissionPage

此外,如果需要使用 selenium 模式,需要确保系统安装了对应的浏览器驱动(如 Chrome 的 chromedriver),或者使用 webdriver-manager 自动管理驱动。

(三)基本用法

以下是一个快速入门示例,展示如何使用 DrissionPage 切换模式来获取网页内容:

from drissionPage import Drission

# 初始化 Drission 对象
drission = Drission()

# 使用 requests 模式获取静态网页内容
page = drission.requests.get('https://example.com')
print(page.text)  # 输出网页文本内容

# 切换到 selenium 模式,适用于动态网页
drission.change_mode('selenium')
page = drission.get('https://example.com')
print(page.page_source)  # 输出完整的网页源码

(四)常见操作示例

  • 定位和获取元素
# 在 requests 模式下查找元素
element = page.ele('h1')
print(element.text)
  • 自动化操作(在 selenium 模式下)
drission.change_mode('selenium')
page = drission.get('https://example.com')

# 点击元素
page.ele('button#submit').click()

# 输入文本
page.ele('input#name').input('example text')

二、ChromiumPage简介

ChromiumPageDrissionPage 库中的一个功能模块,专门用于控制基于 Chromium 的无头浏览器(headless browser),可以用于在 Python 中实现浏览器自动化和动态网页的数据抓取。ChromiumPage 使用 Playwright 作为底层引擎,能够高效地加载页面、执行 JavaScript 代码,并且可以无缝地处理动态内容(例如 AJAX 加载的内容)。

(一)特点

  • 高性能:基于 Playwright 引擎的无头浏览器,相比 Selenium 更轻量且性能更好。

  • 跨平台兼容Playwright 支持在 Windows、MacOS 和 Linux 上运行,并且适用于多种浏览器内核(包括 Chromium、Firefox 等)。

  • 处理动态内容:可以执行 JavaScript、模拟点击、输入等操作,适合动态网页的数据抓取。

  • API 简单易用:提供了简洁的 API,使得操作元素、提取数据变得更加直观。

(二)安装 ChromiumPage 和依赖

ChromiumPage 依赖 Playwright,因此在安装 DrissionPage 后,还需要安装 Playwright 并下载浏览器二进制文件:

pip install drissionPage[playwright]
python -m playwright install

(三)基本用法

以下是一个简单的例子,展示了如何使用 ChromiumPage 来访问网页、查找元素和执行自动化操作:

from drissionPage import ChromiumPage

# 初始化 ChromiumPage 对象
page = ChromiumPage()

# 访问网页
page.get('https://example.com')

# 查找元素并获取文本
element = page.ele('h1')
print(element.text)

# 模拟点击按钮
page.ele('button#submit').click()

# 在输入框中输入文本
page.ele('input#name').input('Hello, World!')

(四)常见操作

定位元素:可以使用 CSS 选择器或 XPath 定位页面中的元素。

# 查找单个元素
element = page.ele('div.classname')

# 查找多个元素
elements = page.eles('p')
for e in elements:
    print(e.text)

获取动态内容:在页面加载完成后,可以轻松获取由 JavaScript 动态生成的内容。

page.get('https://example.com')
content = page.ele('div#dynamic-content').text
print(content)

自动化操作:点击按钮、选择下拉框、输入文本等操作都可以在 ChromiumPage 中实现,比如登录表单填写

page.ele('input#username').input('my_username')
page.ele('input#password').input('my_password')
page.ele('button#login').click()

截图与 PDF 生成

可以轻松保存页面截图和生成 PDF 文件。

# 保存截图
page.screenshot('screenshot.png')

# 保存页面为 PDF
page.pdf('page.pdf')

(五)适用场景

  • 数据抓取:适合处理需要 JavaScript 渲染的动态网页。

  • 自动化测试:能够模拟用户的操作,用于自动化测试。

  • 网页自动化操作:适用于登录操作、数据提交等任务。

(六)ChromiumPage总结

ChromiumPage 是一个强大的网页自动化和数据抓取工具,通过与 Playwright 的结合,可以实现高效、跨平台的浏览器自动化。无论是用于数据抓取还是自动化测试,它都提供了丰富的 API,适合需要处理动态网页内容的任务。


三、总结

DrissionPageChromiumPage 的结合,使得 Python 用户能够轻松应对多种网页自动化与数据抓取任务。从简单的数据抓取到复杂的用户交互、从静态页面到动态内容,这两个工具模块通过统一、简洁的 API 极大地降低了开发者的工作量。无论是需要更高性能的动态页面处理,还是简化自动化测试流程,DrissionPage 都是一个强大的利器,尤其在需要高效处理动态内容的场景下,ChromiumPage 的表现尤为出色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/911071.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【JAVA】java 企业微信信息推送

前言 JAVA中 将信息 推送到企业微信 // 企微消息推送messageprivate String getMessage(String name, String problemType, String pushResults, Long orderId,java.util.Date submitTime, java.util.Date payTime) {String message "对接方&#xff1a;<font color\…

前端md5加密

npm下载 npm install --save ts-md5页面引入 import { Md5 } from ts-md5使用 const md5PwdMd5.hashStr("123456")md5Pwd&#xff08;加密后的数据&#xff09; .toUpperCase()方法转大写

DDRSYS,不同频点的时序参数配置说明,DBI/DM功能说明

文章目录 不同频点的时序参数配置说明LPDDR4 时序参数DFI 参数对应配置DDR3/4DBI功能说明&#xff0c;MC控制DBI情况 不同频点的时序参数配置说明 LPDDR4 时序参数 LP4的时序参数从JEDEC颗粒文档可以检索到读写的时序参数如下&#xff1a; 此图主要关注不同频点对应的RL和WL…

如何自学机器学习?

自学机器学习可以按照以下步骤进行&#xff1a; 一、基础知识准备 数学基础&#xff1a; 高等数学&#xff1a;学习微积分&#xff08;包括导数、微分、积分等&#xff09;、极限、级数等基本概念。这些知识是后续学习算法和优化方法的基础。 线性代数&#xff1a;掌握矩阵…

工程巡查应该怎么做?如何利用巡查管理软件?

工程行业&#xff0c;无论是建设单位&#xff0c;监理单位&#xff0c;还是施工单位&#xff0c;工程巡查几乎是每日必做的工作。然而&#xff0c;巡查过程中&#xff0c;传统的做法通常依赖手动记录、拍照上传、在微信群中进行汇报。这种方式需要建大量的微信群&#xff0c;不…

Scala入门基础(16)scala的包

Scala的包定义包定义包对象Scala的包的导入导入重命名 一.Scala的包 package&#xff08;包&#xff1a;一个容器。可以把类&#xff0c;对象&#xff0c;包&#xff0c;装入。 好处&#xff1a; 区分同名的类&#xff1b;类很多时&#xff0c;更好地管理类&#xff1b;控制…

协程6 --- HOOK

文章目录 HOOK 概述链接运行时动态链接 linux上的常见HOOK方式修改函数指针用户态动态库拦截getpidmalloc 第一版malloc 第二版malloc/free通过指针获取到空间大小malloc 第三版strncmp 内核态系统调用拦截堆栈式文件系统 协程的HOOK HOOK 概述 原理&#xff1a;修改符号指向 …

MySQL中,GROUP BY 分组函数

文章目录 示例查询&#xff1a;按性别分组统计每组信息示例查询&#xff1a;按性别分组显示详细信息示例查询&#xff1a;按性别分组并计算平均年龄,如果你还想统计每个性别的平均年龄&#xff0c;可以结合AVG()函数&#xff1a;说明 示例查询&#xff1a;按性别分组统计每组信…

免费数据集网站

1、DataSearch https://datasetsearch.research.google.comhttp://DataSearch 2、FindData findata-科学数据搜索引擎https://www.findata.cn/ 3、Kaggle Kaggle: Your Machine Learning and Data Science CommunityKaggle is the world’s largest data science community …

十二:java web(4)-- Spring核心基础

目录 创建项目 Spring 核心基础 Spring 容器 Spring 容器的作用 Spring 容器的工作流程 Bean Bean 的生命周期 IOC&#xff08;控制反转&#xff09;与依赖注入&#xff08;DI&#xff09; 控制反转的概念 依赖注入的几种方式&#xff08;构造器注入、Setter 注入、接…

MybatisPlus入门(八)MybatisPlus-DQL编程控制

一、字段映射与表名映射 数据库表和实体类名称一样自动关联&#xff0c;数据库表和实体类有部分情况不一样。 问题一&#xff1a;表名与编码开发设计不同步&#xff0c;表名和实体类名称不一致。 解决办法&#xff1a; 在模型类上方&#xff0c;使用TableName注解&#xf…

亚信安全新一代WAF:抵御勒索攻击的坚固防线

近年来&#xff0c;勒索攻击已成为黑客的主要攻击手段。新型勒索攻击事件层出不穷&#xff0c;勒索攻击形势愈发严峻&#xff0c;已经对全球制造、金融、能源、医疗、政府组织等关键领域造成严重危害。如今&#xff0c;勒索攻击手段日趋成熟、攻击目标愈发明确&#xff0c;模式…

代谢组数据分析(二十一):通过MetaboAnalystR标准化构建sPLSDA预测模型

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍MetaboAnalystR标准化sPLSDA分析安装需要的R包加载R包导入数据MetaboAnalystR标准化数据初始化数据清洗数据补足数据过滤数据标准化导出结果sPLSDA分析导入数据数据预处理PCA分析PL…

《ElementPlus 与 ElementUI 差异集合》Icon 图标 More 差异说明

参考 《element plus 使用 icon 图标(两种方式)》使用 icon 升级 Vue2 升级 Vue3 项目时&#xff0c;遇到命名时的实心与空心点差异&#xff01; ElementUI&#xff1a; 实心是 el-icon-more空心是 el-icon-more-outline ElementPlus&#xff1a; 实心是 el-icon-more-fill…

Java项目实战II基于Spring Boot的光影视频平台(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 在数字化时…

用 Python 写了一个天天酷跑(附源码)

Hello&#xff0c;大家好&#xff0c;给大家说一下&#xff0c;我要开始装逼了 这期写个天天酷跑玩一下叭&#xff01; 制作一个完整的“天天酷跑”游戏涉及很多方面&#xff0c;包括图形渲染、物理引擎、用户输入处理、游戏逻辑等。由于Python是一种高级编程语言&#xff0c;…

《重学Java设计模式》之 原型模式

原型模式主要解决的问题就是创建重复对象&#xff0c;而这部分对象内容本身比较复杂&#xff0c;生成过程可能从库或者RPC接口中获取数据的耗时较长&#xff0c;因此采用克隆的方式节省时间。 案例&#xff1a;上机考试抽题&#xff0c;要求打乱题目、答案数据 工厂结构 选择题…

DMFLDR数据载入使用实践

1、DMFLDR概述 1.1DMFLDR功能介绍 dmfldr&#xff08;DM Fast Loader&#xff09;是 DM 提供的快速数据装载命令行工具。用户通过使用 dmfldr 工具能够把按照一定格式 排序的文本数据以简单、快速、高效的方式载入到 DM 数据库中&#xff0c;或把 DM 数据库中的数据按照一定格…

C#笔记 —— 事件

事件的语法 访问修饰符 event 委托类型 事件名&#xff1b; 例&#xff1a; public event Action myEvent; 事件的使用 事件的使用跟委托基本上一模一样&#xff0c; 1.但是事件不能在类外部直接赋值&#xff0c;只能使用 或 - 添加或删除函数&#xff1b; 2.事件不能在类…

传统RAG流程;密集检索器,稀疏检索器:中文的M3E

目录 传统RAG流程 相似性搜索中:神经网络的密集检索器,稀疏检索器 密集检索器 BGE系列模型 text-embedding-ada-002模型 M3E模型 稀疏检索器 示例一:基于TF-IDF的稀疏检索器 示例二:基于BM25的稀疏检索器 稀疏检索器的特点与优势 传统RAG流程 相似性搜索中:神经…