【Python爬虫实战】Selenium自动化网页操作入门指南

#1024程序员节|征文#

  🌈个人主页:易辰君-CSDN博客
🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html

目录

前言

一、准备工作

(一)安装 Selenium 库

(二)下载 WebDriver

(三)将 WebDriver 添加到系统 PATH

(四)检查 WebDriver 是否成功配置

(五)使用 Selenium 代码测试

(六)可选设置:使用无头模式

(七)浏览器驱动版本控制

二、声明浏览器对象

(一)使用 Chrome 浏览器

(二)使用 Firefox 浏览器

(三)使用 Edge 浏览器

(四)使用 Safari 浏览器

(五)使用 WebDriver Manager 动态管理驱动版本

(六)关闭浏览器

三、基本使用

(一)导入 Selenium 并声明浏览器对象

(二)打开网页

(三)查找页面元素

(四)执行操作

(五)获取元素属性和文本内容

(六)等待页面加载

(七)处理多个窗口

(八)处理警告和弹窗


前言

在现代网络开发和数据爬取中,Selenium 已成为不可或缺的自动化工具之一。无论是用于测试、数据抓取,还是模拟用户行为,Selenium 都可以在不干预的情况下自动化浏览器操作,为开发者节省大量时间和精力。本指南将带您从 Selenium 的安装配置到高级操作,逐步掌握网页自动化的核心技巧。


一、准备工作

在使用 Selenium 进行网页自动化操作之前,需要完成一些准备工作,包括安装 Selenium 库、下载合适的 WebDriver 以及配置环境。以下是详细的准备步骤:

(一)安装 Selenium 库

首先,确保在 Python 环境中安装了 Selenium 库。可以使用以下命令通过 pip 安装:

pip install selenium

(二)下载 WebDriver

Selenium 需要 WebDriver 来驱动不同的浏览器,如 Chrome、Firefox 等。根据选择的浏览器,下载相应的 WebDriver:

  • Chrome:Chrome 使用 ChromeDriver。前往 ChromeDriver下载页面,下载与你的 Chrome 版本对应的驱动程序。

  • Firefox:Firefox 使用 geckodriver。下载地址:GeckoDriver下载页面。

  • Edge:Edge 使用 msedgedriver。下载地址:EdgeDriver下载页面。

  • Safari:Safari 自带支持 WebDriver,不需要额外下载,但需要在 Safari 的开发菜单中启用远程自动化。

注意:下载的 WebDriver 版本必须与所使用的浏览器版本匹配。一般情况下可以在浏览器的“关于”页面查看浏览器版本号。

(三)将 WebDriver 添加到系统 PATH

将下载的 WebDriver 放在系统 PATH 中,以便 Selenium 可以直接调用。

  • Windows:将 chromedriver.exe 等文件放置在某个文件夹(如 C:\WebDriver\),然后将此路径添加到系统环境变量 PATH 中。

  • Mac 和 Linux:可以将驱动文件放在 /usr/local/bin 等 PATH 路径下,或者在命令行中运行:

export PATH=$PATH:/path/to/driver

(四)检查 WebDriver 是否成功配置

在终端或命令提示符中,输入以下命令,验证 WebDriver 是否安装成功:

chromedriver --version  # 对于 ChromeDriver
geckodriver --version   # 对于 GeckoDriver

如果显示驱动版本号,则说明配置成功。

(五)使用 Selenium 代码测试

完成上述配置后,可以用简单的 Selenium 代码测试是否能成功启动浏览器并访问网页。以下示例以 Chrome 为例:

from selenium import webdriver
from selenium.webdriver.common.by import By

# 初始化 WebDriver
driver = webdriver.Chrome()  # 如果未将 ChromeDriver 添加到 PATH,可以指定路径,如 webdriver.Chrome(executable_path='/path/to/chromedriver')

# 打开网页
driver.get("https://www.google.com")

# 查找页面元素,测试是否加载成功
search_box = driver.find_element(By.NAME, "q")
search_box.send_keys("Selenium WebDriver")

# 关闭浏览器
driver.quit()

(六)可选设置:使用无头模式

在一些不需要显示浏览器界面的场景,如服务器环境,可以使用无头模式:

from selenium.webdriver.chrome.options import Options

options = Options()
options.headless = True
driver = webdriver.Chrome(options=options)
driver.get("https://www.example.com")

(七)浏览器驱动版本控制

Chrome 浏览器自动更新后,可能导致 ChromeDriver 不匹配的问题。可以通过以下方式保持一致性:

  • 手动更新 ChromeDriver:每次浏览器更新后,下载新版本的 ChromeDriver。

  • 使用 WebDriver Manager:使用 WebDriver Manager 自动管理 WebDriver 的安装和更新。

pip install webdriver-manager

示例:

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(ChromeDriverManager().install())
driver.get("https://www.example.com")

二、声明浏览器对象

在 Selenium 中,声明浏览器对象是启动一个浏览器实例的第一步。以下是不同浏览器的声明方式。

(一)使用 Chrome 浏览器

from selenium import webdriver

# 声明 Chrome 浏览器对象
driver = webdriver.Chrome()  # 如果 chromedriver 不在系统 PATH 中,可以指定路径
# 示例: driver = webdriver.Chrome(executable_path='/path/to/chromedriver')

(二)使用 Firefox 浏览器

from selenium import webdriver

# 声明 Firefox 浏览器对象
driver = webdriver.Firefox()  # 如果 geckodriver 不在系统 PATH 中,可以指定路径
# 示例: driver = webdriver.Firefox(executable_path='/path/to/geckodriver')

(三)使用 Edge 浏览器

from selenium import webdriver

# 声明 Edge 浏览器对象
driver = webdriver.Edge()  # 如果 msedgedriver 不在系统 PATH 中,可以指定路径
# 示例: driver = webdriver.Edge(executable_path='/path/to/msedgedriver')

(四)使用 Safari 浏览器

在 Mac 上可以使用 Safari,需启用 Safari 的 WebDriver 支持。

from selenium import webdriver

# 声明 Safari 浏览器对象
driver = webdriver.Safari()

(五)使用 WebDriver Manager 动态管理驱动版本

使用 webdriver-manager 自动安装和更新驱动,避免手动下载驱动文件。

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

# 自动下载并使用 ChromeDriver
driver = webdriver.Chrome(ChromeDriverManager().install())

(六)关闭浏览器

在完成操作后,可以使用以下命令关闭浏览器:

driver.quit()  # 关闭所有浏览器窗口并结束 WebDriver 会话
# 或者使用 driver.close() 关闭当前窗口

声明浏览器对象后,即可使用 driver 对象执行自动化操作,如访问网页、查找元素、点击、输入文本等。


三、基本使用

在 Selenium 中,通过声明浏览器对象后,可以执行一系列自动化操作。以下是 Selenium 的基本使用方法,包括打开网页、查找元素、执行操作、处理等待等。

(一)导入 Selenium 并声明浏览器对象

from selenium import webdriver
from selenium.webdriver.common.by import By

# 使用 Chrome 浏览器
driver = webdriver.Chrome()

(二)打开网页

使用 get() 方法打开目标网页:

driver.get("https://www.example.com")

(三)查找页面元素

Selenium 提供多种方式查找元素,可以通过 ID、类名、标签名、CSS 选择器、XPath 等来定位元素:

# 通过 ID 查找元素
element = driver.find_element(By.ID, "element_id")

# 通过类名查找元素
element = driver.find_element(By.CLASS_NAME, "class_name")

# 通过标签名查找元素
element = driver.find_element(By.TAG_NAME, "tag_name")

# 通过 CSS 选择器查找元素
element = driver.find_element(By.CSS_SELECTOR, "css_selector")

# 通过 XPath 查找元素
element = driver.find_element(By.XPATH, "//div[@class='example']")

(四)执行操作

对找到的元素进行点击、输入文本等操作。

  • 点击元素
button = driver.find_element(By.ID, "submit_button")
button.click()
  • 输入文本
search_box = driver.find_element(By.NAME, "q")
search_box.send_keys("Selenium WebDriver")
  • 提交表单
search_box.submit()

(五)获取元素属性和文本内容

element = driver.find_element(By.ID, "element_id")
print(element.text)  # 获取元素的文本内容
print(element.get_attribute("href"))  # 获取元素的属性值

(六)等待页面加载

在某些操作需要等待元素加载时,可以使用显式等待来等待特定的元素加载完成。常用的等待有:

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 设置显式等待
element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, "element_id"))
)

(七)处理多个窗口

在操作过程中,可以打开新窗口或标签页,并在不同窗口之间进行切换:

# 打开新窗口
driver.execute_script("window.open('https://www.example.com');")

# 切换到新窗口
driver.switch_to.window(driver.window_handles[1])

# 关闭当前窗口并切换回原窗口
driver.close()
driver.switch_to.window(driver.window_handles[0])

(八)处理警告和弹窗

Selenium 支持处理弹出警告或确认对话框:

alert = driver.switch_to.alert
alert.accept()      # 接受警告
alert.dismiss()     # 取消警告

四、总结

Selenium 提供了强大的网页自动化功能,适合广泛的应用场景。通过掌握基础配置、元素定位、多窗口处理、弹窗管理等技巧,您将能够轻松应对复杂的网页自动化任务。希望本篇指南为您打开了 Selenium 世界的大门,让您在测试、数据爬取及用户交互模拟中更加游刃有余。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/901612.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot项目里怎么简单高效使用Redis?我选择使用Lock4j

文章目录 前言正文1、Lock4j的代码仓库2、pine-manage-common-redis的项目结构3、pine-manage-common-redis 的完整代码3.1 maven依赖:pom.xml3.2 redis连接参数:application.yaml3.3 RedisCache.java3.4 CacheConfig.java3.5 RedissonClientUtil.java3.…

Python | Leetcode Python题解之第509题斐波那契数

题目&#xff1a; 题解&#xff1a; class Solution:def fib(self, n: int) -> int:if n < 2:return nq [[1, 1], [1, 0]]res self.matrix_pow(q, n - 1)return res[0][0]def matrix_pow(self, a: List[List[int]], n: int) -> List[List[int]]:ret [[1, 0], [0, …

Redisson(三)应用场景及demo

一、基本的存储与查询 分布式环境下&#xff0c;为了方便多个进程之间的数据共享&#xff0c;可以使用RedissonClient的分布式集合类型&#xff0c;如List、Set、SortedSet等。 1、demo <parent><groupId>org.springframework.boot</groupId><artifact…

spygalss cdc 检测的bug(二)

当allow_qualifier_merge设置为strict的时候&#xff0c;sg是要检查门的极性的。 如果qualifier和src经过与门汇聚&#xff0c;在同另一个src1信号或门汇聚&#xff0c;sg是报unsync的。 假设当qualifier为0时&#xff0c;0&&src||src1src1&#xff0c;src1无法被gat…

Mysql入门3——多表操作、事务、索引

Mysql入门3——多表操作、事务、索引 一、多表设计 ​ 在项目开发中&#xff0c;在进行数据库表的结构设计时&#xff0c;会根据业务需求及业务模块之前的关系&#xff0c;分析并设计表的结构&#xff0c;由于业务之间相互关联&#xff0c;所以各个表之间也存在着各种关系&am…

基于SSM的智慧篮球馆预约系统

前言 近些年&#xff0c;随着中国经济发展&#xff0c;人民的生活质量逐渐提高&#xff0c;对网络的依赖性越来越高&#xff0c;通过网络处理的事务越来越多。随着智慧篮球馆预约的常态化&#xff0c;如果依然采用传统的管理方式&#xff0c;将会为工作人员带来庞大的工作量&a…

css设置滚动条样式

效果图&#xff1a; // 滚动条样式 div::-webkit-scrollbar {width: 4px; } /* 滚动条滑块&#xff08;里面小方块&#xff09; */ div::-webkit-scrollbar-thumb {border-radius: 10px;-webkit-box-shadow: inset 0 0 5px rgba(0, 0, 0, 0.2);opacity: 0.2;background-color…

【面试经典150】day 8

#1024程序员节 | 征文# 作为一个未来的程序员&#xff0c;现在我要继续刷题了。 力扣时刻。 目录 1.接雨水 2.罗马数字转整数 3.最后一个单词的长度 4.最长公共前缀 5.反转字符串中的单词 1.接雨水 好好好好好好&#xff0c;一开始就接雨水。我记得接了n次了。。。 痛苦战…

【读书笔记·VLSI电路设计方法解密】问题25:为什么时钟如此重要

时钟是一种在高电平和低电平之间振荡的电信号。它通常是一个具有预定周期(频率)的方波,如图3.6所示。在同步数字电路中,时钟信号协调芯片上所有电路元件的动作。电路在时钟信号的上升沿、下降沿或两者的边缘处变为活动状态以实现同步。时钟信号相关问题是任何VLSI芯片设计中…

ASP.NET Core 8.0 中使用 Hangfire 调度 API

在这篇博文中&#xff0c;我们将引导您完成将 Hangfire 集成到 ASP.NET Core NET Core 项目中以安排 API 每天运行的步骤。Hangfire 是一个功能强大的库&#xff0c;可简化 .NET 应用程序中的后台作业处理&#xff0c;使其成为调度任务的绝佳选择。继续阅读以了解如何设置 Hang…

HarmonyOS NEXT初级案例:网络数据请求

使用HTTP访问网络 “HTTP协议”的全称:超文本传输协议(Hyper Text Transfer Protocol)。 一、添加网络管理权限 在“module.json5”文件中添加网络访问权限配置: "module": {"requestPermissions": [{"name":"ohos.permission.INTER…

【leetcode】动态规划

19. 918 环形子数组的最大和 题目&#xff1a; 给定一个长度为 n 的环形整数数组 nums &#xff0c;返回 nums 的非空 子数组 的最大可能和 。 环形数组 意味着数组的末端将会与开头相连呈环状。形式上&#xff0c; nums[i] 的下一个元素是 nums[(i 1) % n] &#xff0c; nums…

《2024中国泛娱乐出海洞察报告》解析,垂直且多元化方向发展!

随着以“社交”为代表的全球泛娱乐市场规模不断扩大以及用户需求不断细化&#xff0c;中国泛娱乐出海产品正朝着更加垂直化、多元化的方向发展。基于此&#xff0c;《2024中国泛娱乐出海洞察报告》深入剖析了中国泛娱乐行业出海进程以及各细分赛道出海现状及核心特征。针对中国…

Python游戏开发超详细第二课/一个小游戏等制作过程(入门级篇共2节)

直播内容&#xff0c;这里都用大多用照片代替了哈&#xff0c;因为在写一遍很累&#xff0c;哥哥姐姐理解一下抱歉抱歉 一个是我懒的写一遍&#xff0c;但是刚学的兄弟姐妹可不许学我偷懒哈 二防止有人偷懒&#xff0c;直接复制粘贴代码&#xff0c;所以为了方便帮助你们学习&a…

【AIGC】ChatGPT应用之道:如何打破`专家`幻象,提升AI协作质量

博客主页&#xff1a; [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 &#x1f4af;前言&#x1f4af;ChatGPT的实际能力用户对ChatGPT的常见误解超越误解&#xff0c;合理设定期望总结 &#x1f4af;超越“专家”幻想设定合理的期望总结 &#x1f4af;提升人工智能协作质量…

寻找大自然的颜色

走在停停&#xff0c;停停走走&#xff0c;恍惚间一天过去了&#xff0c;转瞬间一年过去了&#xff0c;身边的一切在变化又不在变化&#xff0c;生活是自己的又不是自己的。 今天是个特殊的日子&#xff0c;其实前几天对我而言就算特殊的日子了&#xff0c;一个心里暗暗等待着却…

python之数据结构与算法(数据结构篇)-- 集合

一、集合的概念 所谓的编程中的”集合“&#xff0c;其实和高中数学中集合是一样的的。比如&#xff1a;羊村和狼堡看作一个集合&#xff0c;而狼堡中的"灰太狼"、"红太狼"、"小灰灰"则可看作狼堡中的元素&#xff0c;同理&#xff0c;羊村中的…

通过火山云API来实现:流式大模型语音对话

这里我们需要在火山云语音控制台开通大模型的流式语音对话、获取豆包模型的apiKey&#xff0c;开通语音合成项目。 这里使用的豆包模型是Doubao-lite&#xff0c;延迟会更低一些配置说明 这里一共有四个文件&#xff0c;分别是主要的fastAPI、LLM、STT、文件 TTS中需要配置 ap…

洛谷 U411986 数的范围(二分模板)

题意&#xff1a;在一个有序序列里面找某个值的初始出现下标和最后出现下标&#xff0c;如果该值不存在&#xff0c;输出-1 -1。 整数二分模板题&#xff0c;该题主要用来练习如何写两种情况下的二分函数的代码模板。 1&#xff09;upper_bound函数&#xff1a;用来寻找边界点A…

鸿蒙是必经之路

少了大嘴的发布会&#xff0c;老实讲有点让人昏昏入睡。关于技术本身的东西&#xff0c;放在后面。 我想想来加把油~ 鸿蒙发布后褒贬不一&#xff0c;其中很多人不太看好鸿蒙&#xff0c;一方面是开源性、一方面是南向北向的利益问题。 不说技术的领先点&#xff0c;我只扯扯…