数据采集Selenium中的弹窗处理

亿牛云代理.png

在爬虫技术中,弹窗处理是一个常见但具有挑战性的问题。Selenium作为一个强大的网页自动化工具,可以帮助我们有效地处理网页中的各种弹窗。本文将概述如何使用Selenium处理弹窗,并提供实现代码,代码中将使用代理IP技术。

概述

弹窗一般分为两类:浏览器自带的警告弹窗(alert、confirm、prompt)和基于HTML的自定义弹窗。处理这些弹窗需要掌握Selenium提供的不同方法。

1. 浏览器警告弹窗

这些弹窗通常由JavaScript触发,主要包括三种类型:

  • Alert:简单的警告框,只有一个确认按钮。
  • Confirm:确认框,有确认和取消按钮。
  • Prompt:提示框,可以输入文本,并有确认和取消按钮。

2. HTML自定义弹窗

这些弹窗是网页中使用HTML和CSS实现的,需要通过定位HTML元素来进行操作。

细节

1. 处理浏览器警告弹窗

使用Selenium处理浏览器警告弹窗的方法非常简单,主要使用switch_to.alert方法来获取弹窗对象。下面是处理三种警告弹窗的示例代码:

from selenium import webdriver
from selenium.webdriver.common.by import By

# 设置代理IP 亿牛云爬虫代理加强版
proxy = "username:password@proxy.16yun.cn:8080"
options = webdriver.ChromeOptions()
options.add_argument(f'--proxy-server=http://{proxy}')

driver = webdriver.Chrome(options=options)
driver.get('https://example.com')

# 触发Alert弹窗
driver.find_element(By.ID, 'alert_button').click()
alert = driver.switch_to.alert
alert.accept()  # 点击确认按钮

# 触发Confirm弹窗
driver.find_element(By.ID, 'confirm_button').click()
confirm = driver.switch_to.alert
confirm.dismiss()  # 点击取消按钮

# 触发Prompt弹窗
driver.find_element(By.ID, 'prompt_button').click()
prompt = driver.switch_to.alert
prompt.send_keys('输入的文本')  # 输入文本
prompt.accept()  # 点击确认按钮

driver.quit()

2. 处理HTML自定义弹窗

处理HTML自定义弹窗需要找到弹窗的HTML元素并进行相应的操作,例如点击按钮或输入文本。以下是一个示例代码:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 设置代理IP 亿牛云爬虫代理加强版
proxy = "username:password@proxy.16yun.cn:8080"
options = webdriver.ChromeOptions()
options.add_argument(f'--proxy-server=http://{proxy}')

driver = webdriver.Chrome(options=options)
driver.get('https://example.com')

# 触发自定义HTML弹窗
driver.find_element(By.ID, 'html_popup_button').click()

# 等待弹窗出现
popup = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'custom_popup'))
)

# 在弹窗中点击确认按钮
popup.find_element(By.ID, 'confirm_button').click()

driver.quit()

结论

处理弹窗是使用Selenium进行网页自动化时常见的问题。通过掌握处理浏览器警告弹窗和HTML自定义弹窗的方法,可以有效地进行网页交互。使用代理IP技术可以避免被目标网站封禁,提高爬虫的稳定性和效率。
希望本文能帮助你更好地理解和使用Selenium处理弹窗。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/750067.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于Java微信小程序火锅店点餐系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…

突然!某大客户核心凌晨突然崩溃....

这几天实在太忙,刚弄完文档。业务线的同事就找到我,说一个银行客户的核心系统昨晚出了故障,还没找到原因,希望能帮忙分析下。 从提供的信息来看是业务跑任务报错,遇到了Oracle-00600和ora-07445 错误。 Doing block re…

Zynq7000系列FPGA中的DMA控制器——PL外设请求接口

图9-4中展示了PL外设请求接口主要由两部分组成:PL外设请求总线和DMAC确认总线。这两部分分别使用特定的前缀进行标识,具体如下: PL外设请求总线(PL Peripheral Request Bus): 前缀:DR功能&…

YOLO模型评价指标

在模型训练完成之后,需要对模型的优劣作出评估,YOLO系列算法的评价指标包括: 1. 准确率(Precision):指模型预测为正样本中实际为正样本的比例。 𝑇𝑃、𝐹𝑃、…

uniapp字体ttf在小程序报错,解决方法

文章目录 导文解决方法1:把字体改成base64格式解决方法2:改成线上模式 导文 报错1: uniapp 小程序报错:app.js错误: Error: Module build failed (from ./node_modules/mini-css-extract-plugin/dist/loader.js): ModuleBuildErro…

【Java Web】Pinia实现组件间数据共享

目录 一、Pinia概述 二、Pinia基本用法 一、Pinia概述 在前端工程化的开发环境中,当多个组件(.vue)文件需要使用同一个数据对象时,传统的方法可以使用组件传参或者路由传参来解决但此两种方式都有自己的缺点。pinia可以将多个组件需要共享使用的数据单独…

2024热门骨传导蓝牙耳机怎么选?超全的选购攻略附带好物推荐!

对于很多喜欢运动健身的小伙伴,在现在市面上这么多种类耳机的选择上,对于我来说的话还是很推荐大家去选择骨传导运动耳机的,相较于普通的入耳式蓝牙耳机,骨传导耳机是通过振动来传输声音的,而入耳式耳机则是通过空气传…

餐饮冷库安全守护神:可燃气体报警器检定的科学性与有效性

随着餐饮业的快速发展,冷库成为储存食材、保证食品质量的重要场所。 然而,由于冷库环境的特殊性,如密封性强、温度低、湿度大等,一旦冷库内发生可燃气体泄露,后果将不堪设想。因此,在餐饮冷库中安装并合理…

武汉星起航:自运营团队深耕亚马逊,智慧运营打造跨境电商新标杆

在全球化的浪潮下,跨境电商已成为企业拓展海外市场的重要渠道。而亚马逊作为全球领先的电商平台,其巨大的市场潜力和成熟的运营体系吸引了无数卖家竞相入驻。武汉星起航电子商务有限公司正是众多成功入驻亚马逊的卖家之一,其自运营团队凭借多…

使用Python Selenium,动态网页不再是难题!

目录 1、直接执行JS代码 🌐 1.1 execute_script基础用法 1.2 带参数执行JS函数 1.3 获取执行结果 2、使用execute_async_script异步执行 🔄 2.1 适用场景分析 2.2 实现异步操作示例 2.3 错误处理与调试技巧 3、JS与页面元素交互 👤 3.1 修改DOM属性 3.2 触发事…

独立开发者系列(10)——fastadmin后台框架的认识

软件开发项目涉及到的东西非常多,作为独立开发者,普遍性的面对的是中小项目。而其中接单的情况下,以WEB方向的居多。其中主要有以下这么些类的:搭建官网cms 就是常见的资讯发布平台,发布一些企业新闻/活动宣传,纯粹是…

鸿蒙期末项目(3)

服务器搭建完成之后,编写了诸多api用于数据传输工作(略) 编写完成之后,回到鸿蒙开发工具,开始编写搜索页面的代码。 打开搜索页面时,先会展示历史搜索记录(如果有的话),…

爬取必应关键字搜索结果url

上代码 import aiohttp import asyncio from lxml import etree import aiofiles import time import random aiohttp 和 asyncio 用于异步HTTP请求和事件循环。 lxml 用于解析HTML。 aiofiles 用于异步文件操作。 time 和 random 用于控制爬取速度。 headers {User-Agent: M…

mysql安装创建数据库防止踩坑

为了安装MySQL的家人们走弯路,稍微有些啰嗦,讲述我安装的时遇到的问题,如何解决。仔细看看离成功不远。 mysql下载链接 MySQL :: Download MySQL Community Server windows下安装mysql-8.0.29-winx64,下载安装包后解压到文件夹中…

2024十大首码地推拉新app平台,一手首码对接平台!

到了2024年,地推新应用的接单平台成为创业者们关注的焦点。对于地推行业的从业人员而言,选择一家拥有一手单资源的平台至关重要,因为这直接关系到他们的利益。 2024年如果想要进行app地推活动,却没有人脉渠道的困扰,建…

谷歌网络营销中SEO的策略有哪些?

在网络营销中,SEO(搜索引擎优化)是一种关键策略,旨在提高网站在搜索引擎结果中的排名。首先,要进行关键词研究,找出潜在客户使用的搜索词。接下来,优化网站内容,使其包含这些关键词&…

【Java Web】Ajax异步请求

目录 一、Ajax概述 二、Ajax执行原理 三、实现Ajax的请求 一、Ajax概述 传统情况下,浏览器与服务端的交互都是采用同步交互的方式进行的;此交互方式用户在向服务端发送请求后只有等到服务端的响应报文回来后用户才能在标签页上进行其它操作,即…

openlayer 鼠标点击船舶,打开船舶简单弹框

背景: 对创建的地图对象,可以添加上监听事件,常用的有:地图点击事件、鼠标移动事件。 通过监听这些事件,又可以区分不同图层的不同要素,获取不同数据; 根据这些数据,又可以发起网络请…

电脑的D盘E盘F盘突然消失了 电脑只剩下C盘了其他盘怎么恢复

现如今随着时代的发展,无纸化办公成为主流,这主要归功于电脑,能够通过电脑完成的工作绝不使用纸质文件,这不仅提高了工作效率,也让一些繁杂的工作变的更加简单。不过电脑毕竟是电子产品,不可避免的会出现一…

【包邮送书】深度学习与信号处理

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关…