7.1.3 Selenium的用法2

目录

1. 切换 Frame

2. 前进后退

3. 对 Cookies 操作

4. 选项卡管理(了解)

5. 异常处理

6. 反屏蔽

7. 无头模式


1. 切换 Frame

        我们知道网页中有一种节点叫作 iframe,也就是子 Frame,相当于页面的子页面,它的结构和外部网页的结构完全一致(见下图子页面和外部网页)。Selenium 打开页面后,它默认是在父级 Frame 里面操作,而此时如果页面中还有子 Frame,它是不能获取到子 Frame 里面的节点的。

外部网页:

 子网页:

尝试获取 id 为 droppable 的节点

from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
drop = browser.find_element_by_id('droppable')
drag = browser.find_element_by_id('draggable')
print(drop)
print(drag)


        这时就需要使用 switch_to.frame() 方法来切换 Frame。在获取节点drop前加一行代码。

browser.switch_to.frame('iframeResult')

结果:

在子页面那如何切换回父页面呢?使用switch_to.parent_frame(),不切换是获取不到的,会报错。以下代码在上方代码下进行:

browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
 

2. 前进后退

        平常使用浏览器时都有前进和后退功能,Selenium 也可以完成这个操作,它使用 back() 方法后退,使用 forward() 方法前进。示例如下: 

import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

        这里我们连续访问 3 个页面,然后调用 back() 方法回到第二个页面,接下来再调用 forward() 方法又可以前进到第三个页面。

3. 对 Cookies 操作

        使用 Selenium,还可以方便地对 Cookies 进行操作,例如获取、添加、删除 Cookies 等。示例如下:

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
browser.delete_all_cookies()
print(browser.get_cookies())

输出如下:

[{'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'osd', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'V1ocBUkf2nzTPx8pNBwqqyhuCWsgK5oRpm1ZTFFNlUGUVyFtdui_krU_Ey0_gBglVylVNsNamm6W9zrlar9JYPk='}, {'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'JOID', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'WlocAEoS2nzWPBIpNBkppihuDGgtK5oUpWBZTFROmEGUUiJgdui6kbg_Eyg8jRglUipYNsNfmWOW9z_mZ79JZfo='}, {'domain': '.zhihu.com', 'expiry': 1741067645, 'httpOnly': False, 'name': 'Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '1709531646'}, {'domain': '.zhihu.com', 'expiry': 1744091643, 'httpOnly': False, 'name': 'd_c0', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'ANAb2lgVQhiPTrftnfH4Ix-h3eEqjOywHYA=|1709531641'}, {'domain': '.zhihu.com', 'httpOnly': False, 'name': '_xsrf', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '5fe3527d-f272-4b5a-8b86-18e0418953c6'}, {'domain': '.zhihu.com', 'httpOnly': False, 'name': 'Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '1709531646'}, {'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'SESSIONID', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '3KbqUAnjUH6Hl9CImOgmWl2acunCWhFuo51qSj8XEUI'}, {'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'KLBRSID', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'f48cb29c5180c5b0d91ded2e70103232|1709531643|1709531641'}, {'domain': '.zhihu.com', 'expiry': 1744091643, 'httpOnly': False, 'name': '_zap', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'ac23bfd6-03d3-4ab9-aae5-d5fdbd472290'}]
[{'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'osd', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'V1ocBUkf2nzTPx8pNBwqqyhuCWsgK5oRpm1ZTFFNlUGUVyFtdui_krU_Ey0_gBglVylVNsNamm6W9zrlar9JYPk='}, {'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'JOID', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'WlocAEoS2nzWPBIpNBkppihuDGgtK5oUpWBZTFROmEGUUiJgdui6kbg_Eyg8jRglUipYNsNfmWOW9z_mZ79JZfo='}, {'domain': '.zhihu.com', 'expiry': 1741067645, 'httpOnly': False, 'name': 'Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '1709531646'}, {'domain': '.zhihu.com', 'expiry': 1744091643, 'httpOnly': False, 'name': 'd_c0', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'ANAb2lgVQhiPTrftnfH4Ix-h3eEqjOywHYA=|1709531641'}, {'domain': '.zhihu.com', 'httpOnly': False, 'name': '_xsrf', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '5fe3527d-f272-4b5a-8b86-18e0418953c6'}, {'domain': '.zhihu.com', 'httpOnly': False, 'name': 'Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '1709531646'}, {'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'SESSIONID', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': '3KbqUAnjUH6Hl9CImOgmWl2acunCWhFuo51qSj8XEUI'}, {'domain': '.www.zhihu.com', 'httpOnly': False, 'name': 'name', 'path': '/', 'sameSite': 'Lax', 'secure': True, 'value': 'germey'}, {'domain': 'www.zhihu.com', 'httpOnly': False, 'name': 'KLBRSID', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'f48cb29c5180c5b0d91ded2e70103232|1709531643|1709531641'}, {'domain': '.zhihu.com', 'expiry': 1744091643, 'httpOnly': False, 'name': '_zap', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'ac23bfd6-03d3-4ab9-aae5-d5fdbd472290'}]
[]

4. 选项卡管理(了解)

        在访问网页的时候,会开启一个个选项卡(同一浏览器的窗口)。在 Selenium 中,我们也可以对选项卡进行操作。示例如下:

import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])    # 该方法已弃用,了解即可
browser.get('https://www.taobao.com')
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')

        首先访问了百度,然后调用了 execute_script() 方法,这里传入 window.open() 这个 JavaScript 语句新开启一个选项卡。

        接下来,我们想切换到该选项卡。这里调用 window_handles 属性获取当前开启的所有选项卡,返回的是选项卡的代号列表。要想切换选项卡,只需要调用 switch_to_window() 方法即可,其中参数是选项卡的代号。这里我们将第二个选项卡代号传入,即跳转到第二个选项卡,接下来在第二个选项卡下打开一个新页面,然后切换回第一个选项卡重新调用 switch_to_window() 方法,再执行其他操作即可。

5. 异常处理

        使用try except

        可以参考官方文档::7. WebDriver API — Selenium Python Bindings 2 documentation。

6. 反屏蔽

        现在很多网站增加了对 Selenium 的检测,被检测到了就直接屏蔽。

        在大多数情况下,检测的基本原理是检测当前浏览器窗口下的 window.navigator 对象中是否含 webdriver 属性。因为在正常使用浏览器时,这个属性应该是 undifined,一旦使用了 Selenium,它就会给 window.navigator 对象设置 webdriver 属性。很多网站通过 JavaScript 语句判断是否存在 webdriver 属性,如果存在直接屏蔽。

        例如这个网站:Scrape | Movie

# 使用以下代码尝试爬取页面内容
from selenium import webdriver

browser = webdriver.Chrome()
url = 'https://antispider1.scrape.center/'
browser.get(url)
print(browser.page_source)

        面对此情况,我们可以使用 Selenium 中的 CDP (谷歌开发工具协议) 解决,利用它可在每个页面刚加载的时候就执行 JavaScript 语句,将 webdriver 置空。

        ChromeOptions() 是Selenium 中用于配置Chrome浏览器选项的类。通过ChromeOptions() 可以设置一系列浏览器参数和行为。

from selenium import webdriver
from selenium.webdriver import ChromeOptions

options = ChromeOptions()
# 下面两行是用来加选项隐藏 WebDriver 提示条和自动化扩展信息
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomationExtension', False)

browser = webdriver.Chrome(options=options)
browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
    'source': 'Object.defineProperty(navigator, "webdriver", { get: () => undefined })'
})
url = 'https://antispider1.scrape.center/'
browser.get(url)
print(browser.page_source)
# CDP方法
Page.addScriptToEvaluateOnNewDocument
# JavaScript 语句,将 webdriver 置空
'source': 'Object.defineProperty(navigator, "webdriver", { get: () => undefined })'

        在大多数情况下,以上方法可以实现 Selenium 的反屏蔽。因作者目前水平有限,对此写的较粗造,可直接将其当作模板套着试用就可,能解决问题就好。

7. 无头模式

        在运行上述代码时,会弹出浏览器窗口,偶尔会造成麻烦。当采用无头模式就可避免弹出。

from selenium import webdriver
from selenium.webdriver import ChromeOptions

options = ChromeOptions()    # 设置 ChromeOptions 对象
options.add_argument('--headless')    # 开启无头模式

browser = webdriver.Chrome(options=options)

browser.set_window_size(1300, 700)    # 设置窗口大小
browser.get('https://www.baidu.com')
browser.get_screenshot_as_file('baidu.png')    # 得到窗口截图存下

        文章到此结束,本人新手,若有错误,欢迎指正;若有疑问,欢迎讨论。若文章对你有用,点个小赞鼓励一下,谢谢大家,一起加油吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/429343.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

6、聊聊cors漏洞

文章目录 1、小结1.1、存在漏洞的情况:1.2、常见的cors设置(php举例) 2、漏洞复现2.1、无需cookie2.2、需要cookie2.3、需要cookie的方式利用限制 3、补充与疑惑 1、小结 cors漏洞在20230404基本无了 估计很多乙方工作得同学都拿这个漏洞凑…

jmeter 生成html报告及解读

当前版本: jmeter 5.6.3mysql 5.7.39 简介 JMeter 支持在测试完成后自动生成报告,也支持使用结果数据文件转换成html报告(使用 -l 文件.jtl)。本篇文章主要介绍如何生成报告,以及报告的基本解读。 文章目录如下 1. 生…

06. Nginx进阶-Nginx代理服务

proxy代理功能 正向代理 什么是正向代理? 正向代理(forward proxy),一个位于客户端和原始服务器之间的服务器。 工作原理 为了从原始服务器获取内容,客户端向代理发送一个请求并指定目标(即原始服务器…

window10 安装配置docker

前言(重要):确认window10版本已经更新到最新版 随着时间推移,docker对window版本的支持也在变,截至2024年3月份,支持win10最低版本号:22H2,操作系统最低版本:19045.2965&#xff0c…

基于springboot+vue的新闻资讯系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

科技云报道:阿里云降价,京东云跟进,谁能打赢云计算价格战?

科技云报道原创。 就在大家还在回味2月29日阿里云发布“史上最大降价”的惊喜时,京东云连夜发布降价消息,成为第一家跟进的云服务商,其“随便降,比到底!”的口号,颇有对垒的意味,直接吹响了云计…

Python采集学习笔记-request的get请求和post请求

使用http://httpbin.org测试,一个简单的 HTTP 请求和响应服务。(需联网)1.导入requests包 import requests 2.测试get请求 url http://httpbin.org/get par {key1: value1, key2: value2} # 不带参数请求 r1 requests.get(url) # 带参数请求 r2 requests.get(url, paramspa…

【数据结构和算法初阶(C语言)】带环链表问题详解(快慢指针的烧脑应用)

目录 1.铺垫-----带环链表基本了解 2. 题目:环形链表 3.环形链表|| ​编辑 3.1题解1 3.2 题解2 4.总结 1.铺垫-----带环链表基本了解 环形链表题目启迪: 环形链表特点:遍历链表会出现一模一样的地址 2. 题目:环形链表 给…

Scrapy与分布式开发(2.3):lxml+xpath基本指令和提取方法详解

lxmlxpath基本指令和提取方法详解 一、XPath简介 XPath,全称为XML Path Language,是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML,还常用于处理HTML文档。 二、基本指令和提取…

爬虫入门到精通_实战篇10(使用Redis+Flask维护动态代理池)

1 目标 为什么要用代理池 许多网站有专门的反爬虫措施,可能遇到封IP等问题。互联网上公开了大量免费代理,利用好资源。通过定时的检测维护同样可以得到多个可用代理。 代理池的要求 多站抓取,异步检测定时筛选,持续更新提供接…

12 状态优先级

概念 cpu需要执行很多进程,有很多进程排在队列中,每个进程加载后运行一定的时间段,然后切换下一个进程。cpu如何判断进程需不需要加载,什么时候加载,依靠进程的状态和优先级属性来判断,进程调度&#xff0…

Gitlab: PHP项目CI/CD实践

目录 1 说明 2 CI/CD 2.1 部署方式一:增量部署 2.1.1 目标服务器准备 2.2.2 Gitlab及Envoy脚本 2.2 部署方式二:镜像构建与部署 2.2.1 推送到私有化容器仓库 准备工作 脚本 要点 2.2.2 推送到hub.docker.com 准备工作 脚本 3 参考&#x…

深入探讨 AutoGPT:彻底改变游戏的自主 AI

原文地址:Deep Dive into AutoGPT: The Autonomous AI Revolutionizing the Game 2023 年 4 月 24 日 AutoGPT 是一个功能强大的工具,它通过 API 使用 GPT-4 和 GPT-3.5,通过将项目分解为子任务并在自动循环中使用互联网和其他工具来创建完…

力扣hot8---滑动窗口

这里先跳过力扣hot7啦,这几天就回更~ 题目: 滑动窗口思路: 首先左窗口(left)指向的是第0个元素,依次遍历循环每一个元素,维护一个unordered_set,如果当前被遍历的元素存在于unorder…

Python实现ADTM工具判断信号:股票技术分析的工具系列(6)

Python实现ADTM工具判断信号:股票技术分析的工具系列(6) 介绍算法解释 代码rolling函数介绍完整代码data代码ADTM.py 介绍 ADTM(动态买卖气指标)是一种用于衡量市场买卖力量对比的指标。它通过计算动态买盘指标&#…

【源码】imx6ull实现触摸屏单点实验-移植tslib和qt

一、本实验实验的器材: 1.正点原子imx6ull的阿尔法开发板v2.2 2.屏幕ALIENTEK 4.3 RGBLCD 二、实验已经移植好的文件: 仓库代码:https://gitee.com/wangyoujie11/atkboard_-linux_-driver.git 1.文件说明 arm-qt.tar.bz2:移植好的…

tsc : 无法加载文件 C:\Users\Administrat\AppData\Roaming\npm\tsc.ps 1,因为在此系统上禁止运行脚本

报错:tsc : 无法加载文件 C:\Users\Administrat\AppData\Roaming\npm\tsc.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_Execution_Policies。 解决 使用命令行时出现ab…

idea中引入新JDK环境

在不同的项目中往往会需要不同的运行环境,那么如何下载一个新的环境并运用到idea中呢? 下面给出的就是oracle官网,以JDK17为例教大家如何下载 Java Archive Downloads - GraalVM for JDK 17https://www.oracle.com/java/technologies/javase…

世界的本质是旋转(5)-在复平面上驱动软件无线电SDR发射BPSK波形

在上一篇文章中,我们介绍了复平面、拍照采样的一些思维实验。从本节开始,转入现实应用,通过控制复平面向量的位置,实现一个完整的BPSK全双工通信通道。 发射方:通过控制复平面向量在各个时刻的位置来携带信息的技术&a…

108. 将有序数组转换为二叉搜索树【简单】

108. 将有序数组转换为二叉搜索树【简单】 题目描述: 给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 高度平衡 二叉搜索树。 高度平衡 二叉树是一棵满足「每个节点的左右两个子树的高度差的绝对值不超过 1 」的二叉…