Selenium 自动化高级操作与解决疑难杂症,如无法连接、使用代理等

在这里插入图片描述

解决 Selenium 自动化中的常见疑难杂症

这里记录一些关于 Selenium的常用操作和疑难杂症。

有一些细节的知识点就不重复介绍了,因为之前的文章中都有!

如果对本文中的知识点有疑问的,可以先阅读我以前分享的文章!

知识点📖📖

模块链接作用
seleniumhttps://www.selenium.dev/zh-cn/documentation/支持 web 浏览器自动化的一系列工具和库的综合项目

如果有看不懂的地方,可以结合我以前的文章一起看。

  • 【Selenium】控制当前已经打开的 chrome浏览器窗口

  • 【Selenium】控制当前已经打开的 chrome浏览器窗口(高级版)

  • Python模块psutil:系统进程管理与Selenium效率提升的完美结合

  • Selenium性能优化:一文带你快速上手!

TodoList:

  • 使用crx扩展插件进行代理修改(后续更新

初始化webdriver

  • ChromeService 是一个Service类,负责启动和停止 chromedriver。这个进程是运行自动化脚本的基础。

  • webdriver-manager 可以自动下载和管理 WebDriver 二进制文件,用于自动管理 webdriver驱动

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager


def init_driver(options=None) -> webdriver.Chrome:
    """
    初始化浏览器驱动.

    Args:
        options(Options): chrome配置选项

    Returns:
        driver(WebDriver): 浏览器驱动对象

    """
    return webdriver.Chrome(
        service=ChromeService(ChromeDriverManager().install()),
        options=options
    )

使用代理

  • 使用crx扩展插件进行代理修改(后续更新
from selenium import webdriver
from selenium.webdriver.chrome.options import Options


if __name__ == '__main__':
    options = Options()
    proxy = "http://127.0.0.1:9527"
    options.add_argument(f'--proxy-server={proxy}')
    driver = init_driver(options=options)
    driver.get('https://www.bilibili.com/')

运行结果如下:

  • 可以请下的看到,所有请求的Remote Address 都是 127.0.0.1:7890

在这里插入图片描述

指定 Chrome 浏览器端口

启动浏览器

代码贴心的给出多项selenium 优化选项,根据需要来选择~

import subprocess


def start_chrome(browser_path, commands_list=None) -> None:
    """
    启动浏览器。

    Args:
        browser_path(str): 浏览器安装的路径
        commands_list(List[str]): 启动浏览器的命令行参数,默认为None

    Returns:
        None
    """
    commands = [browser_path]
    commands.extend(commands_list)
    # 启动浏览器
    subprocess.Popen(commands)


if __name__ == '__main__':
    # 设置浏览器的路径和启动参数
    path = r"C:\Program Files\Google\Chrome\Application\chrome.exe"
    port = 9527
    cmd_map = {
        '指定浏览器配置': r'--user-data-dir=F:\selenium',
        '指定远程调试端口': '--remote-debugging-port={}'.format(port),
        # '无头模式': '--headless',
        # '无沙盒模式': '--no-sandbox',
        # '指定页面加载策略': '--no-sandbox',
        # '禁用弹出拦': '--disable-popup-blocking',
        # '禁用图片加载': '--blink-settings=imagesEnabled=false',
        # '禁用GPU硬件加速': '--disable-gpu',
        # '禁用js': True,
    }
    start_chrome(path, list(cmd_map.values()))

连接浏览器

注意!这里Selenium WebDriver 将附加到一个已经运行的 Chrome 实例上,而不是启动一个新的浏览器实例。这意味着 WebDriver 将使用现有浏览器实例的设置,包括网络和代理配置。即无法使用上处的方法进行指定代理。

具体步骤如下:

  1. 导入 Selenium 相关模块。
  2. 创建 Chrome 浏览器的选项(Options)对象,并将调试端口设置为 “127.0.0.1:9527”,这意味着浏览器将连接到 Chrome 浏览器的开发者工具(DevTools)端口,以便进行远程调试。
  3. 初始化 Chrome WebDriver,将上述选项传递给 WebDriver。
  4. 打开 Chrome 浏览器,并连接到指定的调试端口。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options


if __name__ == '__main__':
    options = Options()
    options.add_experimental_option("debuggerAddress", "127.0.0.1:9527")
    driver = webdriver.Chrome(options=options)

    url = 'https://www.bilibili.com'
    driver.get(url)
    print(driver.title)	# 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

无法连接指定端口 Chrome浏览器

在命令行中启动 Chrome 浏览器时候,不要使用 --headless !!!会导致Selenium 无法连接。

问题复现

一般的,我们使用以下命令去指定chrome浏览器端口,--headless 可能是有意或无意添加的

[
	"--remote-debugging-port=9527",
	"--headless"
]

# 或者 命令行
chrome.exe --remote-debugging-port=9527 --user-data-dir="F:\selenium\AutomationProfile" --headless

这个时候,会发现,没有打开任何窗口。因为是无头模式!!!

在命令行执行 netstat -ano | findstr :9527,如下图所示:
在这里插入图片描述

现在你去访问:http://127.0.0.1:9527/json/version,可以看到下图所示:

  • 这表明远程调试接口是开启的

在这里插入图片描述


但如果我们使用以下代码去连接端口为 9527 的浏览器,则会报错!!!

options.add_experimental_option("debuggerAddress", "127.0.0.1:9527")
driver = webdriver.Chrome(options=options)

如果没有意外!则会抛出以下异常:

selenium.common.exceptions.WebDriverException: Message: unknown error: cannot connect to chrome at 127.0.0.1:9527
from unknown error: unable to discover open pages

这个问题其实是不应该发生的!!!

因为 无头模式 可能改变了与调试接口的交互方式或者其他相关配置,从而影响到了 Selenium 的连接。


如何解决

杀死全部的9527端口的进程,并注意在命令行中启动 Chrome 浏览器时候,不要使用 --headless

这个命令的目的是终止在指定端口上运行的进程,以便释放端口并停止与之相关的应用程序。请注意,使用 taskkill 命令会强制终止进程,因此要小心使用,以免意外终止重要的进程。

这个时候,我们需要在命令行执行以下命令,作用是终止在端口 9527 上运行的进程。(详细解释看下面)

  1. netstat -ano | findstr :9527:这部分命令用于查找在端口 9527 上运行的进程的 PID。netstat 列出了所有网络连接,而 findstr :9527 过滤出包含端口 9527 的行,显示它们的 PID。

  2. for /f "tokens=5" %a in (...) do ...for 命令用于处理上述命令的输出。它将提取 netstat 输出中的 PID,并将其存储在 %a 变量中。

  3. taskkill /F /PID %a:一旦 PID 被提取并存储在 %a 中,taskkill 命令将使用这个 PID 终止相关进程。

for /f "tokens=5" %a in ('netstat -ano ^| findstr :9527') do taskkill /F /PID %a

kill PID

for /f "tokens=5" %a in ('netstat -ano ^| findstr :9527') do taskkill /F /PID %a

这段命令是一个用于在 Windows 命令提示符中终止在特定端口(9527)上运行的进程的复合命令。下面是这个命令的解释:

  1. for /f "tokens=5" %a in ('netstat -ano ^| findstr :9527') do ...:这部分命令使用 for 循环来处理输出结果。它的作用是执行以下操作:

    • for /f:这表示使用 for 命令来进行循环迭代。
    • "tokens=5":这指定了循环要提取的令牌(token),在这里我们提取第五个令牌。在这个上下文中,第五个令牌是 netstat 输出中的进程标识符(PID)。
    • %a:这是一个变量,用于存储从 netstat 命令输出中提取的 PID。
  2. ('netstat -ano ^| findstr :9527'):这部分是在 for 命令内部的命令,它会产生一系列数字,这些数字代表在端口 9527 上运行的进程的 PID。它的工作步骤如下:

    • netstat -ano:这部分执行 netstat 命令,用于列出所有活动网络连接及其相关信息。-ano 标志告诉 netstat 显示所有连接的详细信息,并显示每个连接的 PID。
    • ^|:这是一个管道符号 |,用于将 netstat 的输出传递给下一个命令,即 findstr
    • findstr :9527:这部分命令用于过滤 netstat 输出,只保留包含端口号 9527 的行,这些行包括了我们关心的进程信息。
  3. taskkill /F /PID %a:一旦 for 循环提取了 netstat 输出中的 PID(存储在 %a 中),这部分命令使用 taskkill 命令来终止这些进程。具体地:

    • taskkill:这是用于终止进程的命令。
    • /F:这是 taskkill 的标志,表示要强制终止进程,即无需用户确认。
    • /PID %a:这是指定要终止的进程的 PID,其中 %a 包含了在 for 循环中提取的 PID。

因此,整个命令的作用是找到所有在端口 9527 上运行的进程的 PID,然后使用 taskkill 命令将它们终止掉。这可以帮助我们清除特定端口上的活动进程。需要注意使用此命令,以免终止不必要的进程。

未完待续

将持续更新,常见的Selenium的操作 和 疑难杂症等!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/218318.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【滑动窗口】LeetCode2953:统计完全子字符串

作者推荐 [二分查找]LeetCode2040:两个有序数组的第 K 小乘积 本题其它解法 【离散差分】LeetCode2953:统计完全子字符串 题目 给你一个字符串 word 和一个整数 k 。 如果 word 的一个子字符串 s 满足以下条件,我们称它是 完全字符串: s 中每个字符…

【UGUI】sprite精灵的创建与编辑

如何切图(sprite editor) 有时候一张图可能包含了很多张子图,就需要在Unity 临时处理一下,切开,比如动画序列帧图集 虽然我们可以在PS里面逐个切成一样的尺寸导出多张,再放回Unity,但是不需要这…

通讯录管理系统(基于C语言)

模块设计 本通讯录管理系统功能模块共包括9个部分:1.输入数据、2.显示数据、 3.插入数据、4.删除数据、5.查看数据、6.修改数据、7.保存数据、 8.返回主菜单、9.退出系统. 一.总体设计 通讯录的每一条信息包括:姓名、性别、住址、联系电话…

[leetcode ~二叉树] 模版

文章目录 1. 左叶子之和2. 翻转二叉树 E 1. 左叶子之和 :::details 给定二叉树的根节点 root ,返回所有左叶子之和。 示例 1: 输入: root [3,9,20,null,null,15,7] 输出: 24 解释: 在这个二叉树中,有两个左叶子,分别是 9 和 15&…

java生成邮件eml文件例子

提前导入javamail.jar 仓库地址 仓库服务 导入引用类方法 import javax.mail.Message; import javax.mail.Session; import javax.mail.internet.InternetAddress; import javax.mail.internet.MimeMessage; import java.io.FileOutputStream; import java.util.Properties…

10、外观模式(Facade Pattern,不常用)

外观模式(Facade Pattern)也叫作门面模式,通过一个门面(Facade)向客户端提供一个访问系统的统一接口,客户端无须关心和知晓系统内部各子模块(系统)之间的复杂关系,其主要…

利用DateFormat、Date、Calendar等相关类,编程实现如下功能

(1)用户输入2个日期,第一个日期用整数形式输入,把输入的整数设置为日历对象1的年月日的值。第二个日期以字符串形式输入,形如“2022-10-25”,并设置为日历对象2的年月日的值。将2个日期以“xx年xx月xx日”的…

国际语音呼叫中心适用的行业有哪些?

国际语音呼叫中心的出现,使企业可以在全球范围内提供统一的客户支持,有效地解决客户服务、市场营销等国际性电话沟通问题,为企业提供了卓越的全球客户服务,确保客户在不同国家和地区之间获得一致的、高质量的支持。那么哪些行业适…

熬夜会秃头——beta冲刺Day5

这个作业属于哪个课程2301-计算机学院-软件工程社区-CSDN社区云这个作业要求在哪里团队作业—beta冲刺事后诸葛亮-CSDN社区这个作业的目标记录beta冲刺Day5团队名称熬夜会秃头团队置顶集合随笔链接熬夜会秃头——Beta冲刺置顶随笔-CSDN社区 一、团队成员会议总结 1、成员工作…

代码随想录刷题题Day5

刷题的第五天,希望自己能够不断坚持下去,迎来蜕变。😀😀😀 刷题语言:C / Python Day5 任务 ● 哈希表理论基础 ● 242.有效的字母异位词 ● 349. 两个数组的交集 ● 202. 快乐数 ● 1. 两数之和 1 哈希表理…

Db2的Activity event monitor在Db2 MPP V2上收集ROWS_INSERTED信息

注:本文不是讲解Db2 Activity event monitor,只是一个用法实践。要了解Activity event monitor,请参考 https://www.ibm.com/docs/en/db2/11.5?topicevents-activity-event-monitoring 。 环境 Red Hat Enterprise Linux release 8.8 (Oot…

“构建智慧城市,共享美好生活“2024杭州国际智慧城市展览会

智慧城市作为当今社会发展的必然趋势,正在被越来越多的企业和观众所关注。为了进一步推动智慧城市的发展,2024杭州智慧城市展览会将于4月份在杭州国际博览中心盛大召开。目前,招商工作已近半程,大批国内外知名企业踊跃报名&#x…

会话技术(Cookie与Session)

会话技术 一.作用域对象 1.作用域对象概述 有作用域的对象作用域对象可以用来存储数据并且可以在不同的组件之间进行传递传递的范围受作用域的限制,一旦超过范围,立即失效 2.两个作用域对象 作用域对象描述request对象作用范围是一次请求ServletCon…

3D Gaussian Splatting的使用

3D Gaussian Splatting的使用 1 下载与安装2 准备场景样本2.1 准备场景照片2.1.1 采集图片2.1.2 生成相机位姿 3 训练4 展示 1 下载与安装 今年SIGGRAPH最佳论文,学习了一下,果然厉害,具体论文原理就不说了,一搜都有,…

HOST文件被挟持,无法上网,如何解决。

问题: 晚上开机,突然发现无法联网,提示网络异常 解决: 首先网络诊断,host文件被劫持,修复后,仍然不行。 然后测试手机热点,发现仍然无法联网 尝试用火绒修复,无果。 所有…

安路Anlogic FPGA下载器的驱动安装教程

安路FPGA下载器驱动安装教程 安路FPGA下载器:EN-ALC10,是一款高性能FPGA下载线(编程器),支持安路的开发软件TDS和全系列FPGA芯片下载编程,支持全速USB2.0与电脑进行数据通信,通过JTAG协议与FPGA进行程序下…

【mysql】基于binlog数据恢复指令和坑

文章目录 1.binlog相关配置是否开启binlogbinlog日志格式 2.导出binlog日志mysqlbinlog指令updateinsertdeletebinlog中的事件 3.数据恢复4.特别注意的坑为什么bash脚本执行mysqlbinlog,无法找到指令为什么执行mysqlbinlog,无法数据恢复 1.binlog相关配置…

【杂】解决关于mean(0)理解错误引发的程序bug

一、环境和解释器要一起配置好 invalid syntax 发生你在终端激活了一个环境,但 VSCode 依然使用之前的解释器的情况。 解释器设置影响了 VSCode 中运行 Python 脚本、调试、代码补全等功能的行为。VSCode 会根据你选择的解释器来执行这些操作。 二、关于mean&#x…

【c】序列中整数去重

数组中的元素不好直接删除&#xff0c;我们可以把重复的数做标记&#xff0c;将他赋值为0&#xff0c;然后正常打印数组&#xff0c;为0的跳过 #include<stdio.h> int main() {int n;scanf("%d",&n);int arr[n1];for(int i1;i<n;i){scanf("%d&quo…

fastadmin列表头部按钮批量上传视频

上传界面通过layui生成 index.html <a href="{:url(video/piliangadd)}" class="btn btn-success btn-piliangadd btn-dialog {:$auth->check(video/piliangadd)?:hide}" title="批量上传" ><i class="fa fa-plus">…