使用Selenium时,如何模拟正常用户行为?

在这里插入图片描述

Selenium作为自动化测试和网页数据抓取的利器,被广泛应用于自动化网页交互、爬虫开发等领域。然而,随着网站反爬虫技术的不断升级,简单的自动化脚本很容易被识别和阻止。因此,模拟正常用户行为,降低被检测的风险,成为Selenium使用者必须掌握的技能。本文将详细介绍如何使用Selenium模拟正常用户行为,并提供相应的代码实现过程。

模拟用户行为的重要性

在进行网页自动化操作时,如果行为模式与正常用户显著不同,很容易被网站的反爬虫机制识别。例如,正常用户在浏览网页时会有随机的停留时间、不规则的点击路径和自然的文字输入节奏。而自动化脚本往往表现出高频率的请求、固定的操作模式和缺乏人性化的交互行为。因此,模拟正常用户行为对于提高Selenium脚本的稳定性和成功率至关重要。

模拟用户行为的策略

1. 随机化请求间隔

正常用户在浏览网页时,操作之间会有随机的间隔。通过在操作之间添加随机延迟,可以模拟这种自然行为。

python

import time
import random

def random_sleep(min_seconds=1, max_seconds=3):
    time.sleep(random.uniform(min_seconds, max_seconds))

# 示例:在两个操作之间添加随机延迟
random_sleep()
driver.get('https://www.example.com')
random_sleep()
driver.find_element_by_id('some-button').click()

2. 使用随机的用户代理

用户代理(User-Agent)是浏览器标识自己的字符串,不同的浏览器和设备有不同的User-Agent。通过设置随机的User-Agent,可以使请求看起来来自不同的浏览器。

from selenium import webdriver
from selenium.webdriver.common.proxy import Proxy, ProxyType

# 定义代理服务器的详细信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 设置代理
proxy = Proxy({
    'proxyType': ProxyType.MANUAL,
    'httpProxy': f'{proxyHost}:{proxyPort}',
    'sslProxy': f'{proxyHost}:{proxyPort}',
    'ftpProxy': f'{proxyHost}:{proxyPort}',
    'noProxy': ''  # 指定不通过代理访问的地址,为空则无限制
})

# 设置代理认证信息(如果代理服务器需要)
proxy.add_to_capabilities({
    'proxyAuthConfig': {
        'username': proxyUser,
        'password': proxyPass
    }
})

# 设置用户代理
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Safari/605.1.15",
    # 更多User-Agent字符串...
]

random_user_agent = random.choice(user_agents)
options = webdriver.ChromeOptions()
options.add_argument(f'user-agent={random_user_agent}')

# 使用带有代理设置的ChromeDriver
driver = webdriver.Chrome(options=options, proxy=proxy)

3. 模拟鼠标移动和点击

使用Selenium的ActionChains类,可以模拟鼠标的移动和点击,增加操作的自然性。

python

from selenium.webdriver.common.action_chains import ActionChains

element = driver.find_element_by_id('some-button')
action = ActionChains(driver)
action.move_to_element(element).click().perform()

4. 输入文本时的延迟

模拟真实用户输入文本时的速度和节奏,可以通过逐个字符输入并添加延迟。

python

def type_randomly(input_element, text):
    for char in text:
        input_element.send_keys(char)
        time.sleep(random.uniform(0.1, 0.5))  # 随机延迟模拟打字速度

input_field = driver.find_element_by_id('input-field-id')
type_randomly(input_field, 'Hello, World!')

5. 模拟滚动

模拟用户滚动页面的行为,可以使用JavaScript或Selenium的滚动功能。

python

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

6. 处理弹窗和提示

及时处理网页中的弹窗、提示框或验证码,模拟用户的交互。

python

try:
    alert = driver.switch_to.alert
    alert.accept()  # 接受弹窗
except:
    pass

7. 随机访问页面

随机选择访问的页面或元素,避免频繁访问同一页面。

python

pages = ["https://www.example1.com", "https://www.example2.com", "https://www.example3.com"]
driver.get(random.choice(pages))

8. 使用显式等待

使用显式等待,确保元素在可交互状态后再进行操作,模拟用户的耐心等待。

python

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

wait = WebDriverWait(driver, 10)
element = wait.until(EC.element_to_be_clickable((By.ID, 'some-button')))
element.click()

9. 模拟浏览器行为

通过设置浏览器窗口大小、分辨率等,模拟不同设备的访问。

python

driver.set_window_size(1024, 768)  # 设置窗口大小

结论

通过上述方法,我们可以有效地模拟正常用户的行为,降低Selenium脚本被网站反爬虫机制识别的风险。然而,需要注意的是,这些技术的使用应当遵守网站的服务条款,并且不应该用于任何非法或不道德的活动。在享受自动化带来的便利的同时,我们也应该尊重网站的规则和用户的隐私。通过合理、合法地使用Selenium,我们可以在遵守规则的前提下,有效地收集和分析网络数据,为决策提供支持

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/899613.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springmvc+jdk1.8升级到springboot3+jdk17(实战)

1.查找springboot3官方要求 这里查的是springboot 3.2.6版本的 2.升级jdk到17 Java EE 8之后,Oracle在19年把javax捐给了eclipse基会,但不允许使用javax的命名空间,所以eclipse才发展成为现在的Jakarta ee标准。Springboot3后使用Jakarta a…

HTML简单版的体育新闻案例

代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Document</title> &l…

使用QT绘图控件QCustomPlot绘制波形图

使用QT绘图控件QCustomPlot绘制波形图 下载QCustomPlot 下载QCustomPlot,链接路径 解压之后就能看到源代码了 在Qt中添加QCustomPlot的帮助文档 在Qt Creator的菜单:工具–>选项–>帮助–>文档–>添加qcustomplot\documentation\qcustomplot.qch文件。

windbg调试exedump步骤,技巧总结

所有信息参考官方文档&#xff1a;开始使用 WinDbg&#xff08;用户模式&#xff09; - Windows drivers | Microsoft Learn 需要着重关注的标签页如下&#xff1a; 用户模式&#xff08;入门&#xff09; 命令摘要 Help 菜单上的命令 Contents.sympath&#xff08;设置符号…

解锁PDF权限密码

目录 背景: 定义与功能&#xff1a; 过程&#xff1a; 主要功能&#xff1a; 使用方式&#xff1a; 使用限制&#xff1a; 注意事项&#xff1a; 总结&#xff1a; 背景: 前段时间自己设置了PDF文件的许可口令&#xff0c;忘了口令导致自己无法编辑内容等&#xff0c;这…

OpenCV和HALCON

OpenCV和HALCON是两种广泛用于图像处理和计算机视觉的开发库&#xff0c;它们各有优缺点&#xff0c;适合不同的应用场景。以下是两者的比较&#xff1a; 1. 开发背景与定位 OpenCV (Open Source Computer Vision Library)&#xff1a; 开源库&#xff0c;最初由Intel开发&…

Matlab中计算道路曲率的几种方法

我使用Prescan采集到的道路中心线数据&#xff0c;都是离散点&#xff08;x&#xff0c;y&#xff0c;z&#xff09;&#xff0c;但在作研究时&#xff0c;通常都是道路曲率&#xff0c;这时需要将离散点坐标转换为曲率&#xff0c;但通过计算得到的曲率与实际曲率有一些误差&a…

sentinel原理源码分析系列(八)-熔断

限流为了防止过度使用资源造成系统不稳&#xff0c;熔断是为了识别出”坏”资源&#xff0c;避免好的资源受牵连(雪崩效应)&#xff0c;是保证系统稳定性的关键&#xff0c;也是资源有效使用的关键&#xff0c;sentinel熔断插槽名称Degrade(降级)&#xff0c;本人觉得应该改为熔…

怎么提取pdf的某一页?批量提取pdf的某一页的简单方法

怎么提取pdf的某一页&#xff1f;在日常工作与学习中&#xff0c;我们经常会遇到各式各样的PDF文件&#xff0c;它们以其良好的兼容性和稳定性&#xff0c;成为了信息传输和存储的首选格式。然而&#xff0c;在浩瀚的文档海洋中&#xff0c;有时某个PDF文件中的某一页内容尤为重…

一篇文章进阶MySQL数据库

一&#xff0c;MySQL数据库体系结构 层级说明连接层主要完成一些类似于连接处理&#xff0c;授权认证&#xff0c;及相关的安全方案。服务器也会为安全接入的每个客户端验证它所具有的操作权限服务层完成大多数的核心服务功能&#xff0c;如SQL接口&#xff0c;并完成缓存的查询…

使用 Pake 一键打包网页为桌面应用 / 客户端

项目 项目&#xff1a;https://github.com/tw93/Pake/ 免费ICO图片&#xff1a;https://icon-icons.com/zh/ 设置环境 以下教程仅针对windows系统适用 请确保您的 Node.js 版本为 18 或更高版本 文档&#xff1a;https://v1.tauri.app/zh-cn/v1/guides/getting-started/prerequ…

java小游戏实战-星空大战(接口、继承、多态等多种方法)

环境&#xff1a;Windows系统Eclipse/idea、jdk8 1.创建英雄类 2.创建飞机类 3.创建敌人接口 package com.plane;public interface Enemy { /* *得分的方法 */ public int getScore(); } 4.创建小蜜蜂类 5.创建奖励接口 package com.plane;public interface Award {public …

【Linux笔记】Linux命令与使用

博文将不断学习补充 学习参考博文&#xff1a; Linux命令大全&#xff1a;掌握常用命令&#xff0c;轻松使用Linux操作系统-CSDN博客 文件或目录操作命令 zip # zip是使用最多的文档压缩格式 # 方便跨平台使用&#xff0c;但是压缩率不是很高 zip指令未安装 安装zip yum ins…

深度学习相关知识点

文章目录 epoch/batch/batch_size的关系dense visual predictionlogits epoch/batch/batch_size的关系 Epoch&#xff1a;模型在整个数据集上完成一次训练。一个epoch后&#xff0c;模型已经看过所有的训练数据&#xff0c;执行了正向传播和反向传播。通常训练需要多个epoch&a…

【C#】搭建环境之CSharp+OpenCV

在我们使用C#编程中&#xff0c;对图片处理时会用到OpenCV库&#xff0c;以及其他视觉厂商提供的封装库&#xff0c;这里因为OpenCV是开源库&#xff0c;所以在VS资源里可以直接安装使用&#xff0c;这里简单说明一下搭建的步骤及实现效果&#xff0c;留存。 1. 项目创建 1.1…

055_基于python摄影平台交流系统

目录 系统展示 开发背景 代码实现 项目案例 获取源码 博主介绍&#xff1a;CodeMentor毕业设计领航者、全网关注者30W群落&#xff0c;InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者&#xff0c;博客领航之星、开发者头条/腾讯云/AW…

【笔试题】字节秋招笔试 TODO

&#x1f517; 参考地址 亮灭 &#x1f517; 亮灭 &#x1f389; 模拟 import java.util.Scanner;public class Main {// 亮灯数组&#xff1a;a[1][2][3] 表示 数字1的第2行第3列&#xff0c;1 表示亮static int[][][] a new int[10][10][10];public static void main(Str…

python机器人编程——用python调用API控制wifi小车的实例程序

目录 一、前言二、一个客户端的简单实现2.1 首先定义一个类及属性2.2 其次定义连接方法2.3 定义一些回调函数2.4 定义发送小车指令方法2.5 定义一个正常关闭方法 三、python编程控制小车的demo实现四、小结PS.扩展阅读ps1.六自由度机器人相关文章资源ps2.四轴机器相关文章资源p…

从0开始linux(19)——如何写一个linux环境下运行的shell程序

欢迎来到博主的专栏&#xff1a;从0开始Linux 博主ID&#xff1a;代码小豪 文章目录 bashmyshell源码 bash 什么&#xff1f;我写bash&#xff1f;bash作为一个大型的shell程序&#xff0c;甚至已经成为一种语言。博主当然没能力复刻。 博主这里写了一个仿bash的shell程序。主…

Linux:文件系统基础命令扫盲

目录 查看目录下的文件 创建目录文件 删除目录文件 打印当前工作目录 切换工作目录 删除文件 复制文件或目录 移动文件或目录 创建文件 &#x1f680;主页&#xff1a;R6bandito_ ✈往期&#xff1a;《Linux与Windows文件共享》 查看目录下的文件 命令&#xff1a;ls …