动态渲染页面爬取

我们可以直接使用模拟浏览器运行的方式来实现,这样就可以做到在浏览器中看到是什么样,抓取的源码就是什么样,也就是可见即可爬。这样我们就不用再去管网页内部的 JavaScript 用了什么算法渲染页面,不用管网页后台的 Ajax 接口到底有哪些参数。

要使用 selenium 必须先安装 chromedriver 驱动 驱动版本要和 chrome 版本一致:

  1. 首先禁止chorme 自动更新 host 文件配置 127.0.0.1 update.googleapis.com
  2. 下载一个历史版本的 chrome https://google-chrome.cn.uptodown.com/windows/download/1025823664
  3. 并下载对应的驱动 https://edgedl.me.gvt1.com/edgedl/chrome/chrome-for-testing/119.0.6045.105/win64/chromedriver-win64.zip # 119.0.6045.105 是可以修改成对应的版本号
  4. 这个可以拿到最新的驱动版本 https://blog.csdn.net/qq_42771102/article/details/142853514

Selenium介绍

Selenium 是一个强大的开源自动化测试工具,主要用于Web应用程序的测试。它支持多种浏览器(如Chrome, Firefox, Safari, Edge等)和操作系统(包括Windows, macOS, Linux等)。Selenium提供了一个名为WebDriver的API,允许开发者通过编写代码来控制浏览器行为,从而实现网页加载、表单填写、按钮点击等操作的自动化。

Selenium 主要用途:

  1. Web应用测试:Selenium最广泛的应用场景是用于自动化Web应用的功能测试。它可以模拟用户与网站或Web应用之间的交互过程,比如登录、导航到不同页面、提交表单等。
  2. 跨浏览器兼容性测试:由于Selenium支持多款主流浏览器,因此非常适合用来检查Web应用在不同浏览器环境下的表现是否一致。
  3. 持续集成(CI)环境:结合Jenkins、Travis CI等持续集成工具使用时,Selenium可以帮助团队自动运行测试用例,并及时反馈结果,提高软件开发效率。
  4. 爬虫技术:虽然不是其设计初衷,但有些人也会利用Selenium来进行网页数据抓取,特别是当目标网站采用了JavaScript渲染内容时,传统的HTTP请求方式可能无法获取完整信息。

Selenium 组件介绍:

  • Selenium WebDriver:这是目前最常用的组件之一,提供了丰富的接口供编程语言调用以操控浏览器。
  • Selenium IDE (Integrated Development Environment):一个浏览器插件形式存在的简易记录回放工具,适用于快速创建简单的测试脚本。
  • Selenium Grid:允许多台机器并行执行测试任务,提高了大规模测试的效率。
    总之,Selenium是一个非常灵活且功能强大的工具集,对于任何需要进行Web自动化的人来说都是不可或缺的好帮手。无论是专业的质量保证工程师还是希望提升工作效率的前端开发者,都可以从中受益。

打开浏览器

def open_browser():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.baidu.com')
        # 使用 find_element 方法和 By.ID
        input_box = browser.find_element(By.ID, 'kw')
        # 输入搜索内容
        input_box.send_keys('街拍')
        # 点击搜索按钮
        input_box.send_keys(Keys.ENTER)
        # 等待页面加载完成
        wait = WebDriverWait(browser, 10)
        wait.until(EC.presence_of_element_located((By.ID, 'content_left')))
        # 打印页面标题
        print(browser.current_url)  # 打印当前页面的 url
        print(browser.get_cookies())  # 打印 cookie
        print(browser.page_source)  # 打印页面源代码
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

访问网页

def open_url():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.baidu.com')
        # 打印页面标题
        print(browser.title)  # 打印当前页面的标题
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

查找节点

Selenium 可以驱动浏览器完成各 操作 ,比如填充表单、模拟点击等  Selenium 提供了 系列查找节点的方法,我们可以用这些方法来获取想要的节点,以便下一步执行一些动作或者提取信息

# find_element_by_id 方法可以根据 id 属性来查找节点

# find_element_by_name 方法可以根据 name 属性来查找节点

# find_element_by_xpath 方法可以根据 xpath 表达式来查找节点

# find_element_by_link_text 方法可以根据链接文本来查找节点

# find_element_by_partial_link_text 方法可以根据部分链接文本来查找节点

# find_element_by_tag_name 方法可以根据标签名来查找节点

# find_element_by_class_name 方法可以根据类名来查找节点

# find_element_by_css_selector 方法可以根据 CSS 选择器来查找节点
def find_element():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.xiaohongshu.com/user/profile/5768f3576a6a6977158b1e24?xsec_token=&xsec_source=pc_search')
        # 使用class name 查找头像框
        avatar = browser.find_element(By.CLASS_NAME,'avatar-wrapper')
        # 查找里面的<img>标签
        img = avatar.find_element(By.TAG_NAME,'img')
        # 获取图片的src属性
        print(img.get_attribute('src'))
        # 将图片保存到本地
        img.screenshot('avatar.png')
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

查找多个节点

def find_elements():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.xiaohongshu.com/user/profile/5768f3576a6a6977158b1e24?xsec_token=&xsec_source=pc_search')
        # 使用class name 查找所有标签
        channels = browser.find_elements(By.TAG_NAME,'channel')
        for channel in channels:
            # 获取每个标签的文本内容
            print(channel.text)
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器
        ## 等待元素加载完成

动作链

def action_chains():
    browser = webdriver.Chrome()
    try:
        browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
        browser.switch_to.frame('iframeResult')
        source = browser.find_element(By.CLASS_NAME,'ui-draggable')
        target =  browser.find_element(By.CLASS_NAME,'ui-droppable')
        actions = ActionChains(browser)
        actions.drag_and_drop(source, target)
        actions.perform()
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

执行某些 JavaScript 代码

def execute_js():
    browser = webdriver.Chrome()
    try:
        browser.get('https://www.zhihu.com/explore')
        browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
        browser.execute_script('alert("To Bottom")')
    except Exception as e:
        print(e)
    finally:
        input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
        browser.quit()  # 确保在最后关闭浏览器

#获取节点信息
#get_attribute 方法可以获取节点的属性值
# print(input.id)
#print(input.text)
#print(input.location)
#print(input.tag_name)
#print(input.size)
#调用其 id、location、tag_name、size 属性来获取对应的属性值。

其他的操作

切换Frame
切换到指定的Frame,可以使用 switch_to.frame 方法,参数可以是 frame 元素的 id、name、索引、WebElement 对象。
def switch_frame():
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
try:
logo = browser.find_elements(By.CLASS_NAME,'logo')
except NoSuchElementException:
print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_elements(By.CLASS_NAME,'logo')
print(logo)
input("按回车键关闭浏览器...")  # 等待用户输入后关闭浏览器
browser.quit()  # 确保在最后关闭浏览器

前进和后退
前进和后退操作可以使用 back 和 forward 方法,前进和后退到历史记录中的某一页。
def forward_back():
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

Cookies
可以使用 add_cookie 方法添加 cookie,并使用 get_cookies 方法获取所有 cookie。
def cookies():
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
browser.delete_all_cookies()
print(browser.get_cookies())

选项卡管理
可以使用 window_handles 方法获取所有选项卡的句柄,并使用 switch_to.window 方法切换到指定选项卡。
def tab_management():
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to.window(browser.window_handles[1])  # 切换到第二个选项卡
browser.get('https://www.taobao.com')
time.sleep(1)
browser.switch_to.window(browser.window_handles[0])  # 切换到第一个选项卡
browser.get('https://python.org')

tab_management()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/922044.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java-08 深入浅出 MyBatis - 多对多模型 SqlMapConfig 与 Mapper 详细讲解测试

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 大数据篇正在更新&#xff01;https://blog.csdn.net/w776341482/category_12713819.html 目前已经更新到了&#xff1a; MyBatis&#xff…

字符串专题 算法小题

感觉很久不做题了, 本身自己虽然就没水平就是啦哈哈~ 那下面分享几道最近写的几道题, 都很简单, 是关于"字符串"的, 只不过会稍微用到一点代码能力就是了, 算是比较基础的题目. 目录 1.最长公共区域(⭐⭐⭐ 代码)1.1 题目描述1.2 题目思路方法1: 两两求公共区域方法2…

虚拟化的三种方式

1.前言 Virtualization(虚拟化)是让公开的虚拟资源等同于被虚拟化的底层物理资源。虚拟化在各个领域应用很广泛&#xff0c;不局限于计算机科学领域。无论是在硬件、软件还是在嵌入式子系统中&#xff0c;虚拟化总是使用或组合三种简单的技术来实现的&#xff1a;多路复用(Mul…

使用yolov5查看模式标注情况

import cv2 from ultralytics import YOLO# 加载模型 model YOLO(E:\\yolov\\yolov9\\runs\\detect\\train4\\weights\\best.pt) # 替换为您的模型路径# 读取视频文件 cap cv2.VideoCapture(5.mp4) # 替换为您的视频文件路径# 定义输出视频的编码器和创建VideoWriter对象 f…

Rust 力扣 - 198. 打家劫舍

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 假设f(i)表示在[1, i]号内的房屋内进行偷盗能够获得的最高金额 存在递推公式 f(i) max(f(i - 1), f(i - 2) nums[i]) 即f(i)为选择i - 1号房屋的最大金额 和 选择i - 2号房屋的最大金额 的最大值 题解代码 …

Redis持久化、主从及哨兵架构详解

Redis持久化 RDB快照&#xff08;snapshot&#xff09; 在默认情况下&#xff0c;Redis将内存数据库快照保存在名字为dump.rdb的二进制文件中。 你可以对Redis进行设置&#xff0c;让它在“N秒内数据集至少有M个改动”这一条件被满足时&#xff0c;自动保存一次数据集。 比…

解决启动Tomcat时出现的乱码问题

日志乱码 日志乱码就是启动Tomcat时红色的字体出现乱码&#xff08;下图没有乱码&#xff09;。 解决方案 &#xff1a; 找到Tomcat的安装目录&#xff0c;点进conf目录 点进logging.properties文件 找到java.util.logging.ConsoleHandler.encoding字段&#xff0c;修改成GBK…

网络爬虫——常见问题与调试技巧

在开发网络爬虫的过程中&#xff0c;开发者常常会遇到各种问题&#xff0c;例如网页加载失败、数据提取错误、反爬机制限制等。以下内容将结合实际经验和技术方案&#xff0c;详细介绍解决常见错误的方法&#xff0c;以及如何高效调试和优化爬虫代码。 1. 爬虫过程中常见的错误…

初识Linux(3):Linux基础环境工具(上)

目录 1. yum 1.1 软件的生态 1.2 yum使用 2. vim 4. vim三种模式的更详细命令 5. gcc 6. 重要概念&#xff1a;函数库 7. 动态库与静态库 8. 自动化构建工具&#xff1a;make/Makefile .PHONY 9. make 与 是否执行 %通识符 生成两个可执行程序 10.练习 &#xff…

负载均衡在线OJ项目

OnlineJudge 前言所用技术开发环境 1. 需求分析2. 项目宏观结构3. compile_server服务设计3.1 compiler服务设计3.2 runner服务设计3.3 compile_run3.4 compile_server.cpp 4. oj_server服务设计4.1 model设计4.2 view设计4.3 control设计4.3.1 获取题目列表功能4.3.2 获取单个…

Kafka 分区分配及再平衡策略深度解析与消费者事务和数据积压的简单介绍

Kafka&#xff1a;分布式消息系统的核心原理与安装部署-CSDN博客 自定义 Kafka 脚本 kf-use.sh 的解析与功能与应用示例-CSDN博客 Kafka 生产者全面解析&#xff1a;从基础原理到高级实践-CSDN博客 Kafka 生产者优化与数据处理经验-CSDN博客 Kafka 工作流程解析&#xff1a…

使用argo workflow 实现springboot 项目的CI、CD

文章目录 基础镜像制作基础镜像设置镜像源并安装工具git下载和安装 Maven设置环境变量设置工作目录默认命令最终dockerfile 制作ci argo workflow 模版volumeClaimTemplatestemplatesvolumes完整workflow文件 制作cd argo workflow 模版Workflow 结构Templates 定义创建 Kubern…

进程间通信--详解

目录 前言一、进程间通信介绍1、进程间通信目的2、进程间通信发展3、进程间通信的分类4、进程间通信的必要性5、进程间通信的技术背景6、进程间通信的本质理解 二、管道1、什么是管道2、匿名管道pipe&#xff08;1&#xff09;匿名管道的原理&#xff08;2&#xff09;pipe函数…

【虚拟机】VMWare的CentOS虚拟机断电或强制关机出现问题

VMware 虚拟机因为笔记本突然断电故障了&#xff0c;开机提示“Entering emergency mode. Exit the shell to continue.”&#xff0c;如下图所示&#xff1a; 解决方法&#xff1a;输入命令&#xff1a; xfs_repair -v -L /dev/dm-0 注&#xff1a;报 no such file or direct…

FinalShell进行前端项目部署及nginx配置

首先需要准备服务器(阿里云、腾讯云都可)与域名&#xff1b; 示例为阿里云服务器&#xff1b; 1.进行FinalShell下载 下载官网 https://www.hostbuf.com/ 2.下载完毕后 配置FinalShell ssh ​ 名称自定义即可&#xff01; 2-1 提示连接成功 ​ 3.首先检查nginx是否下载 …

[RabbitMQ] 重试机制+TTL+死信队列

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

(附项目源码)Java开发语言,220 ssm电影推荐系统的分析与设计,计算机毕设程序开发+文案(LW+PPT)

目 录 摘 要 Abstract 第1章 前 言 1.1 研究背景 1.2 研究现状 1.3 系统开发目标 第2章 技术与原理 2.1 开发技术 2 2.2 ssm框架介绍 2 2.3 MySQL数据库 2 2.4 B/S结构 2 第3章 需求分析 3.1 需求分析 3.2 系统可行性分析 3.3 项目设计目标与原则 3.4…

--- 文件IO java ---

文本文件和二进制文件 文件再底层其实就是以一段二进制数据的形式储存的&#xff0c;当我用记事本打开文件时&#xff0c;有些文件会出现乱码&#xff0c;这就是二进制文件&#xff0c;而有一些文件是特殊的&#xff0c;他以特定的编码方式&#xff08;比如ascll&#xff09;可…

Linux各种并发服务器优缺点

本文旨在介绍针对“无并发C/S模型”改进的方法总结以及各种改进方法的优缺点&#xff0c;具体函数的实现并不介绍。 1. 无并发C/S模型 创建服务器流程分析&#xff1a; socket()创建服务器的监听套接字bind()将服务器给服务器的监听套接字绑定IP地址和Port端口号listen()设置…

Perforce《2024游戏技术现状报告》Part3:生成式AI、版本控制、CI/CD等游戏技术的未来趋势与应用

游戏开发者一直处于创新前沿。他们的实践、工具和技术受到各行各业的广泛关注&#xff0c;正在改变着组织进行数字创作的方式。 近期&#xff0c;Perforce发布了《2024游戏技术现状报告》&#xff0c;通过收集来自游戏、媒体与娱乐、汽车和制造业等高增长行业的从业者、管理人…