【DrissionPage爬虫库 1】两种模式分别爬取Gitee开源项目

文章目录

    • DrissionPage爬虫库简介
      • 1. 浏览器操控模式(类似于游戏中的后台模拟鼠标键盘)
      • 2. 数据包收发模式(类似于游戏中的协议封包)
    • 实战中学习
      • 需求:爬取Gitee开源项目的标题与描述
      • 解决方案1:用数据包方式获取
      • 解决方案2:用操控浏览器方式获取

DrissionPage爬虫库简介

DrissionPage爬虫库提供了两种主要模式,分别为:

1. 浏览器操控模式(类似于游戏中的后台模拟鼠标键盘)

优点:

  • 快速实现数据获取需求
  • 相对简单易用

缺点:

  • 执行效率较慢
  • 可能存在不稳定性

2. 数据包收发模式(类似于游戏中的协议封包)

优点:

  • 高效执行
  • 可以绕过浏览器限制,自由获取数据

缺点:

  • 需要耗费较多时间进行逆向分析

你可以单独使用其中一种模式,也可以交替使用两种模式。这正是我对它感兴趣的原因。有时候,我们只是想简单获取一些数据,而不愿花费时间分析数据包。关于如何安装DrissionPage库,这里直接跳过,请查阅作者网站的安装步骤。作者提供了详细的使用文档,但我觉得针对初学者的角度,有必要写一篇自己的学习总结。初学者需要根据自身的知识水平,制定适合自己的学习流程。通过实践,发现不熟悉的地方,再去学习。


实战中学习

需求:爬取Gitee开源项目的标题与描述

在这里插入图片描述

解决方案1:用数据包方式获取

F12分析数据包得出结论:

Get:
https://api.indexea.com/v1/search/widget/wjawvtmm7r5t25ms1u3d?query=1048&q=DrissionPage&from=0&size=20&sort_by_f=
Response:
{
  "took": 0,
  "hits": {
    "total": {
      "value": 13,
      "relation": "eq"
    },
    "max_score": 185.50804,
    "hits": [
      {
        "_index": 1027,
        "_id": "9101163",
        "_score": 185.50804,
        "fields": {
          "last_push_at": [
            "2024-05-14 17:08:51"
          ],
          "license": [
            "BSD-3-Clause"
          ],
          "fork": [
            0
          ],
          "count.fork": [
            842
          ],
          "description": [
            "基于python的网页自动化工具。既能控制浏览器,也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大,内置无数人性化设计和便捷功能。语法简洁而优雅,代码量少。"
          ],
          "recomm": [
            2
          ],
          "langs": [
            "Python"
          ],
          "count.star": [
            4030
          ],
          "id": [
            9101163
          ],
          "title": [
            "g1879/DrissionPage"
          ],
          "url": [
            "https://gitee.com/g1879/DrissionPage"
          ]
        }
      },
      {
        "_index": 1027,
        "_id": "27108495",
        "_score": 7.674755,
        "fields": {
          "last_push_at": [
            "2024-01-08 20:34:25"
          ],
          "fork": [
            0
          ],
          "count.fork": [
            11
          ],
          "description": [
            "DrissionPage的文档"
          ],
          "recomm": [
            0
          ],
          "langs": [
            "HTML",
            "JavaScript"
          ],
          "count.star": [
            12
          ],
          "id": [
            27108495
          ],
          "title": [
            "g1879/Docs32"
          ],
          "url": [
            "https://gitee.com/g1879/Docs32"
          ]
        }
      }
    ]
  },
  "suggest": {
    "name": [
      {
        "text": "drissionpage",
        "offset": 0,
        "length": 12,
        "options": []
      }
    ]
  },
  "cache": 1716708583505,
  "action": "20240526162838_cdffgkei6kksr7o69ezazp1vgh"
}

返回的 JSON 代码已进行了简化,去除了一些数组成员,但这不会影响我们的分析。由于之前对 Python 中的 JSON 解析语法一无所知,因此需要进行一次关于 JSON 解析的知识弥补,这将为下一篇文章提供基础:如何在 Python 中解析 JSON 数据
直接上代码:

from DrissionPage import SessionPage
import json

# 创建页面对象
page = SessionPage()

page.get(f'https://api.indexea.com/v1/search/widget/wjawvtmm7r5t25ms1u3d?query=1048&q=DrissionPage&from=0&size=20&sort_by_f=')
data  = page.json
hits = data['hits']['hits']
for hit in hits:
    if 'title' in hit['fields']:
        print(hit['fields']['title'][0])
    if 'description' in hit['fields']:
        print(hit['fields']['description'][0])
    print()

解决方案2:用操控浏览器方式获取

代码:

from DrissionPage import WebPage

# 创建页面对象
page = WebPage()
# 访问网址
page.get('https://gitee.com/explore')
# 查找文本框元素并输入关键词
page('#q').input('DrissionPage')
# 点击搜索按钮
page('tag:button@class=ui orange button').click()
# 等待页面加载
page.wait.load_start()
# 获取所有行元素
items = page.eles('.card-body')
for item in items:
    print(item.ele('.title').text)
    print(item.ele('.col-12 outline text-secondary').text)
    print()

最烦人的部分是元素的查找、操作和定位等操作,这启发了我写第三篇文章的想法:如何充分利用 DrissionPage 中的元素操控功能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/657244.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【STL库源码剖析】list 简单实现

从此音尘各悄然 春山如黛草如烟 目录 list 的结点设计 list 的迭代器 list 的部分框架 迭代器的实现 容量相关相关函数 实现 insert 在指定位置插入 val 实现 push_back 在尾部进行插入 实现 erase 在指定位置删除 实现 pop_back 在尾部进行删除 实现 list 的头插、头删 实现…

从零开始写 Docker(十六)---容器网络实现(上):为容器插上”网线”

本文为从零开始写 Docker 系列第十六篇,利用 linux 下的 Veth、Bridge、iptables 等等相关技术,构建容器网络模型,为容器插上”网线“。 完整代码见:https://github.com/lixd/mydocker 欢迎 Star 推荐阅读以下文章对 docker 基本实…

adb的常见操作和命令

最近学习adb的时候,整理了一些adb的使用场景,如:adb与设备交互,adb的安装、卸载,adb命令启动,通过命令清除缓存,文件传输和日志操作。 adb的两大作用:在app测试的时候可以提供监控日…

[AIGC] Nginx常用变量详解

Nginx非常强大,其主要功能包括HTTP服务器、反向代理、负载均衡等。Nginx的配置中有许多内置的变量,你可以在配置文件中使用这些变量进行灵活的配置。在本篇文章中,我们将介绍一些Nginx中常见的变量,包括proxy_add_header。 常见变…

基于BP神经网络和小波变换特征提取的烟草香型分类算法matlab仿真,分为浓香型,清香型和中间香型

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ...................................................................................... …

文章结尾,铺垫下一章带来的期待

你是否容易在阅读时打瞌睡? 是否有很多买回来的书,放在书架上一年甚至几年都未读完,积满了灰尘? 但是,对于小说和电视剧,你却完全停不下来。每集片尾的预告激发了你持续观看下一集的渴望,带来了无限的期待…… 当你撰写文章或编写工具书时,内容可能呈现出乏味的面貌…

轻松放大图片600%,Topaz Gigapixel AI图片无损清晰放大软件下载安装

Topaz Gigapixel AI 该软件拥有卓越的性能和先进的技术,能够轻松实现图像的精细放大,最多可将图像放大至原始尺寸的六倍,而无需担心图像质量的损失。 相较于传统的图像放大软件,Topaz Gigapixel AI 表现出了明显的优势。传统软件…

基于双PI结构FOC闭环控制的永磁同步电机控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于双PI结构FOC闭环控制的永磁同步电机控制系统simulink建模与仿真。 2.系统仿真结果 3.核心程序与模型 版本:MATLAB2022a 64 4.系统原理简介 永磁同步电机&a…

Java基础:异常(三)

Java基础:异常(三) 文章目录 Java基础:异常(三)1. Java异常体系1.1 错误的分类1.2 异常的分类 2. 异常的捕获与处理2.1 try-catch2.2 finally 3. 异常的抛出4. 自定义异常 1. Java异常体系 Java的异常体系是…

解决Springboot服务启动报错:“Reason: Failed to determine suitable jdbc url”

1、错误详情 *************************** APPLICATION FAILED TO START *************************** Description: Failed to configure a DataSource: url attribute is not specified and no embedded datasource could be configured. Reason: Failed to determine sui…

【Qt秘籍】[004]-Qt中的重要工具-介绍

QtCreator概览 当我们打开系统的菜单翻到刚刚下载的Qt文件,里面的内容却让我们眼花缭乱。 不过别急,下面我们将一一解析。 1.Assistant Qt自带的离线版本官方文档 2.Designer Qt图形化设计界面的工具,通过拖拽控件快速生成界面&#xff0c…

当消费遇上AI:大模型如何成为行业“网红”?

在一个繁忙过后的周五晚上,美食发烧友Melissa和朋友痛快的享受了一顿海底捞火锅,餐毕,她像往常一样留下了服务评价,及时反馈是一位美食家的基本素养。 每天如同Melissa一样留下评价的客人不在少数,他们的真实体验反馈…

期权具体怎么交易详细的操作流程?

期权就是股票,唯一区别标的物上证指数,会看大盘吧,交易两个方向认购做多,认沽做空,双向t0交易,期权具体交易流程可以理解选择方向多和空,选开仓的合约,买入开仓和平仓没了&#xff0…

【小呆的力学笔记】连续介质力学的知识点回顾二:应变度量

文章目录 3. 格林应变与阿尔曼西应变 3. 格林应变与阿尔曼西应变 变形体在变形前的线元 O A → \overrightarrow{OA} OA ,在变形后变成 o a → \overrightarrow{oa} oa ,那么应变应该度量这种线元变形前后的差别。 ∣ o a → ∣ 2 − ∣ O A → ∣ 2 …

计算机体系结构-2024期末考试

前言 最后一个字落笔,虽然知道并没有发挥到最好,内心还是感慨良多。 真正意义上本科阶段的课程考试,到此就结束了。 正如青春总有不完美的地方,此刻思绪竟飘到了三年前的盛夏,那个骄傲的少年。 扯远了,…

物联网应用系统与网关

一. 传感器底板相关设计 1. 传感器设计 立创EDA传感器设计举例。 2. 传感器实物图 3. 传感器测试举例 测试激光测距传感器 二. 网关相关设计 1. LORA,NBIOT等设计 2. LORA,NBIOT等实物图 3. ZigBee测试 ZigBee测试 4. NBIoT测试 NBIoT自制模块的测试…

kafka-主题创建(主题操作的命令)

文章目录 1、topic主题操作的命令1.1、创建一个3分区1副本的主题1.1.1、获取 kafka-topics.sh 的帮助信息1.1.2、副本因子设置不能超过集群中broker的数量1.1.3、创建一个3分区1副本的主题1.1.4、查看所有主题1.1.5、查看主题详细描述 1、topic主题操作的命令 kafka发送消息会存…

mysql连接池的实现

概要:本文介绍mysql连接池的实现,要求读者了解线程池 一、为什么需要mysql连接池? 资源复用 :不使用连接池,每次数据库请求都新建一条连接,将耗费系 统资源。 流程如下: 通过三次握手建立 TC…

海博思创储能系统产品再获认可,获得杰出项目类别入围资格

近日,2024年欧洲智慧能源展览会大奖(The smarter E AWARD 2024)公布了入围名单,该奖项设有五个类别:光伏、储能、电动出行、智能综合能源和杰出项目奖,旨在表彰能源领域中的卓越创新成果。 在入围项目中&a…

linux线程,线程控制与线程相关概念

线程概念 线程这个词或多或少大家都听过,今天我们正式的来谈一下线程; 在我一开始的概念中线程就是进程的一部分,一个进程中有很多个线程,这个想法基本是正确的,但细节部分呢我们需要细细讲解一下; 什么…