探索Scrapy-spider:构建高效网络爬虫

Spider简介

Scrapy中的Spider是用于定义和执行数据抓取逻辑的核心组件。Spider负责从指定的网站抓取数据,并定义了如何跟踪链接、解析内容以及提取数据的规则。它允许您定制化地指定要抓取的网站、页面和所需的信息。Spider的作用是按照预定的规则爬取网页,从中提取所需的数据,并将数据传递给Scrapy引擎进行处理。

以下是一个简单的Scrapy Spider示例代码:


import scrapy

class MySpider(scrapy.Spider):
    name = 'example_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 在这里编写处理响应的逻辑
        # 可以使用XPath或CSS选择器提取数据
        title = response.css('title::text').get()
        body = response.css('body::text').get()

        # 可以将提取到的数据通过yield传递给Pipeline进行处理
        yield {
            'title': title,
            'body': body
        }

在这个示例中:

  • MySpider是一个继承自scrapy.Spider的Spider类。
  • name属性定义了Spider的名称。
  • start_urls属性包含了Spider开始抓取的初始URL列表。
  • parse方法是用于处理网页响应的默认方法。在这里,使用了CSS选择器从网页中提取了标题和正文内容,并通过yield语句将提取到的数据作为字典传递给Pipeline进行处理。

Spider传参方式

在Scrapy中,Spider之间或Spider内部的不同方法之间可以通过多种方式进行参数传递和通信:

  1. 构造函数参数传递:

    • 在Spider的构造函数中定义自定义参数,并在初始化Spider时传递这些参数。这些参数可以在Spider的各个方法中使用。
    
    import scrapy
    
    class MySpider(scrapy.Spider):
        name = 'example'
    
        def __init__(self, category=None, *args, **kwargs):
            super(MySpider, self).__init__(*args, **kwargs)
            self.category = category
    
        def start_requests(self):
            # 使用传递的参数构建初始请求
            # self.category 可在这里使用
            # ...
    
  2. Request对象传递参数:

    • 在发送请求时,可以使用meta参数将信息传递给下一个回调函数。这可以通过Request对象的meta属性进行。
    
    import scrapy
    
    class MySpider(scrapy.Spider):
        name = 'example'
    
        def start_requests(self):
            url = 'http://example.com'
            custom_data = {'key': 'value'}
    
            yield scrapy.Request(url, callback=self.parse, meta={'custom_data': custom_data})
    
        def parse(self, response):
            custom_data = response.meta.get('custom_data')
            # 使用传递的参数
            # ...
    
  3. Spider属性传递:

    • Spider对象的属性可以在不同的方法之间共享数据。
    
    import scrapy
    
    class MySpider(scrapy.Spider):
        name = 'example'
    
        def start_requests(self):
            self.shared_data = 'some value'
            yield scrapy.Request('http://example.com', callback=self.parse)
    
        def parse(self, response):
            # 可以在这里使用 self.shared_data
            # ...
    

这些方法允许在Scrapy Spider之间或Spider内的不同方法之间传递参数和共享信息,使得数据和信息在爬取过程中得以灵活传递和使用。

需要注意的是scrapy是多线程异步运作,如果场景内对参数的顺序要求较高的话建议使用meta传参,而不要使用self全局传参,尤其是需要将爬取到的数据暂存在变量时要尤其注意这点

spider的钩子函数

Scrapy中的钩子函数(也称为回调函数)是Spider中用于定义爬取逻辑的关键部分。它们在不同的阶段执行,允许定制化处理请求、响应和提取数据的方式。以下是Scrapy中常用的钩子函数及其作用:

1. start_requests(self)

  • 作用: 生成Spider的初始请求。
  • 说明: 这个方法生成Spider开始抓取的初始请求。默认情况下,它从start_urls属性中获取URL并生成请求。我们可以在这里手动创建并返回一个或多个Request对象,也可以使用yield关键字返回请求。

2. parse(self, response)

  • 作用: 解析并处理页面响应。
  • 说明: 默认的解析方法。当请求返回成功时,Scrapy将调用这个方法。我们可以在这里编写用于处理网页响应的逻辑,包括提取数据、跟进链接等。通常,我们能够使用XPath或CSS选择器从response对象中提取所需的数据。

3. parse_start_url(self, response)

  • 作用: 解析Spider的起始URL的响应。
  • 说明: 当Spider的起始URL返回成功时,Scrapy会调用这个方法。如果定义了start_urls属性,则对每个起始URL的响应将会由这个方法处理。它允许你对起始页面的响应进行特定处理。

4. __init__()

  • 作用: Spider对象初始化。
  • 说明: 这是Spider对象的构造函数,在Spider实例化时调用。你可以在这里进行一些初始化设置或预处理工作。

5. closed(reason)

  • 作用: 当Spider关闭时调用。
  • 说明: 当Spider停止运行时,无论是因为抓取完成、异常退出或手动停止,都会调用这个方法。你可以在这里进行一些清理工作或输出总结信息。

另外,如果使用parse_start_url去生成url队列那么就无需使用
start_urls = [‘http://example.com’].

5. 其他自定义回调函数

除了以上常用的钩子函数外,我们还可以定义其他自定义的回调函数,用于处理特定页面的响应。例如,可以根据不同类型的页面定义不同的回调函数,以便从中提取数据或执行特定操作。

假如我们对于一条数据的提取需要逐条发送多个请求,我们可以这样写:

image.png

image.png

image.png
并使用meta存储传递信息。最终的收集完本条数据后返还item去给pip管道处理收集到的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/236954.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

关于个人职业选择

职业选择,一直是个老生常谈的话题。这并不是一个容易做的决定。 让我们来看看AI怎么说。 首先是方向性的回答: 然后是一些具体的回答 我个人比较倾向于深耕网络安全。这是一个很有趣也是一个持续发展着的领域。 不知道关于这个事情你怎么看&#xff0…

【C++】POCO学习总结(十二):流(文本编解码、数据压缩、文件读写流等)

【C】郭老二博文之:C目录 1、说明 POCO提供了多种流类,与标准c IOStreams兼容。 大多数POCO流类被实现为过滤器,这意味着它们不写入或读取设备,而是从它们连接的另一个流。 2、文本编解码 2.1 说明 POCO提供了用于编码和解码…

【每日一题】最小体力消耗路径

文章目录 Tag题目来源解题思路方法一:二分枚举答案 写在最后 Tag 【二分枚举答案】【图】【2023-12-11】 题目来源 1631. 最小体力消耗路径 解题思路 拿到这个题目,计算从左上角到右下角的最小体力消耗值,有点像 64. 最小路径和。在 64 题…

散点图直方图折线图的替代

散点图直方图折线图的替代 seaborn官网 数据科学数据可视化,散点图 直方图 折线图的新方法 1.hexbinplot https://seaborn.pydata.org/examples/hexbin marginals.html相当于散点图做了聚合/分箱,使数据的分布展示更明显。Library: seaborn 2.瀑布图展示…

Linux 驱动开发需要掌握哪些编程语言和技术?

Linux 驱动开发需要掌握哪些编程语言和技术? 在开始前我有一些资料,是我根据自己从业十年经验,熬夜搞了几个通宵,精心整理了一份「Linux从专业入门到高级教程工具包」,点个关注,全部无偿共享给大家&#xf…

图论专栏一《图的基础知识》

图论(Graph Theory)是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些实体之间的某种特定关系,用点代表实体,用连接两点的线表示两个实体间具有的…

OpenVINS学习2——VIRAL数据集eee01.bag运行

前言 周末休息了两天,接着做上周五那个VIRAL数据集没有运行成功的工作。现在的最新OpenVINS需要重新写配置文件,不像之前那样都写在launch里,因此需要根据数据集情况配置好estimator_config.yaml还有两个标定参数文件。 VIRAL数据集 VIRAL…

从零开始实现神经网络(三)_RNN循环神经网络

参考文章:rnn循环神经网络介绍 循环神经网络 (RNN) 是一种专门处理序列的神经网络。它们通常用于自然语言处理 (NLP) 任务,因为它们在处理文本方面很有效。在这篇文章中,我们将探讨什么是 RNN&a…

【简易版】Linux下Protobuf 实现网络版通讯录--C++

一、介绍 该项目的主要目的是用于熟悉protobuf的使用,体验数据在网络中序列化反序列化的形式,并非一个完整的项目。 该通讯录只实现了增加联系人的功能。服务器端接收到请求后会将联系人的信息打印。 二、环境搭建 使用Httplib库,可以快速…

【ClickHouse】ClickHouse与MySQL之间实时同步数据(MySQL引擎),将MySQL数据实时同步到clickhouse

参考1:MySQL(通过该配置实现了实时同步) 参考2:experimental MaterializedMySQL 参考3:[experimental] MaterializedMySQL(包含设置 allow_experimental_database_materialized_mysql) MySQL引擎用于将远程的MySQL服务器中的表映射到ClickHouse中,并允许您对表进行I…

亚信科技AntDB携手蓝凌软件,助推企业数字化办公转型升级

随着企业数字化转型的深入,企业对于协同办公、移动门户、数字运营、智能客服等方面的需求越来越高,数智化正成为催生新动能和新优势的关键力量。数字化的办公平台可以帮助企业实现各类信息、流程的集中化、数字化和智能化管理,为企业管理者提…

2-7、转义字符

语雀原文链接 文章目录 1、转义字符2、\r\n的遗留问题3、System 1、转义字符 \r 回车,将光标定位在当前行的开头,不会跳到下一行。return\n 换行符,将光标定位在下一行的开头。newline 2、\r\n的遗留问题 我们在平时使用电脑时&#xff0c…

Mybatis是如何进行分页的?

程序员的公众号:源1024,获取更多资料,无加密无套路! 最近整理了一份大厂面试资料《史上最全大厂面试题》,Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等 …

WRF--修改geo_em.d01.nc中的变量,保持其他信息不变

WRF–修改geo_em.d01.nc中的变量,保持其他信息不变 首先呢,找到编译WRF过程中自带的读取nc的一个fortran函数:read_wrf_nc.f90 可以使用Linux命令: find / -name read_wrf_nc.f90 找到之后,修改这个文件&#xff0c…

镜头驱动芯片选型 GC6236,GC6208,GC6209的型号分析,多应用于摄像机镜头,家庭监控云台驱动等产品中

国产芯片GC6236,GC6208,GC6209 为5V摄像机镜头驱动芯片,电压范围在3~5.5(V),最大持续电流可达0.8(A)最高工作温度在-40~100之间。其特点都具有5V多通道,低噪步进电机驱动和霍尔自动光圈驱动等。可应用在摄像机镜头,家庭…

【SpringBoot教程】SpringBoot 统一异常处理(附核心工具类-ErrorInfoBuilder)

作者简介:大家好,我是撸代码的羊驼,前阿里巴巴架构师,现某互联网公司CTO 联系v:sulny_ann(17362204968),加我进群,大家一起学习,一起进步,一起对抗…

如何通过SPI控制Peregrine的数控衰减器

概要 Peregrine的数控衰减器PE4312是6位射频数字步进衰减器(DSA,Digital Step Attenuator)工作频率覆盖1MHz~4GHz,插入损耗2dB左右,衰减步进0.5dB,最大衰减量为31.5dB,高达59dBm的IIP3提供了良好的动态性能,切换时间0.5微秒,供电电源2.3V~5.5V,逻辑控制兼容1.8V,20…

访问控制列表ACL学习

ACL概念 ACL: ACL 是 Access Control List(访问控制列表)的缩写。它是一种用于管理和控制访问权限的机制或数据结构。ACL 用于确定谁可以访问特定资源(例如文件、文件夹、网络资源等)以及他们可以执行的操作。ACL 通常由一系列访…

基于SSM的高校共享单车管理系统的设计与实现论文

摘 要 网络技术和计算机技术发展至今,已经拥有了深厚的理论基础,并在现实中进行了充分运用,尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代,所以对于信息的宣传和管理就很关键。因此高校单车租赁信…