Scrapy爬虫框架（概念）

Scrapy爬虫框架（概念）

article2025/3/12 17:27:06/文章来源:https://blog.csdn.net/weixin_64612659/article/details/130036074

Scrapy 入门教程 | 菜鸟教程 (runoob.com)

Scrapy是一个快速功能强大的网络爬虫框架

Scrapy的安装

通过 pip 安装 Scrapy 框架:

pip install Scrapy

安装后小测：执行 scrapy ‐h

Scrapy不是一个函数功能库，而是一个爬虫框架。

Scrapy架构图(绿线是数据流向)

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

Scrapy框架包含三条主要的数据流路径

第一条路径从spider模块经过engine到达scheduler,其中engine到达scheduler的地方获取了爬取用户的请求，我们对这种请求叫做request请求，可以简单的把请求理解为一个url,那么请求通过spider到达engine之后，那么请求通过spider到达engine之后，engine将这个爬取请求转发给了schedule模块

Scrapy爬虫框架解析

Engine (1) 控制所有模块之间的数据流 (2) 根据条件触发事件不需要用户修改

Downloader 根据请求下载网页不需要用户修改

Scheduler 对所有爬取请求进行调度管理不需要用户修改

Downloader Middleware 目的：实施Engine、Scheduler和Downloader 之间进行用户可配置的控制功能：修改、丢弃、新增请求或响应用户可以编写配置代码

Spider (1) 解析Downloader返回的响应（Response） (2) 产生爬取项（scraped item） (3) 产生额外的爬取请求（Request）用户可以编写配置代码

Item Pipelines (1) 以流水线方式处理Spider产生的爬取项 (2) 由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型 (3) 可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库用户可以编写配置代码

Spider Middleware 目的：对请求和爬取项的再处理功能：修改、丢弃、新增请求或爬取项用户可以编写配置代码

request库和Scrapy爬虫的比较

相同点：两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线两者可用性都好，文档丰富，入门简单两者都没有处理js、提交表单、应对验证码等功能（可扩展)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/10189.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

CentOS7 虚拟机双网卡绑定

CentOS7 虚拟机双网卡绑定

一、网卡绑定模式模式类型特点mode0round-robin（平衡轮询策略）基于per packet方式，轮询往每条链路发送报文。提供负载均衡和容错的能力，当有链路出问题，会把流量切换到正常的链路上。交换机端需要配置聚合口。mode1a…

阅读更多...

【论文笔记】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

【论文笔记】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

原文链接：https://arxiv.org/abs/2304.00670 1. 引言本文提出两阶段融合方法CRN，能使用相机和雷达生成语义丰富且位置精确的BEV特征。具体来说，首先将图像透视特征转换到BEV下，该步骤依赖雷达，称为雷达辅助的视图变换…

阅读更多...

C#基础复习

C#基础复习

语句目录语句 switch： 跳转语句标签语句标签： 标签语句的作用域 goto语句 using 语句资源的包装使用 using 语句示例： 多个资源和嵌套语句是描述某个类型或让程序执行某个动作的源代码指令块在语法上算作一个单条嵌入语句。任何语…

阅读更多...

电脑无法正常关机？点了关机又会自动重启

电脑无法正常关机？点了关机又会自动重启

“真木马”相信不少朋友遇到过电脑关机自动重启现象，一点关机，但随后电脑有会进入重启状态，就是一直不会停，属实是很难崩。目录一、问题症状二、问题原因三、解决方案方法一： 1.关闭系统发生错误时电脑自动…

阅读更多...

企业数字化转型全是坑？这几篇数字化转型成功案例，减少70%损失

企业数字化转型全是坑？这几篇数字化转型成功案例，减少70%损失

这篇给大家整理了200企业数字化转型案例合集，涵盖了制造、建筑、教育、零售、互联网等10行业的大中小型企业数字化转型思路，希望对大家有所帮助。案例全部整合在这篇文章中，点击即可查看>>数字化干货资料合集！ 01 首先&…

阅读更多...

C++编程法则365条一天一条（359）认识各种初始化术语

C++编程法则365条一天一条（359）认识各种初始化术语

文章目录Default initialization默认初始化Copy initialization拷贝初始化Aggregate initialization聚合初始化Direct initialization直接初始化list_initialization列表初始化value_initialization值初始化参考： https://en.cppreference.com/w/cpp/language/copy_…

阅读更多...

项目打包发布流程

---》》》项目打包发布 1.编译并构建项目 2.部署 npm i npm run build scp2：需要写代码 ---》》》后续有空更新：赋几个链接： Jenkins官网 nullhttps://www.jenkins.io/zh/一文详解Jenkins的安装与配置Jenkins是一个基于Java开发的开源…

阅读更多...

ERROR:org.apache.hadoop.hbase.PleaseHoldException: Master is initializing错误

ERROR:org.apache.hadoop.hbase.PleaseHoldException: Master is initializing错误

一、问题重新安装hbase后，在hbase shell中查看所有命名空间时，出现了ERROR:org.apache.hadoop.hbase.PleaseHoldException: Master is initializing错误。二、方法 1、root用户下，关闭hbase stop-hbase.sh 2、执行以下命令删除HDFS下的hb…

阅读更多...

深度学习环境配置超详细教程【Anaconda+PyTorch(GPU版)+CUDA+cuDNN】

深度学习环境配置超详细教程【Anaconda+PyTorch(GPU版)+CUDA+cuDNN】

深度学习环境配置入门深度学习，首先要做的事情就是要搭建深度学习的环境。不管你是Windows用户，Mac用户还是Ubuntu用户，只要电脑配置允许，都可以做深度学习，毕竟Windows、Mac和Ubuntu系统都可以进行深度学习环境的搭…

阅读更多...

惊呆了，2小时我就学会了Charles抓包的详细教程

惊呆了，2小时我就学会了Charles抓包的详细教程

目录一、什么是Charles 二、下载Charles 三、设置Charles代理四、配置设备代理五、抓包操作六、常见问题及解决方法抓包不到某些应用程序 Charles抓包后网站出现异常七、总结一、什么是Charles Charles是一个跨平台的HTTP代理服务工具，可以用来查看…

阅读更多...

软件测试工作主要做什么

软件测试工作主要做什么

随着信息技术的发展和普及，人们对软件的使用越来越普及。但是在软件的使用过程中，软件的效果却不尽如人意。为了确保软件的质量，整个软件业界已经逐渐意识到测试的重要性，也有越来越多的小伙伴加入了软件测试这个行业中来。软件测…

阅读更多...

从FPGA说起的深度学习（六）-任务并行性

从FPGA说起的深度学习（六）-任务并行性

这是新的系列教程，在本教程中，我们将介绍使用 FPGA 实现深度学习的技术，深度学习是近年来人工智能领域的热门话题。在本教程中，旨在加深对深度学习和 FPGA 的理解。用 C/C 编写深度学习推理代码高级综合 (HLS) 将 C/C 代码转换为硬…

阅读更多...

ServletAPI详解(四)-HttpServletResponse

ServletAPI详解(四)-HttpServletResponse

我们来看第三个方法,HttpServletResponse 在servlet运行原理中提到,servlet代码中的doXXX方法的目的就是根据请求计算响应,然后将响应数据设置到HttpServletResponse对象中,然后 Tomcat 就会把这个 HttpServletResponse 对象按照 HTTP 协议的格式, 转成一个字符串, 并通过 Soc…

阅读更多...

Linux Shell 实现一键部署二进制Rabbitmq

Linux Shell 实现一键部署二进制Rabbitmq

rabbitmq 前言 RabbitMQ是实现了高级消息队列协议（AMQP）的开源消息代理软件（亦称面向消息的中间件）。RabbitMQ服务器是用Erlang语言编写的，而集群和故障转移是构建在开放电信平台框架上的。所有主要的编程语言均有与代…

阅读更多...

MPC的560x系列的运行模式的介绍

MPC的560x系列的运行模式的介绍

一、模式简介 1、运行模式一共11种模式，分别为RESET、DRUN、SAFE、TEST、RUN0、RUN1、RUN2、RUN3、HALT、STOP、STANDBY。其中RESET、DRUN、SAFE、TEST是系统工作模式，用户不用个特别关系，而后面几种是用于经常使用到的工作模式。 RESET&a…

阅读更多...

Linux搭建docker

Linux搭建docker

1. 查看系统的内核版本 [rootwide ~]# uname -r 3.10.0-1160.el7.x86_642. 将yum更新到最新版本 [rootwide ~]# yum upate -y Complete!3. 安装Docker所需的依赖包 [rootwide ~]# sudo yum install -y yum-utils device-mapper-persistent-data lvm2 Loaded plugins: fastes…

阅读更多...

MyBatis多表查询+动态sql

MyBatis多表查询+动态sql

文章目录MyBatis多表查询1. 多表一对一查询2. 多表一对多动态SQL1.\<if\>标签2.\<trim\>标签3. \<where\>标签4.\<set\>标签5. \<foreach\>标签MyBatis多表查询在全局配置文件中中设置MyBatis执行日志 mybatis:configuration:log-impl: org.a…

阅读更多...

hadoop使用MapReduce统计单词出现次数案例

hadoop使用MapReduce统计单词出现次数案例

前言前面的文章已经展示了如何在windows上传文件到hdfs，上传后如何简单的做统计，本文展示一下。上传文件到HDFS链接这里我们做一个案例，对一个上传到HDFS的文档中统计good出现的次数。文件内容如下这里我使用的是【上传文件到HDFS链接…

阅读更多...

南方猛将加盟西方手机完全是臆测，他不会希望落得兔死狗烹的结局

南方猛将加盟西方手机完全是臆测，他不会希望落得兔死狗烹的结局

早前南方某科技企业因为命名的问题闹得沸沸扬扬，于是一些业界人士就猜测该猛将会加盟西方手机，对于这种猜测可以嗤之以鼻，从西方手机以往的作风就可以看出来它向来缺乏容纳猛将的气量。一、没有猛将的西方手机迅速沉沦曾几何时，西…

阅读更多...

linux服务器禁止ping命令，linux服务器禁ping如何解除

linux服务器禁止ping命令，linux服务器禁ping如何解除

linux服务器禁止ping命令，linux服务器禁ping如何解除我是艾西，在我们搭建网站或做某些程序时，不少人会问禁ping是什么意思，怎么操作的对于业务有哪些好处等，今天艾西一次给你们说清楚。禁PING的意思是：不…

阅读更多...

最新文章