【Python_Scrapy学习笔记（一）】Scrapy框架简介

article2025/3/10 0:49:56/文章来源:https://blog.csdn.net/sallyyellow/article/details/130192413

Scrapy框架简介

前言

Scrapy 框架是一个用 python 实现的为了爬取网站数据、提取数据的应用框架，使用 Twisted 异步网络库来处理网络通讯，可以高效的完成数据爬取。本文主要介绍 Scrapy 框架的构成与工作原理。

正文

1、Scrapy安装

Windows安装：-m -pip install Scrapy
或使用 PyCharm 可视化界面安装。

2、Scrapy框架构成

爬虫文件Spider：负责数据的解析提取
调度器Scheduler：负责维护请求队列
下载器Downloader：负责发请求获取响应对象
实体管道Item Pipeline：负责处理数据，数据入库
引擎Engine：整个框架的核心，总指挥

3、Scrapy框架工作流程

当整个爬虫项目启动时，由引擎来找到爬虫文件，索要第一批要抓取的url地址；
引擎拿到url地址后，将url地址交给调度器入队列；
调度器将url地址入队列后，再出队列，这个过程在调度器中生成了一个请求指纹；
url地址出队列后，交给引擎；再由引擎交给下载器，下载器只负责发请求获取响应response，拿到响应对象；
下载器将从站点拿到的响应对象交给引擎，引擎拿到响应；
引擎将拿到的响应对象给爬虫文件，解析提取；
爬虫文件解析提取数据后，产生两种数据：一是需要继续跟进的url地址，二是解析后需要存储的数据；
提取出来的数据交给项目管道做数据库入库处理；继续跟进的url地址由引擎交给调度器做入队列操作；
如此循环。

在这里插入图片描述

4、Scrapy框架的两个中间件

中间件相当于过滤器，夹在不同部分之间截获数据流，并进行特殊的加工处理。

下载器中间件Downloader Middlewares：请求对象->引擎->下载器，包装请求(随机代理等)
蜘蛛中间件Spider Middlewares：响应对象->引擎->爬虫文件，可修改响应对象属性

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/11928.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

引导程序、BIOS中断、检测内存容量、实模式切换到保护模式

引导程序、BIOS中断、检测内存容量、实模式切换到保护模式

初始化引导程序基本概念 BIOS会将磁盘的第0个扇区(大小为512字节)，加载到0x7c00处。引导程序负责操作系统的加载，主要用于为操作系统运行提供初始化环境，并运行加载操作系统。 BIOS只加载磁盘的第0个扇区(512字节)到内存中，次程…

阅读更多...

笔记本电脑开不了机？3种解决方法

案例：笔记本电脑开不了机怎么办？ 【我的笔记本电脑一直用得好好的，今天突然开不了机，尝试按了开机键很多次也没有解决。有人遇到过同样的问题吗？有没有解决的方法！】在日常生活中，我们经常会…

阅读更多...

【计算机网络——计算机网络的概念，组成，功能和分类以及相关的性能指标，分层结构和协议，TCP/IP参考模型】

【计算机网络——计算机网络的概念，组成，功能和分类以及相关的性能指标，分层结构和协议，TCP/IP参考模型】

文章目录计算机网络体系结构计算机网络的概念、组成、功能和分类标准化工作及相关组织速率相关的性能指标时延、时延带宽积、PTT和利用率分层结构、协议、接口和服务OSI参考模型TCP IP参考模型计算机网络体系结构计算机网络的概念、组成、功能和分类计算机网络的概念计算…

阅读更多...

游戏内嵌社区服务开放，助力开发者提升玩家互动与留存

游戏内嵌社区服务开放，助力开发者提升玩家互动与留存

华为 HMS Core 游戏内嵌社区服务提供快速访问华为游戏中心论坛能力，支持玩家直接在游戏内浏览帖子和交流互动，助力开发者扩展内容生产和触达的场景。一、为什么要游戏内嵌社区？ 二、游戏内嵌社区的典型使用场景 1、游戏内打开论坛您可以在…

阅读更多...

【从零开始学Skynet】实战篇《球球大作战》（十三）：场景代码设计（下）

【从零开始学Skynet】实战篇《球球大作战》（十三）：场景代码设计（下）

1、主循环《球球大作战》是一款服务端运算的游戏，一般会使用主循环程序结构，让服务端处理战斗逻辑。如下图所示，图中的balls和foods代表服务端的状态，在循环中执行“食物生成”“位置更新”和“碰撞检测”等功能，从而…

阅读更多...

商城系统开发方案分析

商城系统开发方案分析

互联网的不断发展，电商行业已经成为了当前最重要的商业形式之一。商城系统的开发也因此而备受关注。商城系统的开发是针对B2C、B2B2C等多种商业模式，如用户熟知的SHOP、商派等一系列商城系统，将商品和服务进行在线销售的一个综合性平台。那么…

阅读更多...

【C语言进阶：动态内存管理】常见的动态内存错误

【C语言进阶：动态内存管理】常见的动态内存错误

本节重点内容： 对NULL指针的解引用操作对动态开辟空间的越界访问对非动态开辟内存使用free释放使用free释放一块动态开辟内存的一部分对同一块动态内存多次释放动态开辟内存忘记释放（内存泄漏）经典的笔试题⚡对NULL指针的解引用操作 ⚡对动态…

阅读更多...

Linux基础命令-seq打印数字序列

Linux基础命令-seq打印数字序列

Linux基础命令-sed流编辑器前言 seq命令通常是用来打印一串有规律的数字，常与其他命令搭配使用，一起来看下它的用法。一. 命令介绍在doc文档中查看seq命令的含义 NAMEseq - print a sequence of numbers DESCRIPTIONPrint numbers from FIRST to…

阅读更多...

李宏毅教程系列——增强学习

李宏毅教程系列——增强学习

目录 0. 强化学习wiki 1. 介绍 2. Exploration vs Exploitation 探索与开发 3. 各类最优化方法 3.1 Brute force猛兽蛮力法（暴力搜索） 3.2 Value function estimation（价值函数估计） 3.2.1 Monte Carlo methods 蒙特卡洛方…

阅读更多...

3年经验，面试测试岗只会功能测试开口要求18K，令我陷入沉思。

3年经验，面试测试岗只会功能测试开口要求18K，令我陷入沉思。

由于朋友临时有事， 所以今天我代替朋友进行一次面试，公司需要招聘一位自动化测试工程师，我以很认真负责的态度完成这个过程， 大概近30分钟。主要是技术面试， 在近30分钟内， 我与被面试者是以交流学习的方式…

阅读更多...

【Linux】通过网络版计算器来认识协议

【Linux】通过网络版计算器来认识协议

🌠 作者：阿亮joy. 🎆专栏：《学会Linux》 🎇 座右铭：每个优秀的人都有一段沉默的时光，那段时光是付出了很多努力却得不到结果的日子，我们把它叫做扎根目录👉再谈协议&…

阅读更多...

腾讯云4核8G12M轻量服务器配置性能评测

腾讯云4核8G12M轻量服务器配置性能评测

腾讯云轻量4核8G12M服务器，之前是4核8G10M配置，现在公网带宽和月流量包整体升级，12M公网带宽下载速度可达1536KB/秒，系统盘为180GB SSD盘，每月2000GB免费流量，腾讯云百科来详细说下4核8G12M轻量应用服务器配…

阅读更多...

AJAX | 拦截器、文件上传和下载

AJAX | 拦截器、文件上传和下载

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ！ AJAX Ajax即Asynchronous Javascript And XML（异步JavaScript和XML）；Ajax技术网页应用能够快速地将增量更新呈现在用户界面上&…

阅读更多...

锁子甲 bulid+sim

锁子甲 bulid+sim

链接: youtube 分析：洒一堆点——copy 模型——点和模型符合一定规律点和点的距离符合上述图中的关系 （横纵） 横向但是我们要横向10个点够了： 用modulo 除余纵向这里用除法向上取整 /10 eg ： 0-9 得0 10-19 得1…

阅读更多...

redis哨兵模式配置(配置文件等)

redis哨兵模式配置(配置文件等)

Redis-Sentinel机制主要用三个功能： (1)监控：不停监控Redis主从节点是否安装预期运行 (2)提醒：如果Redis运行出现问题可以按照配置文件中的配置项通知客户端或者集群管理员 (3)自动故障转移：当主节点下线之后，哨兵…

阅读更多...

【版本控制】Github同步Gitee镜像仓库自动化脚本

【版本控制】Github同步Gitee镜像仓库自动化脚本

文章目录Github同步Gitee镜像仓库自动化脚本前言什么是Hub Mirror Action？1.介绍2.用法配置步骤1.生成密钥对2.GitHub私钥配置3.Gitee公钥配置4.Gitee生成私人令牌5.Github绑定Gitee令牌6.编写CI脚本7.多仓库同步推送8.定时运行脚本总结Github同步Gitee镜像仓库自动…

阅读更多...

【MyBatis Plus】002 -- 通用CRUD（插入、更新、删除、查询）

【MyBatis Plus】002 -- 通用CRUD（插入、更新、删除、查询）

目录 3、通用CRUD 3.1 插入操作 3.1.1 方法定义 3.1.2 测试用例 3.1.3 测试 3.1.4 TableField 3.2 更新操作 3.2.1 根据id更新 3.2.2 根据条件更新 3.3 删除操作 3.3.1 根据id删除（deleteById） 3.3.2 根据Map删除数据（deleteByMap&#xff09…

阅读更多...

Level_2(2)题目整理

Level_2(2)题目整理

文章目录L2-022 重排链表（模拟❗）L2-023 图着色问题L2-024 部落(并查集)L2-025 分而治之（与 L2-023差不多，邻接表遍历）L2-026 小字辈（求树的深度）L2-027 名人堂与代金券(💡处理&…

阅读更多...

得物 API一站式协作平台的一些思考

得物 API一站式协作平台的一些思考

1.背景 Mooncake是得物API一站式协作平台。从2022年3月份开始负责Mooncake，到现在已经一年了，回顾这一年，Mooncake大的阶段上，总共经历过两个版本: 1、Mooncake 1.0: 面向前端和客户端的mock平台，主要解决接口调用者…

阅读更多...

C++实现前缀树

C++实现前缀树

文章目录1. 什么是前缀树2. 前缀树的实现2.1 前缀树的基本结构2.2 插入2.3 word出现了几次2.3 word作为前缀出现几次2.4 删除1. 什么是前缀树假设这里有一个字符串数组，和一个树的根结点： 这个结点的pass意思是：有几个字符通过了这个结点。…

阅读更多...

最新文章