Scrapy的callback进入不了回调方法

Scrapy的callback进入不了回调方法

article2025/3/5 1:01:49/文章来源:https://blog.csdn.net/qq_47188967/article/details/129755703

一、前言

有的时候，Scrapy的callback方法直接被略过了，不去执行其中的回调方法，可能排查好久都排查不出来，我来教大家集中解决方法。

yield Request(url=url, callback=self.parse_detail, cb_kwargs={'item': item})

二、解决方法

1、url可能被过滤掉了，如果是被scrapy过滤掉了，那就只需要在这个 scrapy.Request() 函数中将参数放入dont_filter=True加入进去。

2、如果发现还是不行，就可能是因为allowed_domains这个赋值的时候赋值的是别的url，其实可以直接把这个注释掉直接不用。

3、仍然无法使用的话，首先那就要看网站协议了，直接在网站中查看输入：https://www.tencent.com/robots.txt 这里就可以看到：

在这里插入图片描述

这里是没有限制的，那么的话按照前两个按照操作就可以正常的回调了

4、如果不行就要打开配置文件settings.py，这里的False表示忽略网站的robots.txt协议，默认为True：

ROBOTSTXT_OBEY = False

把这个设置为False再试下就可以进行回调了。

5、重点来了！！！！如果以下方法还是没有解决问题的话，并且执行日志如下种形式：你有没有想过一种可能，其实你的代码是能正常执行回调函数的！！

你没有看错，你的代码就是对的！！！！那日志里面为什么不出现执行回调函数的信息呢？？

原因：程序不是进不了回调方法，是并发数设置的太大，然后页面数量又比较多，Scrapy框架呢又是先把全部页面的请求排到队列中，然后才会去执行回调中的函数，所以前面的日志都是发出请求的日志，只有全部页面都发出请求进入队列之后，才会去爬取数据进入回调方法，所以等久一点就能看到进入回调的日志了。（注意：Scrapy不是先把全部页面的请求排到队列中，然后才会去执行回调中的函数，我这里只是为了方便解释才这么说的，反正大概就是这个意思）

解决方法：如果你认为是进入不了回调方法，并且爬取的页面数量又比较多的话，可以把并发数设置小一点再测试。

在这里插入图片描述

我设置成128之后，完美看到进入回调函数的日志！！

参考文章：https://www.cnblogs.com/zhengxianfa/p/16741295.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/2997.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

基于QEMU-aarch64学习UEFI(EDK2)-1环境搭建

基于QEMU-aarch64学习UEFI(EDK2)-1环境搭建

基于QEMU-aarch64学习UEFI(EDK2)-1环境搭建文章目录基于QEMU-aarch64学习UEFI(EDK2)-1环境搭建一、环境搭建1、虚拟机Ubuntu系统安装2、docker镜像导入3、下载EDK2源码4、容器创建和代码编译4.1 容器创建4.2 代码编译5、运行QEMU_EFI.fd6、VSCODE配置7、日常工作8、不同项目的…

阅读更多...

数据结构——二叉树与堆

数据结构——二叉树与堆

作者：几冬雪来时间： 内容：二叉树与堆内容讲解目录前言： 1.完全二叉树的存储： 2.堆的实现： 1.创建文件： 2.定义结构体： 3.初始化结构体： 4.扩容空间与扩容…

阅读更多...

学习黑客十余年，如何成为一名高级的安全工程师？

学习黑客十余年，如何成为一名高级的安全工程师？

1. 前言说实话，一直到现在，我都认为绝大多数看我这篇文章的读者最后终究会放弃，原因很简单，自学终究是一种适合于极少数人的学习方法，而且非常非常慢，在这个过程中的变数过大，稍有不慎&#…

阅读更多...

win32api之文件系统管理(七)

win32api之文件系统管理(七)

什么是文件系统文件系统是一种用于管理计算机存储设备上文件和目录的机制。文件系统为文件和目录分配磁盘空间，管理文件和目录的存储和检索，以及提供对它们的访问和共享，以下是常见的两种文件系统： NTFSFAT32磁盘分区容量2T32G…

阅读更多...

C/C++之while（do-while）详细讲解

C/C++之while（do-while）详细讲解

目录 while循环有两个重要组成部分： while 是一个预测试循环无限循环 do-while 循环 while循环有两个重要组成部分： 进行 true 值或 false 值判断的表达式；只要表达式为 true 就重复执行的语句或块；图 1 显示了 while 循环的…

阅读更多...

GIS开源库GEOS库学习教程(一)：编译及示例代码

GIS开源库GEOS库学习教程(一)：编译及示例代码

1、介绍 GEOS库是一个集合形状的拓扑关系操作实用库，简单得说，就是判断两个几何形状之间关系和对两个几何形状进行操作以形成新的几何形状的库。GEOS是仿照JTS库做的，是JTS的C实现。下面是JTS Topology Suite (JTS) 拓扑运算函数库的介绍&…

阅读更多...

Android 自定义View 之 Mac地址输入框

Android 自定义View 之 Mac地址输入框

Mac地址输入框前言正文一、什么是View?二、什么是自定义View三、自定义View① 构造方法② XML样式③ 测量④ 绘制1. 绘制方框2. 绘制文字⑤ 输入1. 键盘布局2. 键盘接口3. 键盘弹窗4. 显示键盘5. 处理输入四、使用自定义View五、源码前言在日常工作开发中，我们时长…

阅读更多...

Ubuntu下载、配置、安装和编译opencv

Ubuntu下载、配置、安装和编译opencv

1 安装相关依赖安装opencv前，需要先准备好编译器、相关依赖sudo apt-get install gcc g cmake vim sudo apt-get install build-essential libgtk2.0-dev libavcodec-dev libavformat-dev libjpeg-dev libswscale-dev libtiff5-dev sudo apt-get install libgtk2.0-…

阅读更多...

MySQL数据库实现主从同步

MySQL数据库实现主从同步

安装MySQL数据库8.0.32 前言今天来学习数据库主从同步的原理及过程，数据库主要是用来存储WEB数据，在企业当中是极为重要的，下面一起来看下。 1.1 数据库做主从的目的 MySQL主从复制在中小企业，大型企业中广泛使用&#xff0c…

阅读更多...

类和对象 - 下

类和对象 - 下

本文已收录至《C语言》专栏！ 作者：ARMCSKGT 目录前言正文初始化列表成员变量的定义与初始化初始化列表的使用变量定义顺序 explicit关键字隐式类型转换自定义类型隐式转换 explicit 限制转换关于static static声明类成员友元友…

阅读更多...

重构类关系-Push Down Method函数下移四

重构类关系-Push Down Method函数下移四

重构类关系-Push Down Method函数下移四 1.函数下移 1.1.使用场景超类中的某个函数只与部分（而非全部）子类有关。将这个函数移到相关的那些子类去。 Push Down Method (328)与Pull Up Method (322)恰恰相反。当我有必要把某些行为从超类移至特定的子…

阅读更多...

maven的profiles功能介绍、maven自定义插件plugin

maven的profiles功能介绍、maven自定义插件plugin

profiles maven配置文件的profiles功能类似于springboot的spring.profiles.active配置，指定不同的环境来读取相应的配置内容。 <profiles>标签的子标签可以包含<repository> <plugin> <dependencies> <distributionManagement>等。 …

阅读更多...

go语言gin框架学习

go语言gin框架学习

让框架去做http解包封包等，让我们的精力用在应用层开发 MVC模式 M: model，操作数据库gorm view 视图处理模板页面 contoller 控制器路由逻辑函数解决gin相关代码飘红的问题记得启用gomodule go env -w GO111MODULEon然后到相应目录下执行 go mod i…

阅读更多...

Karl Guttag：论相机对焦技术在AR/VR中的沿用

Karl Guttag：论相机对焦技术在AR/VR中的沿用

近期，AR/VR光学专家Karl Guttag介绍了两家在CES 2023展出光学传感技术的公司：poLight和CML（剑桥机电一体化）。同时介绍两家公司的原因，是因为他们提供了实现AR/VR“光学微动”（Optics Micromovement&…

阅读更多...

5.多线程学习

5.多线程学习

作者：爱塔居专栏：JavaEE 作者简介：大三学生，喜欢总结与分享~ 文章目录目录文章目录章节回顾一、wait 和notify 二、设计模式 2.1 单例模式章节回顾线程安全 1.一个线程不安全的案例（两个线程各自自增5w次&…

阅读更多...

PyTorch 之基于经典网络架构训练图像分类模型

PyTorch 之基于经典网络架构训练图像分类模型

文章目录一、模块简单介绍1. 数据预处理部分2. 网络模块设置3. 网络模型保存与测试二、数据读取与预处理操作1. 制作数据源2. 读取标签对应的实际名字3. 展示数据三、模型构建与实现1. 加载 models 中提供的模型，并且直接用训练的好权重当做初始化参数2. 参考 pyto…

阅读更多...

【Linux】基于阻塞队列的生产者消费者模型

【Linux】基于阻塞队列的生产者消费者模型

🌠 作者：阿亮joy. 🎆专栏：《学会Linux》 🎇 座右铭：每个优秀的人都有一段沉默的时光，那段时光是付出了很多努力却得不到结果的日子，我们把它叫做扎根目录👉为何要使用…

阅读更多...

谈谈低代码的安全问题，一文全给你解决喽

谈谈低代码的安全问题，一文全给你解决喽

低代码是一种软件开发方法，通过使用图形化用户界面和可视化建模工具，以及自动生成代码的技术，使得开发人员可以更快速地构建和发布应用程序。作为近些年软件开发市场热门之一，市面上也涌现了许多低代码产品，诸如简道云…

阅读更多...

SpringCloud：统一网关Gateway

SpringCloud：统一网关Gateway

目录 1、网关介绍 2、搭建网关服务 3、路由断言工厂 4、路由过滤器 5、全局过滤器GlobalFilter 6、过滤器执行顺序 7、跨域问题处理 1、网关介绍网关(Gateway)又称网间连接器、协议转换器。网关在网络层以上实现网络互连，是复杂的网络互连设备&#xff0…

阅读更多...

常见背包问题

常见背包问题

一.前言若你想学习或正在学习动态规划，背包问题一定是你需要了解的一种题型，并且大多数人最初都是从背包问题入坑进而打开动态规划这一大门。背包问题分为多种，你可以先掌握最常见的主要是三类：01背包、完全背包、多重背包二.分析…

阅读更多...

最新文章