架构学习(五):scrapy实现自定义代理中间件

scrapy实现自定义代理中间件

  • 前言
  • 关卡:实现自定义代理中间件
    • 代理中间件源码解析
    • 代理池
    • 自定义代理中间件
  • 结束

前言

ip检测是比较常规的反爬手段,一般站点会限制ip的访问频率,或者根据ip的访问规律和频率来识别异常访问,从而点对点封ip。相信大家对代理ip并不陌生,这是ip反爬的绕过方式,且进一步衍生出代理池。
按笔者过往经验来看:

  1. 站点限制ip但不会绑定其他信息,这种情况下我们只要每次请求都切换ip即可(短效ip)
  2. 站点限制ip且绑定cookie等信息,可以每次切换ip时生成一次cookie;或者一个ip直接采集完(长效ip)

各站点的风控机制不同,大家以后遇到的话需要研究它的风控机制并设计突破方案,这个过程需要不断试错,控制变量并找出规律,而这种攻坚过程对逆向思维的训练是很有帮助的。

关卡:实现自定义代理中间件

代理中间件源码解析

进入scrapy->downloadermiddlewares->httpproxy.pyHttpProxyMiddleware便是原生的代理中间件,主要功能逻辑是process_request方法,我们研究它干了什么
在这里插入图片描述
从源码中我们可以知道配置代理的方式

  1. 通过配置request.meta["proxy"]来实现代理切换,它的样式是{protocol}://{username}:{password}@{host}:{port}
  2. 利用requests库的getproxies()函数,它返回当前环境变量中配置的代理设置,也就是self.proxies,在HttpProxyMiddleware初始化时实现
    在这里插入图片描述在这里插入图片描述

代理池

市面上有很多代理ip厂商,他们的产品有很多种,如隧道代理、短效代理等,有兴趣或者有需求的可以去咨询了解。但是这些代理商是服务众多用户的,他提供的代理池质量不一定能满足我们的需求,最好的选择就是维护一套属于自己的高质量代理池。
有兴趣可以看看这篇博客 高效代理池的维护

自定义代理中间件

笔者这里使用的是自己的代理池,通过接口拿到代理字典,需要使用时随机取值即可

{
    "status":1,
    "data":[
        {
            "host":host,
            "port":port,
            "create_time":create_time,
            "expired_time":expired_time,
            "priority":priority,
            "protocol":protocol,
            "source":"source"
        }
    ]
}

主要功能逻辑

def process_request(self, request, spider):
    """ 默认代理会一直使用,可以使用下面的参数实现动态使用
    meta auto_change_proxy change_proxy _proxy
    1. auto_change_proxy:程序自动指定代理
    2. change_proxy:更新代理(单次)
    3. _proxy:存储上一次代理
    """
    meta = request.meta
    add_proxy_meta = False

    if spider.proxy:  # 使用代理
        if meta.get('auto_change_proxy', None) or meta.get('change_proxy', None):
            add_proxy_meta = True
        elif not meta.get('proxy'):
            add_proxy_meta = True

    # 白名单处理
    if add_proxy_meta:
        for pattern in spider.custom_settings.get('whitelist_pattern', []) + \
                       meta.get('proxy_whitelist_pattern', []):
            if re.search(pattern, request.url):
                add_proxy_meta = False
                if meta.get('proxy'):
                    request.meta['_proxy'] = meta['proxy']
                    del meta['proxy']
                break

    if add_proxy_meta:
        get_suc, get_proxy = self.get_random_proxy(spider.crawler.settings.attributes['PROXY_POOL_URL'].value)
        if not get_suc:
            spider.print_log(get_proxy, log_type='error')
            # todo: 代理异常处理
        else:
            spider.print_log(f'随机代理: {get_proxy}')
            request.meta['proxy'] = get_proxy

设计逻辑如下:

  1. 脚本全局增加proxy参数,集中控制代理使用与否
  2. request.meta增加auto_change_proxychange_proxy_proxy参数来实现动态切换和固定使用
  3. 增加白名单机制,对指定站点采集不使用代理
  4. 日志记录与异常提醒

结束

这个关卡的设计方案是笔者根据自己业务场景实现的,大家如果有同样的需求,需要结合自己的业务场景来思考、设计与实现。
好了,分享就到这了,有啥错误的地方请指正~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/375464.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Flink cdc debug调试动态变更表结构

文章目录 前言调试流程1. 拉取代码本地打包2. 配置启动参数3. 日志配置4. 启动验证5. 断点验证 问题1. Cannot find factory with identifier "mysql" in the classpath.2.JsonFactory异常3. NoSuchMethodError异常其他 结尾 前言 接着上一篇Flink cdc3.0动态变更表…

LabVIEW双光子荧光显微成像系统开发

双光子显微成像是一种高级荧光显微技术,广泛用于生物学和医学研究,尤其是用于活体组织的深层成像。在双光子成像过程中,振镜(Galvo镜)扮演了非常关键的角色,它负责精确控制激光束在样本上的扫描路径。以下是…

幻兽帕鲁PalWorld服务器2024年配置选择

幻兽帕鲁PalWorld是一款备受期待的虚拟游戏,其独特的幻兽系统和丰富的世界观吸引了大量玩家。然而,随着游戏日益受到关注,服务器的配置选择成为了关键问题。2024年,随着技术不断发展,玩家对于游戏体验的需求也在不断提…

学习Android的第五天

目录 Android ConstraintLayout 约束布局 简介 ConstraintLayout 约束布局分类 1、相对定位 (Relative positioning) 2、边距 ( Margins ) 3、居中定位和偏向 ( Centering positioning and bias ) 4、环形定位 ( Circular positioning ) 5、对可见性的处理 ( Visibilit…

Android Compose 一个音视频APP——Magic Music Player

Magic Music APP Magic Music APP Magic Music APP概述效果预览-视频资源功能预览Library歌曲播放效果预览歌曲播放依赖注入设置播放源播放进度上一首&下一首UI响应 歌词歌词解析解析成行逐行解析 视频播放AndroidView引入Exoplayer自定义Exoplayer样式横竖屏切换 歌曲多任…

vscode远程连接失败

目录 解决方案尝试1解决方案尝试2 解决方案尝试1 最近通过vscode一直使用腾讯云的服务器作为远程开发环境,以前一直很好用。 直到最近重装了系统之后,发现vscode没法对云服务器进行连接了,即使在远程主机添加了本地的公钥也不行。直接报错:…

156基于Matlab的光纤陀螺随机噪声和信号

基于Matlab的光纤陀螺随机噪声和信号,利用固定步长和可调步长的LMS自适应滤波、最小二乘法、滑动均值三种方法进行降噪处理,最后用阿兰方差评价降噪效果。程序已调通,可直接运行。 156 信号处理 自适应滤波 降噪效果评估 (xiaohongshu.com)

redis:七、集群方案(主从复制、哨兵模式、分片集群)和面试模板

redis集群方案 在Redis中提供的集群方案总共有三种(一般一个redis节点不超过10G内存) 主从复制哨兵模式分片集群 主从复制(主从数据同步) replid和offset Replication Id:简称replid,是数据集的标记&a…

Oracle Vagrant Box 扩展根文件系统

需求 默认的Oracle Database 19c Vagrant Box的磁盘为34GB。 最近在做数据库升级实验,加之导入AWR dump数据,导致空间不够。 因此需要对磁盘进行扩容。 扩容方法1:预先扩容 此方法参考文档Vagrant, how to specify the disk size?。 指…

硬件工程师大师之道-EMC设计与诊断整改笔记1

什么是EMC EMC实质指的是多种用电设备在同一空间里同时工作时能够遵守“和平共处”的“多边主义”所谓你好我好大家好。 EMC包含EMS与EMI两个部分。 EMS: 任何用电设备在工作时都能通过空间合或者通过与其他设备的连接线,接收到四周的电磁波或者干扰电压电流&#…

代码随想录第28天|● 93.复原IP地址 ● 78.子集 ● 90.子集II

文章目录 93.复原IP地址思路:切割问题代码: 78.子集思路-找所有节点coding: 90.子集II思路-去重 93.复原IP地址 思路:切割问题 代码: 使用stringBuilder,故优化时间、空间复杂度,因为向字符串插入字符时无…

VScode为什么选择了Electron,而不是QT?

选择Electron而不是QT可能是基于以下几个原因: Web技术的普及和开发者生态系统:Web技术如HTML、CSS和JavaScript在开发者中非常普及,开发者生态系统庞大且活跃。使用Electron可以利用这些熟悉的Web技术和丰富的开发者社区资源。跨平台支持&am…

CS50x 2024 - Lecture 1 - C

本周学习C语言,重点是函数、变量、条件语句和循环。 05:11介绍了编程语言的转换过程,从源代码到机器码,以及编译器的作用。 编译器是将一种语言翻译成另一种语言的程序 09:18使用CS50.dev进行编程,介绍了VS Code和命令行界面的…

Cpp-2

类与对象 /*类与对象:1.类是一种用户自定义的数据类型(函数,数据)2.类是具有相同的属性和行为的对象的集合3.类是对象的抽象,对象是类的具体4.对象:通过使用类类型定义的变量 */定义类 /*如何定义类&…

JRT监听程序

本次设计避免以往设计缺陷,老的主要为了保持兼容性,在用的设计就不好调了。 首先,接口抽象时候就不在给参数放仪器ID和处理类了,直接放仪器配置实体,接口实现想用什么属性就用什么属性,避免老方式要扩参数时…

软件安全测试报告如何编写?权威的安全测试报告如何获取?

软件安全测试报告是一份详尽的文件,它主要通过对软件进行全面、系统的测试,评估软件的安全性,并在测试结束后起草编写的报告。该报告能清晰地展示出软件的各项安全风险以及潜在威胁,为用户提供安全方面的决策依据,并帮…

PMP考试成绩如何查询?

PMP考试成绩已经陆续出来了,出成绩时间大概一周左右,没收到的别着急,先把如何查询成绩路径弄清楚。 【如何查询成绩】 1、输入网址(PMI官网,不知道网址的私戳),点击 Log In 如果忘记 PMI 的账…

如何在Windows系统上部署docker

上次在Windows系统上部署成功Ubuntu系统,这次准备在Windows上部署docker desktop应用 这个应用软件类似于虚拟机,可以在该应用软件上部署多个镜像容器。其最直观的表现就是可以借用Windows和Ubuntu终端来访问docker“模拟的系统”。 Docker简介 Docke…

JAVA建造者模式详解

建造者模式 1 建造者模式介绍 建造者模式 (builder pattern), 也被称为生成器模式 , 是一种创建型设计模式. 定义: 将一个复杂对象的构建与表示分离,使得同样的构建过程可以创建不同的表示。 **建造者模式要解决的问题 ** 建造者模式可以将部件和其组装过程分开…

cesium系列篇:Entity vs Primitive 源码解析(从Entity到Primitive)02

上篇文章中,我们介绍了使用viewer.entities.add添加entity之后的信号传递以及最后entity对象被传递到GeometryVisualizer; 这篇文章,我们则介绍如何在逐帧渲染的过程中根据GeometryVisualizer中的entity对象创建相应的primitive 这是下文中…