Scrapy框架内置管道之图片视频和文件(一篇文章齐全)

1、Scrapy框架初识(点击前往查阅)

2、Scrapy框架持久化存储(点击前往查阅)

3、Scrapy框架内置管道

4、Scrapy框架中间件(点击前往查阅)

Scrapy 是一个开源的、基于Python的爬虫框架,它提供了强大而灵活的工具,用于快速、高效地提取信息。Scrapy包含了自动处理请求、处理Cookies、自动跟踪链接、下载中间件等功能

Scrapy框架的架构图(先学会再来看,就能看懂了!) 

 一、内置管道(图片视频)

1:sttings设置

# 用于在指定目录下创建一个保存图片的文件夹。
IMAGES_STORE = "./imgs"

其他的设置不理解的可以参考: Scrapy框架初识

2:数据分析

详细见图片中注视哦~

代码:

import scrapy
from ..items import CsdnItem


class ImgSpider(scrapy.Spider):
    # 爬虫文件唯一标识
    name = "img"
    # allowed_domains = ["www.xxx.com"]

    # 发起请求的url列表
    start_urls = ["https://image.so.com/zjl?sn=0&ch=wallpaper"]

    def parse(self, response):
        # 获取返回数据:根据分析得到数据是json格式的
        img_data = response.json()

        # 根据数据分析,我们需要数据在list中
        for url in img_data["list"]:
            # 循环获取到图片的标题和url
            img_title = url["title"]
            img_url = url["imgurl"]

            # 实例化item对象
            item = CsdnItem()

            # 往item中封装数据
            item["img_title"] = img_title
            item["img_url"] = img_url

            # 将item提交给管道
            yield item

3:创建item对象

 详细见图片中注视哦~

代码:

import scrapy


class CsdnItem(scrapy.Item):
    # define the fields for your item here like:

    # 变量随便命名,scrapy.Field() 是固定写法
    img_title = scrapy.Field()
    img_url = scrapy.Field()

4:提交管道,持久化存储

4.1:模块安装 

pip install pillow

4.2:代码分析

配合下方图片:

  • 1、首先导入 ImagesPipeline 模块,然后class类继承。
  • 2、重新构建三个固定函数用于图片的批量下载和保存的操作。
    • get_media_requests函数:负责对图片进行请求发送获取图片二进制的数据。
      • itme获取爬虫数据传过来的数据这个,不懂理解看这个:item相关知识
      • yield发起请求这个是固定写法,参数意思可以看图中注释。
    • file_path函数:负责指定保存图片的名字。
      • 利用requests来获取上面传过来的数据。
      • return返回的值就是图片的名字和后缀
    • item_completed函数:用于将item对象传递给下一个管道。

代码:

import scrapy
from scrapy.pipelines.images import ImagesPipeline  # 导入模块


class CsdnPipeline(ImagesPipeline):  # (ImagesPipeline)括号内加入这个 是面向对象继承,属于面向对象知识。
    # 重新构建三个固定函数用于图片的批量下载和保存的操作。
    def get_media_requests(self, item, info):  # 该函数是负责对图片进行请求发送获取图片二进制的数据
        # 可以通过item参数接收爬虫文件提交过来的item对象
        img_title = item["img_title"]
        img_url = item["img_url"]

        # 对图片地址发起请求,(参数1,参数2) 参数1:url  参数2:请求传参,可以将数据传给 file_path 下面这个函数
        yield scrapy.Request(img_url, meta={"img_title": img_title})

    def file_path(self, request, response=None, info=None, *, item=None):  # 负责指定保存图片的名字
        # 接收 get_media_requests 函数中通过meta发送过来的数据。
        img_title = request.meta["img_title"]

        # 给图片名字带上后缀
        img_title = img_title + ".jpg"

        # 然后返回图片名字
        return img_title

    def item_completed(self, results, item, info):  # 用于将item对象传递给下一个管道
        return item

5:结果展示与总结

为什么会在这个文件夹中呢?因为刚开始的 settings 中,我们创建并指定了这个文件夹!!!

 补充:在设置 settings 中,还可以设置图片的缩略图尺寸。

 

代码流程:

  • 1.在爬虫文件中进行图片/视频的链接提取

  • 2.将提取到的链接封装到items对象中,提交给管道

  • 3.在管道文件中自定义一个父类为ImagesPipeline的管道类,且重写三个方法即可:

    • def get_media_requests(self, item, info):接收爬虫文件提交过来的item对象,然后对图片地址发起网路请求,返回图片的二进制数据
      
      def file_path(self, request, response=None, info=None, *, item=None):指定保存图片的名称
      def item_completed(self, results, item, info):返回item对象给下一个管道类

 二、内置管道(文件)

1:sttings设置

# 用于在指定目录下创建一个保存文件的文件夹。
FILES_STORE = "./file"

其他的设置不理解的可以参考: Scrapy框架初识

2:数据分析

详细见图片中注视哦,比较简单,不做过多分析了~

代码:

import scrapy
from ..items import CsdnItem  # 将item模块导入


class FileSpider(scrapy.Spider):
    # 爬虫文件唯一标识
    name = "file"
    # allowed_domains = ["www.xxx.com"]
    # 发起请求的url列表
    start_urls = ["https://docs.twisted.org/en/stable/core/examples/"]

    def parse(self, response):
        # 解析到url列表
        url_list = response.xpath('//section[@id="examples"]/section[1]//ul//a/@href').extract()
        for url in url_list:  # 分析得到URL不全。

            # 利用字符串分割拼接成一个完整的。
            url = url.split('../../')[-1]
            download_url = "https://docs.twisted.org/en/stable/" + url

            # 文件名称,就取链接的最后的
            title = url.split('/')[-1]

            # 创建item对象
            item = CsdnItem()

            # 封装值
            item['file_urls'] = download_url
            item['file_title'] = title

            # 将item提交给管道
            yield item

 

3:创建item对象

详细见图片中注视哦,与前面不同的是有2个字段是必须存在的。

 

4:提交管道,持久化存储

4.1:模块安装 

pip install pillow

4.2:代码分析

配合下方图片:

  • 1、首先导入FilesPipeline 模块,然后class类继承。
  • 2、重新构建三个固定函数用于文件的批量下载和保存的操作。
    • get_media_requests函数:负责对文件进行请求,获取图片二进制的数据。
      • itme获取爬虫数据传过来的数据这个,不懂理解看这个:item相关知识
      • yield发起请求这个是固定写法,参数意思可以看图中注释。
    • file_path函数:负责指定保存文件的名字。
      • 利用requests来获取上面传过来的数据。
      • return返回的值就是文件的名字
    • item_completed函数:用于将item对象传递给下一个管道。

代码: 

import scrapy
from scrapy.pipelines.files import FilesPipeline  # 导入模块


class CsdnPipeline(FilesPipeline):  # (ImagesPipeline)括号内加入这个 是面向对象继承,属于面向对象知识。
    # 重新构建三个固定函数用于文件的批量下载和保存的操作。
    def get_media_requests(self, item, info):  # 该函数是负责对文件url进行请求获取文件二进制的数据
        # 可以通过item参数接收爬虫文件提交过来的item对象
        file_title = item["file_title"]
        file_urls = item["file_urls"]

        # 对文件地址发起请求,(参数1,参数2) 参数1:url  参数2:请求传参,可以将数据传给 file_path 下面这个函数
        yield scrapy.Request(file_urls, meta={"file_title": file_title})

    def file_path(self, request, response=None, info=None, *, item=None):  # 负责指定保存文件的名字
        # 接收 get_media_requests 函数中通过meta发送过来的数据。
        file_title = request.meta["file_title"]

        # 然后返回文件名字
        return file_title

    def item_completed(self, results, item, info):  # 用于将item对象传递给下一个管道
        return item

5:结果展示与总结

 

  • 代码流程:

    • spider中爬取要下载的文件链接,将其放置于item中的file_urls字段中存储

    • spider提交item给FilesPipeline管道

    • FilesPipeline处理时,它会检测是否有file_urls字段,如果有的话,则会对其进行文件下载

    • 下载完成之后,会将结果写入item的另一字段files

Item要包含file_urlsfiles两个字段

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/194270.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

3D模型纹理集合并【Python|C#】

使用 Substance Painter 时,将模型的各个部分分成不同的纹理集非常有用。 这可以帮助遮罩,或者只是保持层栈干净。 不幸的是,Painter 无法将多个纹理集中的所有贴图导出为单个图集,即使在创建单独对象的 UV 时考虑到了这一点。 显…

Django创建基本的app应用并配置URL路径-成功运行服务

开发环境:Pycharm2021 Win11 首先创建虚拟环境: 可参考: Pycharm开发环境下创建python运行的虚拟环境(自动执行安装依赖包)_pycharm自动下载依赖包_heda3的博客-CSDN博客 1、安装 Django 在虚拟环境下安装pip install django …

ES 8.x开始(docker-compose安装、kibana使用、java操作)

学习文档地址 一、Docker安装 这里使用docker-compose来安装,方便后续迁移,Elasticserach和kibina一起安装。 1、创建安装目录 configdataplugins 2、配置文件 配置文件有两个,一个是ES的配置文件,一个docker-compose的配置文件 …

DS图—图的最短路径/Dijkstra算法【数据结构】

DS图—图的最短路径/Dijkstra算法【数据结构】 题目描述 给出一个图的邻接矩阵,输入顶点v,用迪杰斯特拉算法求顶点v到其它顶点的最短路径。 输入 第一行输入t,表示有t个测试实例 第二行输入顶点数n和n个顶点信息 第三行起,每行…

龙芯loongarch64服务器编译安装pyarrow

1、简介 pyarrow是一个高效的Python库,用于在Python应用程序和Apache Arrow之间进行交互。Arrow是一种跨语言的内存格式,可以快速高效地转移大型数据集合。它提供了一种通用的数据格式,将数据在内存中表示为表格,并支持诸如序列化和分布式读取等功能。 龙芯的Python仓库安…

Mo0n(月亮) MCGS触摸屏在野0day利用,强制卡死锁屏

项目:https://github.com/MartinxMax/Mo0n 后面还会不会在,我可就不知道了奥…还不收藏点赞关注 扫描存在漏洞的设备 #python3 Mo0n.py -scan 192.168.0.0/24 入侵锁屏 #python3 Mo0n.py -rhost 192.168.0.102 -lock 解锁 #python3 Mo0n.py -rhost 192.168.0.102 -unlock …

Linux(10):Shell scripts

什么是 Shell scripts shell script(程序化脚本):shell 部分是一个文字接口下让我们与系统沟通的一个工具接口;script 是脚本的意思,shell script 就是针对 shell 写的脚本。 shell script 是利用 shell 的功能所写的…

yolov8-pose 推理流程

目录 一、关键点预测 二、图像预处理 二、推理 三、后处理与可视化 3.1、后处理 3.2、特征点可视化 四、完整pytorch代码 yolov8-pose tensorrt 一、关键点预测 注:本篇只是阐述推理流程,tensorrt实现后续跟进。 yolov8-pose的tensorrt部署代码…

FPGA模块——DA转换模块(AD9708类)

FPGA模块——DA转换模块(AD9708类) AD9708/3PD9708代码 AD9708/3PD9708 由于电路接了反相器,所以对应就不一样了。 电路图: 代码 在ROM中存入要输出的波形数据: 用软件生成各个对应的点。 给DA转换器一个时钟&…

智能优化算法应用:基于樽海鞘群算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于樽海鞘群算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于樽海鞘群算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.樽海鞘群算法4.实验参数设定5.算法结果6.参考…

Junos webauth_operation.php 文件上传漏洞复现(CVE-2023-36844)

0x01 产品简介 Junos 是 Juniper Networks 生产的一款可靠的高性能网络操作系统。 0x02 漏洞概述 Junos webauth_operation.php接口处存在文件上传漏洞,未经身份认证的攻击者可利用 Junos 操作系统的 J-Web 服务 /webauth_operation.php 路由上传 php webshell&…

C语言第三十四弹--矩形逆置

C语言实现矩阵逆置 逆置结果如图 思路:通过观察逆置结果,首先发现行数和列数都发生了调换。其次观察逆置前后数字对应的下标,逆置前数字对应下标为:[x][j] 逆置后数字对应下标为:[y][x]。综上,就可以实现矩阵逆置。 …

人才“塔尖城市”,长沙如何炼成?

文 | 智能相对论 作者 | 范柔丝 长沙在人才吸引力上,近几年来可谓风头无二。 自2022年长沙人才政策“升级版45条”实施以来,越来越多的人才因为长沙真金白银的政策与城市发展机遇,奔赴长沙安居乐业。 随着2023互联网岳麓峰会吹响长沙全力…

用函数初始化数组

将数组全部初始化为相同值 对于一般情况 一般是用函数&#xff0c;传什么数就初始化为什么数 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> void init(int arr[], int len, int num) {int i;for (i 0; i < len; i){arr[i] num;} } int main() {int arr[…

网页设计--第5次课后作业

1、快速学习JavaScript的基本知识第1-10章 JavaScript入门 - 绿叶学习网 2、使用所学的知识完成以下练习。需求如下3个&#xff1a; 1&#xff09;点亮灯泡 2&#xff09;将所有的div标签的标签体内容后面加上&#xff1a; very good 3&#xff09;使所有的复选框呈现被选…

OpenHarmony模块化编译

一、环境配置 OpenHarmony版本&#xff1a;OpenHarmony 4.0 Release 编译环境&#xff1a;WSL2 Ubuntu 18.04 平台设备&#xff1a;RK3568 二、配置hb OpenHarmony 代码构建有build.sh和hb两种方式: #方式一、build.sh ./build.sh --product-name rk3568 --ccache#方式二、…

人工智能关键技术决定机器人产业的前途

人工智能&#xff08;Artificial Intelligence&#xff0c;AI&#xff09;是指让计算机或机器具有类似于人类的智能和学习能力的技术。人工智能技术与机器人技术的结合将改变传统的机器人行业格局&#xff0c;就像智能手机对传统手机的颠覆一样。本文从人工智能技术的发展趋势、…

QT基础实践之简易计算器

文章目录 简易计算器源码分享演示图第一步 界面设计第二步 设置槽第三步 计算功能实现 简易计算器 源码分享 链接&#xff1a;https://pan.baidu.com/s/1Jn5fJLYOZUq77eNJ916Kig 提取码&#xff1a;qwer 演示图 第一步 界面设计 这里直接用了ui界面&#xff0c;如果想要自己…

ITIL4中自动化测试和质量保障的重要性

点击进入IT管理资料库 在迅速变革的科技世界中&#xff0c;IT服务管理的关键要素之一是自动化测试和质量保障。随着ITIL 4的崭新框架崛起&#xff0c;这两者不仅成为服务管理的重要组成部分&#xff0c;更是组织提高服务质量和效率的不可或缺的利器。 自动化测试和质量保障如何…

MySQL备份与恢复(重点)

MySQL备份与恢复&#xff08;重点&#xff09; 一、用户管理与权限管理 ☆ 用户管理 1、创建MySQL用户 注意&#xff1a;MySQL中不能单纯通过用户名来说明用户&#xff0c;必须要加上主机。如jack10.1.1.1 基本语法&#xff1a; mysql> create user 用户名被允许连接的主…