通过scrapy和Django登录、爬取和持久化数据

使用 Scrapy 和 Django 实现登录、爬取和持久化数据的完整流程，可以通过以下步骤完成：

创建 Django 项目和数据库模型：定义一个存储爬取数据的数据库模型。
创建 Scrapy 项目：实现登录并抓取目标页面的数据。
整合 Scrapy 和 Django：在 Scrapy 中使用 Django 的模型保存爬取的数据到数据库。

在这里插入图片描述

问题背景

在将 Django 和 Scrapy 成功集成后，用户想要持久化爬取到的数据到数据库中。但是，存储后发现，部分元素丢失了。用户猜测自己可能遗漏了一些东西，但无法解决。

以下是用户的爬虫代码：

from scrapy.http import FormRequest, Request
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy import log
from scrapy.contrib.loader import XPathItemLoader
from datacrowdscrapy.items import DatacrowdItem

class DatacrowdSpider(BaseSpider):
    name = 'datacrowd'
    start_urls = ['https://www.exemple.com/login']

    def parse(self, response):
        parsed = [FormRequest.from_response(
            response,
            formdata={
                'login': 'email@gmail.com',
                'password': 'password'
            },
            callback=self.after_login)]

        return parsed

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)
            return

        selector = HtmlXPathSelector(response)
        investmentsLinks = selector.select('//a[contains(@class, "myClass")]/@href').extract()
        for link in investmentsLinks:
            curDatacrowdItem = XPathItemLoader(item=DatacrowdItem(), response=response)
            curDatacrowdItem.add_value('url', link)
            curRequest = Request(url=link, callback=self.parse_investments, meta={'item': curDatacrowdItem})
            yield curRequest


    def parse_investments(self, response):
        selector = HtmlXPathSelector(response)
        curDatacrowdItem = response.meta['item']

        # Details
        details = selector.select('//td/div[contains(@class, "myClass")]/text()').extract()
        curDatacrowdItem.add_value('someVal', details[0].strip())
        /* ... */

        # Get nbInvestors
        investorLink = selector.select('//ul[contains(@id, "myId")]/li/@onclick').re(r'window.location.href=\'(http.+/data.+)\'')
        curRequest = Request(url=investorLink[0], callback=self.parse_investors, meta={'item': curDatacrowdItem})
        yield curRequest


        # Get last company details
        detailsLink = selector.select('//ul[contains(@id, "myData")]/li/@onclick').re(r'window.location.href=\'(http.+/company-details.+)\'')
        curRequest = Request(url=detailsLink[0], callback=self.parse_details, meta={'item': curDatacrowdItem})
        yield curRequest

    def parse_investors(self, response):
        selector = HtmlXPathSelector(response)
        curDatacrowdItem = response.meta['item']
        nbInvestors = len(selector.select('//ul/li[contains(@class, "myClass")]'))
        curDatacrowdItem.add_value('nbInvestors', nbInvestors)
        return curDatacrowdItem

    def parse_details(self, response):
        selector = HtmlXPathSelector(response)
        curDatacrowdItem = response.meta['item']

        # Company name
        name = selector.select('//div[contains(@class, "myClass")]/h2/text()').extract()
        curDatacrowdItem.add_value('name', name[0].strip())
        item = curDatacrowdItem.load_item()
        item.save() # Here I'm persisiting datas
        return item

用户收到的错误日志如下：

[datacrowd] ERROR: Spider must return Request, BaseItem or None, got 'XPathItemLoader' in <GET http://www.exemple.com/url/slug>

解决方案

用户犯的错误是，他正在返回一个 XPathItemLoader 对象，而不是一个 Item 对象。在 “after_login” 方法中，用户将一个 XPathItemLoader 对象添加到 meta 中，然后尝试在稍后返回它。正确的做法是使用 load_item 方法来返回 Item 对象。

要解决这个问题，用户可以将以下代码添加到 “after_login” 方法中：

curRequest = Request(url=link, callback=self.parse_investments, meta={'item': curDatacrowdItem.load_item()})

另外，建议用户重命名变量，以避免类似的错误。

总结

这段代码展示了如何结合 Scrapy 和 Django 登录、抓取和持久化数据的基本流程。这个组合适用于需要在 Web 项目中自动抓取并存储数据的需求，如商品数据爬取。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/914946.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

通过scrapy和Django登录、爬取和持久化数据

总结

相关文章

SpringMVC全面复习

【再谈设计模式】抽象工厂模式~对象创建的统筹者

【Linux】ELF可执行程序和动态库加载

SpringBootCloud 服务注册中心Nacos对服务进行管理

八款局域网监控软件优选|2024最新排行榜(企业老板收藏篇)

限价订单簿中的高频交易

丹摩征文活动｜CogVideoX-2b：从0到1，轻松完成安装与部署！

Creo 9.0 中文版软件下载安装教程

RT-DETR融合CVPR[2024]无膨胀多尺度卷积PKI模块及相关改进思路

ubuntu-desktop-24.04上手指南(更新阿里源、安装ssh、安装chrome、设置固定IP、安装搜狗输入法)

[CKS] K8S ServiceAccount Set Up

介绍和安装及数据类型

算法魅力-二分查找实战

Linux第四讲：Git gdb

海底捞点单

PNG图片批量压缩exe工具+功能纯净+不改变原始尺寸

达梦8数据库适配ORACLE的8个参数

如何低成本、零代码开发、5分钟内打造一个企业AI智能客服？

CC1链学习记录

【启明智显分享】5G CPE为什么适合应用在连锁店中？