Scrapy链接MongoDB数据库

本文章是在Scrapy入门-CSDN博客的基础上改写的代码。

1.声明采集目标

打开mySpider/mySpider1/items.py文件,修改MyspiderItem类为AIspiderItem:

class AIspiderItem(scrapy.Item):

    title = scrapy.Field()

    url = scrapy.Field()

    date = scrapy.Field()

2.修改dgcuAI.py 文件

引入AIspiderItem:

from mySpider.items import AIspiderItem

在parse函数结尾加上创建AIspiderItem类的代码:

from scrapy.selector import Selector

from mySpider1.items import AIspiderItem

class DgcuaiSpider(scrapy.Spider):

    name = 'dgcuAI'

    allowed_domains = ['ai.dgcu.edu.cn']

    start_urls = ['http://ai.dgcu.edu.cn/front/category/2.html']

    def parse(self, response):

        print(response.url)

        selector = Selector(response)

        node_list = selector.xpath("//div[@class='pageList']/ul/li")

        for node in node_list:

            # 文章标题

            title = node.xpath('./a[1]/div[@class="major-content1"]/text()').extract_first()

            # 文章链接

            url = node.xpath('./a[1]/@href').extract_first()

            # 日期

            date = node.xpath('./a[1]/div[@class="major-content2"]/text()').extract_first()

            # 创建AIspiderItem类

            item = AIspiderItem()

            item['title'] = title

            item['url'] = url

            item['date'] = date

            yield item

3.修改pipelines.py文件:

from itemadapter import ItemAdapter

from pymongo import MongoClient

from bson import ObjectId, json_util  

class AIPipeline:

    def open_spider(self, spider):

        # MongoDB 连接设置  

        self.MONGO_URI = 'mongodb://localhost:27017/'  

        self.DB_NAME = 'news'  # 数据库名称  

        self.COLLECTION_NAME = 'DGCU_AI'  # 集合名称

        self.client = MongoClient(self.MONGO_URI)

        self.db = self.client[self.DB_NAME]

        self.collection = self.db[self.COLLECTION_NAME]

        # 如果集合中已有数据,清空集合

        self.collection.delete_many({})

        print('爬取开始')

    def process_item(self, item, spider):

        title = item['title']

        url = item['url']

        date = item['date']

        # 将item转换为字典

        item_dict = {

            'title': title,

            'url': url,

            'date': date

        }

        # 插入数据

        self.collection.insert_one(item_dict)

        return item

   

    def close_spider(self, spider):

        print('爬取结束,显示数据库中所有元素')

        cursor = self.collection.find()

        for document in cursor:

            print(document)

        self.client.close()

4.修改settings.py 文件:

ITEM_PIPELINES = {

   'mySpider.pipelines.AIPipeline': 300,

}

5.运行run.py文件:

 from scrapy import cmdline

cmdline.execute("scrapy crawl dgcuAI -s LOG_ENABLED=False".split())

若遇到pymongo.errors.ServerSelectionTimeoutError,则参考该解决方法mongoDB 报错 MongoNetworkError: connect ECONNREFUSED 127.0.0.1:27017 : 一个可行的解决方案 - pwindy - 博客园 (cnblogs.com) 运行结果:

6.在MongoDB数据库中验证 

# 在cmd中输入以下命令,查看数据库中的数据:
 > mongosh      # 启动mongoDB
 > show dbs      # 查看所有数据库
 > use news      # 使用news数据库
 > show collections        # 查看当前数据库的所有集合
 > db.DGCU_AI.find()        # 查看DGCU_AI集合中的所有文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/908931.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Qt项目实战:红绿灯小程序

目录 一.初始化对象 二.捕获并处理特定的事件 三.自定义绘制方法 四.绘制外部边框 五.绘制内部边框 六.绘制按钮的背景色 七.绘制覆盖层(高光效果) 八.效果 九.代码 1.h 2.cpp 一.初始化对象 1.设置文本、颜色、边框和背景色等默认值。 2.安…

ReactPress 是什么?

ReactPress Github项目地址:https://github.com/fecommunity/reactpress 欢迎Star。 ReactPress 是什么? ReactPress 是使用React开发的开源发布平台,用户可以在支持React和MySQL数据库的服务器上架设属于自己的博客、网站。也可以把 ReactP…

萤石私有化设备视频平台EasyCVR视频融合平台如何构建农业综合监控监管系统?

现代农业的迅速发展中,集成监控管理系统已成为提高农业生产效率和优化管理的关键工具。萤石私有化设备视频平台EasyCVR,作为一个具有高度可扩展性、灵活的视频处理能力和便捷的部署方式的视频监控解决方案,为农业监控系统的建设提供了坚实的技…

PG数据库 jsonb字段 模糊查询

背景: 项目由于多语言的设计,将字段设置成json字段类型,同时存储中文和英文 页面上通过输入框实现模糊的查询 一、表结构:name字段设置jsonb类型 二、表数据 3、Mybatis编写sql select pp.name ->>zh-CN as pmsProductNam…

Chrome 插件怎么安装与下载?超详细

原文链接: https://www.chajianxw.com/tutorial/how-to-install-chrome-plugin.html 前言 国内因为无法访问 Chrome 应用商店的缘故,导致很多优秀的扩展程序无法正常下载与安装。本文将手把手教你如何通过离线安装Chrome 插件,全文图文讲解…

【软服之家-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

深入解析:人工智能与机器学习

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 深入解析:人工智能与机器学习 深入解析:人工智能与机器学习 深入解析:人工智能与机器学习 人…

React 组件生命周期与 Hooks 简明指南

文章目录 一、类组件的生命周期方法1. 挂载阶段2. 更新阶段3. 卸载阶段 二、函数组件中的 Hooks1. useState2. useEffect3. useContext4. useReducer 结论 好的,我们来详细讲解一下 React 类组件的生命周期方法和函数组件中的钩子(hooks)。 …

MySQL约束管理

介绍 MySQL约束管理是指在MySQL数据库中定义和管理数据约束的过程。数据约束用于维护数据的完整性和一致性,确保数据在表中的存储符合特定的规则。通过约束,可以防止不符合要求的数据被插入或更新,从而保护数据库的质量。 约束管理的主要内…

无功功率的电流值是有效值吗?

无功功率的电流值通常指的是无功电流的有效值(RMS值)。为了更好地理解这个问题,先来区分无功功率和有功功率的概念: 1、无功功率的定义 无功功率(Q):无功功率是由电感和电容共同作用产生的功率…

亲测解决adobe genuine service alert

这个问题是由于app里面有adobe genuine service,这个软件出问题导致,解决方法是卸载它。 环境 Win 11 adobe acrobat 解决方法 卸载adobe genuine service。 参考 https://www.reddit.com/r/GenP/comments/mmw9qp/comment/guh5pk4/?utm_sources…

如何通过 PXE 使用 UEFI 启动 Tiny Core Linux

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

【ARM Linux 系统稳定性分析入门及渐进 1.2 -- Crash 工具依赖内容】

请阅读:【Linux 维测及Crash使用专栏】 文章目录 Prerequisites1. 内核对象文件2. 内存镜像3. 平台处理器类型4. Linux 内核版本 Prerequisites crash 工具需要依赖下面的内容: 1. 内核对象文件 vmlinux 文件:需要一个 vmlinux 内核对象文件&#xff…

DICOM标准:核医学图像模块属性——核医学(Nuclear Medicine, NM)DICOM标准详解

目录 引言 1. NM 序列模块(NM Sequence Module) 1.1 NM序列模块属性 2. NM 设备模块(NM Equipment Module) 2.1 NM设备模块属性 3. NM 图像模块(NM Image Module) 3.1 NM图像模块属性 3.2 帧增量指针…

在VScode中配置C_C++环境

众所周知,VScode是一个轻量,简便,功能强大的编辑器,我们可以在里面编写各种各样的代码,但是在C/C代码编译运行的时候,我们需要对环境进行一些适配,废话不多说,请看下面的详细步骤。 …

前端Nginx的安装与应用

目录 一、前端跨域方式 1.1、CORS(跨域资源共享) 1.2、JSONP(已过时) 1.3、WebSocket 1.4、PostMessage 1.5、Nginx 二、安装 三、应用 四、命令 4.1、基本操作命令 4.2、nginx.conf介绍 4.2.1、location模块 4.2.2、反向代理配置 4.2.3、负载均衡模块 4.2.4、通…

【三角回文数——枚举】

题目 代码 #include <bits/stdc.h> using namespace std; bool is_palindrome(int num) {string t to_string(num);int l 0, r t.size() - 1;while (l < r){if (t[l] ! t[r--])return false;}return true; } bool is_tri(int num) {int t num * 2;for (int i 1;…

【面试经典150】day 11

目录 1.无重复字符的最长子串 2.串联所有单词的子串 3.最小覆盖子串 4.有效的数独 ​​​​​​​ 1.无重复字符的最长子串 class Solution {public int lengthOfLongestSubstring(String s) {//定义哈希表Map<Character,Integer> dictnew HashMap<>();int ret…

ArcGIS影像调色(三原色)三原色调整

本期主要介绍ArcGIS影像调色&#xff08;三原色&#xff09; ArcGIS影像调色&#xff08;三原色&#xff09;&#xff0c;对比度、亮度、gamma。红绿蓝三原色调整。 视频学习 ArcGIS影像调色&#xff08;三原色&#xff09;

默认路由:实现内网所有网段流量走一条默认路由访问外网

默认路由 Tip&#xff1a;默认路由一般指出口网关设备的出口路由。实现所有网段流量都走一条路由。 实验模拟&#xff1a;公司内部pc 通过出口网关 访问运营商内部 baidu服务 isp网关配置&#xff1a; <Huawei>sy Enter system view, return user view with CtrlZ. …