爬虫数据存储:Redis、MySQL 与 MongoDB 的对比与实践

爬虫的核心任务是从网络中提取数据,而存储这些数据是流程中不可或缺的一环。根据业务需求的不同,存储的选择可能直接影响数据处理的效率和开发体验。本文将介绍三种常用的存储工具——Redis、MySQL 和 MongoDB,分析它们的特点,并提供相关的入库示例代码。


一、数据库选型分析
  1. Redis

    • 特点:内存数据库,速度极快,支持多种数据结构(如字符串、哈希表、列表、集合等)。

    • 适用场景:适合临时数据缓存、去重、任务队列等场景。

    • 优点:高性能、简单易用。

    • 缺点:数据量大时成本高(内存占用)。

  2. MySQL

    • 特点:关系型数据库,结构化存储,支持 SQL 查询。

    • 适用场景:需要复杂查询、事务支持的场景。

    • 优点:稳定成熟、生态完善。

    • 缺点:对频繁写入操作性能稍弱。

  3. MongoDB

    • 特点:非关系型数据库,文档存储模式(JSON 格式),灵活性高。

    • 适用场景:非结构化或半结构化数据存储,数据模型多变的场景。

    • 优点:易扩展、查询灵活。

    • 缺点:事务支持较弱,复杂查询性能略逊于 MySQL。


二、示例代码:存储爬取数据

我们以一个模拟的数据样例为例,展示如何分别将数据存储到 Redis、MySQL 和 MongoDB 中。

数据样例
data = {
    "id": 1,
    "title": "爬虫数据存储:Redis、MySQL 与 MongoDB 的对比与实践",
    "author": "CSDN-MySheep",
    "url": "https://blog.csdn.net/m0_60082046/article/details/144704817"
}
1. Redis 存储
import redis

# 连接 Redis
redis_client = redis.StrictRedis(host='localhost', port=6379, db=0)

# 将数据存入 Redis
redis_client.hset(f"article:{data['id']}", mapping=data)

# 验证存储结果
stored_data = redis_client.hgetall(f"article:{data['id']}")
print(f"Redis 存储结果:{stored_data}")
2. MySQL 存储
import pymysql

# 连接 MySQL
connection = pymysql.connect(host='localhost', user='root', password='password', database='crawler_db')
cursor = connection.cursor()

# 创建表(如果不存在)
cursor.execute("""
CREATE TABLE IF NOT EXISTS articles (
    id INT PRIMARY KEY,
    title VARCHAR(255),
    author VARCHAR(50),
    url VARCHAR(255)
)
""")

# 插入数据
sql = "INSERT INTO articles (id, title, author, url) VALUES (%s, %s, %s, %s)"
cursor.execute(sql, (data['id'], data['title'], data['author'], data['url']))

# 提交事务
connection.commit()
print(f"MySQL 存储完成:ID {data['id']}")

# 关闭连接
cursor.close()
connection.close()
3. MongoDB 存储
from pymongo import MongoClient

# 连接 MongoDB
mongo_client = MongoClient("mongodb://localhost:27017/")
db = mongo_client["crawler_db"]
collection = db["articles"]

# 插入数据
collection.insert_one(data)
print(f"MongoDB 存储完成:{data}")

三、Redis、MySQL 和 MongoDB 的对比
特性RedisMySQLMongoDB
类型内存数据库关系型数据库非关系型数据库
性能较高
存储格式Key-Value表格(行、列)文档(JSON 格式)
查询支持简单查询强大的 SQL 支持灵活的文档查询
事务支持基础事务支持完备的事务支持有限的事务支持
适用场景缓存、任务队列复杂查询、结构化存储半结构化/非结构化存储

四、选择建议
  1. 如果需要高速缓存和简单存储:选择 Redis。

    • 适合存储爬取任务队列、去重记录等。

    • 在企业等工作中也会常用到Redis,因为入库是和采集是分开的,一般会使用Redis作为中间层,爬虫将数据推入Redis队列,负责入库的程序会读取数据进一步进行数据处理再转为结构化数据入库,例如外文翻译为中文,情感打分等。

  2. 如果数据有固定结构,需要复杂查询:选择 MySQL。

    • 适合存储文章、用户信息等结构化数据。

  3. 如果数据格式灵活多变:选择 MongoDB。

    • 适合爬取社交媒体、日志数据等非结构化内容。


五、总结

在爬虫开发中,选择合适的数据库存储工具能够大幅提升数据处理的效率和开发体验。Redis 的高性能缓存、MySQL 的结构化支持、MongoDB 的灵活性,各有千秋。根据项目需求合理选择存储方案,能够让你的爬虫更高效、更稳定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/944295.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【玩转MacBook】Git安装

Git 官网也提到了MacBook 可以使用 Homebrew 安装 Git,所以在此使用 Homebrew 安装。 1、安装 Homebrew 执行安装脚本 在 Terminal 中执行如下命令: /bin/bash -c "$(curl -fsSL https://gitee.com/ineo6/homebrew-install/raw/master/install.…

Browser Use:AI智能体自动化操作浏览器的开源工具

Browser Use:AI智能体自动化操作浏览器的开源工具 Browser Use 简介1. 安装所需依赖2. 生成openai密钥3. 编写代码4. 运行代码5. 部署与优化5.1 部署AI代理5.2 优化与扩展总结Browser Use 简介 browser-use是一个Python库,它能够帮助我们将AI代理与浏览器自动化操作结合起来;…

字符串存储、分割相关总结(strncpy 函数和strtok() 函数相关)

1.想用这些函数都需要导入头文件 #include<string.h> 2.怎么创建字符串并输入 #define maxsize 100 char a[maxsize1];//创建字符串&#xff0c;预留一个位置放\0 【1】scanf("%s",a);//使用 scanf 函数读取不带空格的字符串 【2】fgets(a, sizeof(a), stdi…

缓存管理自动化:JuiceFS 企业版 Cache Group Operator 新特性发布

近期&#xff0c;JuiceFS 企业版推出了 Cache Group Operator&#xff0c;用于自动化创建和管理缓存组集群。Operator 是一种简化 Kubernetes 应用管理的工具&#xff0c;它能够自动化应用程序的生命周期管理任务&#xff0c;使部署、扩展和运维更加高效。 在推出 Operator 之前…

【蓝桥杯——物联网设计与开发】拓展模块5 - 光敏/热释电模块

目录 一、光敏/热释电模块 &#xff08;1&#xff09;资源介绍 &#x1f505;原理图 &#x1f505;AS312 &#x1f319;简介 &#x1f319;特性 &#x1f505;LDR &#xff08;2&#xff09;STM32CubeMX 软件配置 &#xff08;3&#xff09;代码编写 &#xff08;4&#x…

基于AI的增强型日内成交量比率概率预测在美股市场中的表现优于现有的基准

“IVE: Enhanced Probabilistic Forecasting of Intraday Volume Ratio with Transformers” 论文地址&#xff1a;https://arxiv.org/pdf/2411.10956 摘要 本文介绍了一种创新的金融市场成交量比预测技术&#xff0c;特别适用于VWAP&#xff08;成交量加权平均价格&#xff…

Tauri2+Leptos开发桌面应用--Sqlite数据库操作

在之前工作&#xff08;使用Tauri Leptos开发带系统托盘桌面应用-CSDN博客&#xff09;的基础上&#xff0c;继续尝试对本地Sqlite数据库进行读、写、删除操作&#xff0c;开发环境还是VS CodeRust-analyzer。 最终程序界面如下&#xff1a; 主要参考文章&#xff1a;Building…

设计模式之状态模式:自动售货机的喜怒哀乐

~犬&#x1f4f0;余~ “我欲贱而贵&#xff0c;愚而智&#xff0c;贫而富&#xff0c;可乎&#xff1f; 曰&#xff1a;其唯学乎” 一、状态模式概述 \quad 在我们的日常生活中&#xff0c;很多事物都具有不同的状态。比如我们经常使用的自动售货机&#xff0c;它就具有多种状态…

4.银河麒麟V10(ARM) 离线安装 MySQL

1. 系统版本 [rootga-sit-cssjgj-db-01u ~]# nkvers ############## Kylin Linux Version ################# Release: Kylin Linux Advanced Server release V10 (Lance)Kernel: 4.19.90-52.39.v2207.ky10.aarch64Build: Kylin Linux Advanced Server release V10 (SP3) /(La…

多模态论文笔记——LLaVA

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细介绍多模态模型&#xff1a;LLaVA。处理包含图像和文本的多模态数据&#xff0c;并生成合理准确的回答。 文章目录 论文模型架构视觉编码器语言模型多模态融…

【Sentinel】初识Sentinel

目录 1.1.雪崩问题及解决方案 1.1.1.雪崩问题 1.1.2.超时处理 1.1.3.仓壁模式 1.1.4.断路器 1.1.5.限流 1.1.6.总结 1.2.服务保护技术对比 1.3.Sentinel介绍和安装 1.3.1.初识Sentinel 1.3.2.安装Sentinel 1.4.微服务整合Sentinel 1.1.雪崩问题及解决方案 1.1.1.…

[A-24][V-09]ARMv8/v9-SMMU工作场景与SMMU的虚拟化架构

ver0.1 [看前序文章有惊喜,关注W\X\G=Z+H=“浩瀚架构师”,可以解锁全部文章] 前言 我们在介绍ARM的内存体系的时候,行文中经常讲MMU比作PE-Cores的带刀护卫。按照这个逻辑,那么SMMU也可以称之为总线上各个Master(设备)的带刀护卫,利刃出鞘之后,任何驱动送过来的地址都…

WebRTC服务质量(10)- Pacer机制(02) RoundRobinPacketQueue

WebRTC服务质量&#xff08;01&#xff09;- Qos概述 WebRTC服务质量&#xff08;02&#xff09;- RTP协议 WebRTC服务质量&#xff08;03&#xff09;- RTCP协议 WebRTC服务质量&#xff08;04&#xff09;- 重传机制&#xff08;01) RTX NACK概述 WebRTC服务质量&#xff08;…

硬件设计-时钟振荡器

目录 摘要 壳式晶振 正常工作条件 摘要 本章主要介绍了晶振的分类、各项参数的意义、特点&#xff0c;同时也介绍了时钟抖动的成因、测量 方法、消除措施和典型滤波电路&#xff0c;使得我们可以正确地选择和使用晶振。 壳式晶振 如图 所示&#xff0c;壳式晶振的名字来源于…

Redis基础知识分享(含5种数据类型介绍+增删改查操作)

一、redis基本介绍 1.redis的启动 服务端启动 pythonubuntu:~$ redis-server客户端启动 pythonubuntu:~$ redis-cli <127.0.0.1:6379> exit pythonubuntu:~$ redis-cli --raw //(支持中文的启动方式) <127.0.0.1:6379> exit2.redis基本操作 ping发送给服务器…

sql字段值转字段

表alertlabel中记录变字段 如何用alertlabel表得到下面数据 实现的sql语句 select a.AlertID, (select Value from alertlabel where AlertIDa.AlertID and Labelhost) as host, (select Value from alertlabel where AlertIDa.AlertID and Labeljob) as job from (select …

llamafactory报错:双卡4090GPU,训练qwen2.5:7B、14B时报错GPU显存不足(out of memory),轻松搞定~~~

实际问题场景&#xff1a; 使用llamafactory进行微调qwen2.5 7B和14B的大模型时&#xff0c;会出现out of memory的报错。尝试使用降低batch_size&#xff08;原本是2&#xff0c;现在降到1&#xff09;的方式&#xff0c;可以让qwen2.5:7B跑起来&#xff0c;但时不时会不稳定…

【hackmyvm】hacked靶机wp

tags: HMVrootkitDiamorphine Type: wp 1. 基本信息^toc 文章目录 1. 基本信息^toc2. 信息收集2.1. 端口扫描2.2. 目录扫描2.3. 获取参数 3. 提权 靶机链接 https://hackmyvm.eu/machines/machine.php?vmHacked 作者 sml 难度 ⭐️⭐️⭐️⭐️️ 2. 信息收集 2.1. 端口扫描…

.NET平台用C#通过字节流动态操作Excel文件

在.NET开发中&#xff0c;通过字节流动态操作Excel文件提供了一种高效且灵活的方式处理数据。这种方法允许开发者直接在内存中创建、修改和保存Excel文档&#xff0c;无需依赖直接的文件储存、读取操作&#xff0c;从而提高了程序的性能和安全性。使用流技术处理Excel不仅简化了…

应用层1——C/S、P2P、DNS域名系统

目录 一、网络应用模型 1、C/S 2、p2p模型 二、域名解析系统DNS 1、为什么有DNS系统&#xff1f; 2、域名的特点 3、DNS域名系统原理 4、递归查询、迭代查询 5、常用的根域名与顶级域名 一、网络应用模型 1、C/S 客户/服务器模型 客户请求服务&#xff0c;服务器提供…