【Python爬虫】Scrapy框架实战---百度首页热榜新闻

【Python爬虫】Scrapy框架实战---百度首页热榜新闻

article2025/1/9 13:57:38/文章来源:https://blog.csdn.net/Gxy_sh/article/details/143926759

如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接

一、安装Scrapy库

在这里插入图片描述

二、创建项目（以BaiduSpider为例）

scrapy startproject BaiduSpider

在这里插入图片描述

生成每个文件的功能：

在这里插入图片描述

二、创建爬虫脚本（爬虫名：news）

scrapy genspider news www.baidu.com

命令执行成功后，spider目录中将生成news.py文件

在这里插入图片描述

（1）name：在同一个项目中，名字是唯一的，用来区分不同的spider。
（2）allowed_domains：允许爬取的域名，如果初始或后续请求的URL不是这个域名下的，则请求会被过滤掉，可以根据需要编辑或添加。
（3）start_urls：spider初始爬取的URL列表，可以根据需要编辑或添加。
（4）parse(self，response)：解析返回的响应，提取数据或新的URL，response是请求start_urls后返回的响应。

三、修改settings脚本（位置：settings.py）

设置请求头中的User-Agent和不遵守Robots协议

在这里插入图片描述

四、完善爬虫（位置：news.py）

编写解析方法

在这里插入图片描述

五、运行爬虫

正常运行爬虫命令

scrapy crawl news

不打印日志文件运行爬虫命令

scrapy crawl news --nolog

在这里插入图片描述

六、数据保存

6.1 修改items脚本（位置：items.py）

scrapy库提供Item对象来实现将爬取到的数据转换成结构化数据的功能。实现方法是定义Item类（继承scrapy.Item类），并定义类中的数据类型为scrapy.Filed字段。

在这里插入图片描述

6.2 编写解析方法（位置：news.py）

在这里插入图片描述

6.3 保存为JSON文件

scrapy crawl news -o news.json

命令执行成功后，BaiduSpider目录中将生成news.json文件

在这里插入图片描述

注意：使用-o输出JSON文件时，会默认使用unicode编码，当内容为中文时，输出的JSON文件不便于查看。此时，可以在settings.py文件中修改默认的编码方式，即增加设置FEED_EXPORT_ENCODING = ‘utf-8’。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/922525.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

mysql-分析MVCC原理

mysql-分析MVCC原理

一、MVCC简介 MVCC是一种用来解决读写冲读的无锁并发控制，也就是为事务分配单增长的时间戳，为每个修改保存一个版本，版本与事务时间戳关联，读操作只读该事务开始前的数据库的快照，所以MVCC可以为数据库解决一些问题。…

阅读更多...

论文笔记：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

论文笔记：Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

1. 挑战/问题（Challenges/Issues）： 这篇论文探讨了大型预训练语言模型在处理知识密集型自然语言处理（NLP）任务时面临的挑战。尽管这些模型在参数中存储了大量事实知识，并在微调后能够在下游NLP任务中取得很…

阅读更多...

嵌入式硬件电子电路设计（六）LDO低压差线性稳压器全面详解

嵌入式硬件电子电路设计（六）LDO低压差线性稳压器全面详解

引言： LDO（Low Dropout Regulator，低压差线性稳压器）是一种常用的电源管理组件，用于提供稳定的输出电压，同时允许较小的输入电压与输出电压之间的差值。LDO广泛应用于各种电子设备中，特别是在对…

阅读更多...

Spring：AOP面向切面案例讲解AOP核心概念

Spring：AOP面向切面案例讲解AOP核心概念

Spring的AOP，在不惊动(改动)原有设计(代码)的前提下，想给谁添加功能就给谁添加。这个也就是Spring的理念： 无入侵式/无侵入式 AOP中核心概念分别指的是什么? 连接点切入点通知通知类切面下面以一个例子进行讲解，直接上代码&a…

阅读更多...

禁止Chrome的自动升级

禁止Chrome的自动升级

一、需求分析因为用Chromeselenium做了网页自动化填写任务，如果Google Chrome浏览器自动升级，就会导致chromedriver加载失败，自动化任务失效，因此需要禁止Chrome浏览器的自动升级。二、当前环境三、实际配置运行注册表编辑…

阅读更多...

2024年wordpress、d-link等相关的多个cve漏洞poc

2024年wordpress、d-link等相关的多个cve漏洞poc

⚠️ 漏洞 ✅ CVE-2024-10914 在D-Link DNS-320、DNS-320LW、DNS-325和DNS-340L中发现的漏洞，版本直到20241028 GET /cgi-bin/account_mgr.cgi?cmdcgi_user_add&name%27;id;%27 HTTP/1.1✅ CVE-2024-11305 在Altenergy Power Control Software中发现的关键…

阅读更多...

Spring框架特性及包下载（Java EE 学习笔记04）

Spring框架特性及包下载（Java EE 学习笔记04）

1 Spring 5的新特性 Spring 5是Spring当前最新的版本，与历史版本对比，Spring 5对Spring核心框架进行了修订和更新，增加了很多新特性，如支持响应式编程等。更新JDK基线因为Spring 5代码库运行于JDK 8之上，所以Spri…

阅读更多...

从搭建uni-app+vue3工程开始

从搭建uni-app+vue3工程开始

技术栈 uni-app、vue3、typescript、vite、sass、uview-plus、pinia、axios 一、项目搭建 1、创建以 typescript 开发的工程 npx degit dcloudio/uni-preset-vue#vite-ts my-vue3-project2、安装sass npm install -D sass// 安装sass-loader，注意需要版本10&…

阅读更多...

WPF中的登录界面

WPF中的登录界面

创建如下的目录结构： 2.在App.xaml.cs中设置为先登录验证之后再进入主页面 using Prism.Ioc; using System.Windows; using 校园访客系统.Views;namespace 校园访客系统 {/// <summary>/// Interaction logic for App.xaml/// </summary>public partia…

阅读更多...

ros2学习日记_241124_ros相关链接

ros2学习日记_241124_ros相关链接

前言提醒： 文章内容为方便作者自己后日复习与查阅而进行的书写与发布，其中引用内容都会使用链接表明出处（如有侵权问题，请及时联系）。其中内容多为一次书写，缺少检查与订正，如有问题或其他拓展…

阅读更多...

ETAS工具导入DBC生成Com协议栈

ETAS工具导入DBC生成Com协议栈

文章目录前言DBC配置关键属性Cobra参数配置Cobra使用isolar工程配置总结前言 ETAS工具导入DBC主要也是生成arxml用的，ETAS推荐使用Cobra导入，本文介绍导入过程及注意事项 DBC配置关键属性对于普通Com报文，配置为周期发送，及其周期，NmMessage配置为No，示例如下：对…

阅读更多...

Kafka 工作流程解析：从 Broker 工作原理、节点的服役、退役、副本的生成到数据存储与读写优化

Kafka 工作流程解析：从 Broker 工作原理、节点的服役、退役、副本的生成到数据存储与读写优化

Kafka：分布式消息系统的核心原理与安装部署-CSDN博客自定义 Kafka 脚本 kf-use.sh 的解析与功能与应用示例-CSDN博客 Kafka 生产者全面解析：从基础原理到高级实践-CSDN博客 Kafka 生产者优化与数据处理经验-CSDN博客 Kafka 工作流程解析&#xff1a…

阅读更多...

如果在docker 容器中安装ros遇到的问题

如果在docker 容器中安装ros遇到的问题

1.在容器内部无法修改时间，需要在宿主机外边修改时钟。修改时钟： hwclock --systohc或者执行 date -s "2024-11-24 19:25:10"2.容器内部内置有opencv4.5版本，需要卸载，重新安装4.2.0版本。记录折腾好久的卸载过程。 …

阅读更多...

排序(Java数据结构)

排序(Java数据结构)

1. 排序的概念及引用 1.1 排序的概念排序：所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。(所有的排序都是默认从小到大排序) 稳定性：假定在待排序的记录序列中&#xff…

阅读更多...

AutoDL安装docker问题

AutoDL安装docker问题

在AutoDL上租了卡，安装docker遇到一些问题： 1.执行 sudo docker run hello-world 报错 docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running? 解决方法先查看docker有没有启动，…

阅读更多...

ArcGIS定义投影与投影的区别（数据和底图不套合的原因和解决办法）

今天介绍一下ArcGIS中定义投影与投影的区别。给大家解惑一下为什么经常出现自己的数据无法和底图套合的情况。一目录 1、ArcGIS定义投影与投影的概念区别 2、ArcGIS定义正确的坐标系 3、ArcGIS动态投影实现套合 4、ArcGIS地理坐标系转投影坐标系（错误做法&am…

阅读更多...

ChatGPT 桌面版发布了，如何安装？

ChatGPT 桌面版发布了，如何安装？

本章教程教大家如何进行安装。一、下载安装包官网地址地址：https://openai.com/chatgpt/desktop/ 支持Windows和MacOS操作系统二、安装步骤 Windows用户下载之后，会有一个exe安装包，点击运行安装即可。注意事项，如果Windows操…

阅读更多...

鸿蒙开发——根据背景图片来构建特定颜色的蒙版

鸿蒙开发——根据背景图片来构建特定颜色的蒙版

效果图如下(文字部分马赛克处理)： 最近突然发现网易云和QQ音乐这些图片上方的蒙版颜色不是固定的，而是跟着图片内容走的，想看看能不能在鸿蒙实现，最后凭借俺寻思之力寻思出了一套流程(有bug，有时候蒙版直接透明了&…

阅读更多...

clipboard

clipboard

clipboard 现代复制到剪贴板。无闪光。只有 3kb 的 gzip 压缩。安装 npm install clipboard --save第三方cdn提供商 <script src"https://cdn.jsdelivr.net/npm/clipboard2.0.11/dist/clipboard.min.js"></script>使用 data-clipboard-target"…

阅读更多...

Matlab深度学习（四）——AlexNet卷积神经网络

Matlab深度学习（四）——AlexNet卷积神经网络

网络搭建参考：手撕 CNN 经典网络之 AlexNet（理论篇）-CSDN博客在实际工程应用中，构建并训练一个大规模的卷积神经网络是比较复杂的，需要大量的数据以及高性能的硬件。如果通过训练好的典型网络稍加改进&#xf…

阅读更多...

最新文章