爬虫第七篇数据爬取及解析

这篇博客旨在分享学习过程中的心得和体会,如果有错误请指出,感谢大家。

经过前面的学习,那么我们也就进入了数据爬取的阶段,大家跟着我的步伐一起来学习一下,爬虫的数据爬取与数据解析(本篇主要针对于带有页码的网页)

第一站单页数据获取

首先我们从简单的带页码的网页开始爬取,为啥从带页码的网页开始,有页码的网页点击页码会重新刷新页码数据,可以去掉一部分我们不需要的数据(因为我们一般需要的数据都在页码包含的url里面)

我们接下来实现输入我们需要的页码,然后爬虫自动去获取对应页面的数据,然后返回给我们,再将页码内容需要的具体数据输出

第一步找到页码在url上面的对应数据位置

我们先将其中几页的目标url,将其取下来,比对一下,哪个数据有可能是对应页码的数据

我试验的网址是{pageindex=页码}所以我们可以把url = f‘http://....&pageindex={你定义的变量}

这样改完url之后,获取完你输入的数字后,他会自动写入url,取获取对应网页的数据那么代码如下

import requests

# 用户输入页码
pageindex = input('请输入你要查看的神秘页码:')
url = f'https://example.com/api/data?pageIndex={pageindex}'
res = requests.get(url)

记得url都最好带上这个f,这样他会用fstring去获取,不容易出错 ,不然会出现解析不出来的情况

 第二步解析目标数据

然后就是解析目标数据,然后去获取我们需要的数据

比如目标数据格式为

{"code":200,"data":{

"posts":[{"id"=0,"name"=xiaoli

}]}}

这个时候我们需要去获取最里面的id和name数据我们应该怎么写呢?

print(['data']['post'][0]['id'])

第三步循环取出所有需要的id 

那么我们再衍生一下,通过循环将列表post里面的所有的id都取出来需要怎么写呢?

#将响应数据转换为字典类型
res_data = res.jason()
for i in res_data['data']['post']#通过for循环遍历数据,取出其中的id
    print(i['id'])

由此我们就完成了我们最开始的第一个目标,输入页码跳转对应页面,并输出需要的数据

 第二站多页数据获取

获取多页的数据比如获取1-10页的全部的id数据

第一步构建循环去获取1-10页的全部数据

这是知道需要的页码数量的情况下的

import request
for page_index in range(1,11):
    url = https://....pageindex={page_index}....
    res = request.get(url)
    res=res.jason()
    

 第二步通过循环去解析对应页码里面数据里的id

import request
num = 1
for page_index in range(1,11):
    url = https://....pageindex={page_index}....
    res = request.get(url)
    res_data=res.jason()
    for i in res_data['data']['post']#通过for循环遍历数据,取出其中的id
    print(i['id'])

第三站未知页数数据获取

根据上面的内容,那么我们只要加一个判定上面时候拉去数据为空就停止即可完成全部网页的拉取

import requests
    page_index = 1  # 代表分页
count = 1  # 代表取出的序号
while True:
    url = f'https://...pageIndex={page_index}...'
    res = requests.get(url)
    res_data = res.json()
 # 结束的判断条件
    if res_data['Data']['Posts'] == []:#根据网页的数据去判断什么时候拉不到数据
        break
 # 解析数据
    for i in res_data['Data']['Posts']:
        print(count, i['id'])
        count += 1
    print(f'第{page_index}页数据已经全部获取完毕')
    page_index += 1

以上可以去弄比较简单的网页,如果网页会去判断你是否为真人,那么你就需要加上伪装

headers = {
 'user-agent':'你网页里的useragent'
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/973896.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux下基本指令(4)

Linux权限的概念 Linux下有两种用户:超级用户(root)、普通用户。 超级用户:可以再linux系统下做任何事情,不受限制 普通用户:在linux下做有限的事情。 超级用户的命令提示符是“#”,普通用户…

网络安全设备防护原理 网络安全防护装置

🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 防火墙 简介 网络层的防护设备,依照特殊的规则允许或者限制传输的数据通过 是由软件和硬件设备组合而成,在内部网和外部网之间、专用网…

windwos与linux环境下Iperf3带宽测试工具的安装、使用

目录 一、前言 二、windows 2.1下载 2.2安装 2.3使用 2.3.1服务端 2.3.2客户端 2.3.3输出内容 1.客户端 2.服务端 2.4.相关命令 三、linux 3.1安装 3.2使用 1.服务端 2.客户端 3.输出内容 1.客户端 2.服务端 一、前言 在数字化浪潮下,网络性能…

达梦统计信息

统计信息 统计信息概述 统计信息是数据库中关于表和索引数据的元信息,用于描述数据的分布、唯一性、大小等特征。数据库优化器依赖统计信息来选择最优的执行计划。统计信息对于 CBO(基于代价的优化器)生成执行计划具有直接影响。 收集统计…

【面试系列】Java开发--AI常见面试题

1、实际工作或学习中用过哪些Ai工具 1.1、AI编程1.2、AI对话聊天1.3、AI图像工具1.4、AI办公工具 2、谈谈你知道的AI领域的一些常见词汇及其含义的理解? 例如AIGC、LLM、DeepLearning分别是什么意思? 2.1、AIGC(Artificial Intelligence Gene…

一文讲解Redis为什么读写性能高以及I/O复用相关知识点

Redis为什么读写性能高呢? Redis 的速度⾮常快,单机的 Redis 就可以⽀撑每秒十几万的并发,性能是 MySQL 的⼏⼗倍。原因主要有⼏点: ①、基于内存的数据存储,Redis 将数据存储在内存当中,使得数据的读写操…

OnlyOffice:前端编辑器与后端API实现高效办公

OnlyOffice:前端编辑器与后端API实现高效办公 一、OnlyOffice概述二、前端编辑器:高效、灵活且易用1. 完善的编辑功能2. 实时协作支持3. 自动保存与版本管理4. 高度自定义的界面 三、后端API:管理文档、用户与权限1. 轻松集成与定制2. 实时协…

【opencv】图像基本操作

一.计算机眼中的图像 1.1 图像读取 cv2.IMREAD_COLOR:彩色图像 cv2.IMREAD_GRAYSCCALE:灰色图像 ①导包 import cv2 # opencv读取的格式是BGR import matplotlib.pyplot as plt import numpy as np %matplotlib inline ②读取图像 img cv2.imread(…

fastadmin实现海报批量生成、邮件批量发送

记录一个海报批量生成、邮件批量发送功能开发,业务场景如下: 国外客户做观展预登记,工作人员通过后台,批量给这些观众生成入场证件并发送到观众登记的邮箱,以方便观众入场时快速进场。证件信息包含入场二维码、姓名&a…

3.Docker常用命令

1.Docker启动类命令 1.启动Docker systemctl start docker 2.停止Docker systemctl stop docker 3.重启Docker systemctl restart docker 4.查看Docker状态 systemctl status docker 5.设置开机自启(执行此命令后每次Linux重启后将自启动Docker) systemctl enable do…

1.21作业

1 unserialize3 当序列化字符串中属性个数大于实际属性个数时,不会执行反序列化 外部如果是unserialize()会调用wakeup()方法,输出“bad request”——构造url绕过wakeup 类型:public class&…

【Spring详解四】自定义标签的解析

四、自定义标签的解析 自定义标签的解析是通过 BeanDefinitionParserDelegate .parseCustomElement(ele)进行的,解析来我们进行详细分析。 DefaultBeanDefinitionDocumentReader.class 4.1 自定义标签的使用 扩展 Spring 自定义标签配置一般需要以下几个步骤&#x…

基于springboot校园健康系统的设计与实现(源码+文档)

大家好我是风歌,今天要和大家聊的是一款基于springboot的园健康系统的设计与实现。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 基于springboot校园健康系统的设计与实现的主要使用者管理员具有最高的权限,通…

如何修改Windows系统Ollama模型存储位置

默认情况下,Ollama 模型会存储在 C 盘用户目录下的 .ollama/models 文件夹中,这会占用大量 C 盘空间,增加C盘“爆红”的几率。所以,我们就需要修改Ollama的模型存储位置 Ollama提供了一个环境变量参数可以修改Ollama的默认存在位…

基于Python+Vue开发的反诈视频宣传管理系统源代码

项目简介 该项目是基于PythonVue开发的反诈视频宣传管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的反…

VMware安装Centos 9虚拟机+设置共享文件夹+远程登录

一、安装背景 工作需要安装一台CentOS-Stream-9的机器环境,所以一开始的安装准备工作有: vmware版本:VMware Workstation 16 镜像版本:CentOS-Stream-9-latest-x86_64-dvd1.iso (kernel-5.14.0) …

华为云deepseek大模型平台:deepseek满血版

华为云硅基流动使用Chatbox接入DeepSeek-R1满血版671B 1、注册: 华为云deepseek大模型平台注册:https://cloud.siliconflow.cn/i/aDmz6aVN 说明:填写邀请码的话邀请和被邀请的账号都会获得2000 万 Tokens;2个帐号间不会与其他关联…

import requests Pycharm 报错

#PyCharm安装requests失败解决方法 PyCharm安装request失败解决方法(亲测有效) import requests Pycharm 报错 尝试从系统终端运行此命令。确保使用为 D:\Python\venv\Scripts\python.exe 处的 Python 解释器安装的正确版本的 pip。失败一&#xff1…

基于云的物联网系统用于实时有害藻华监测:通过MQTT和REST API无缝集成ThingsBoard

论文标题 **英文标题:**Cloud-Based IoT System for Real-Time Harmful Algal Bloom Monitoring: Seamless ThingsBoard Integration via MQTT and REST API **中文标题:**基于云的物联网系统用于实时有害藻华监测:通过MQTT和REST API无缝集…

VMware converter standalone迁移windows老版本系统到esxi

最近因为有个客户有5台老服务器想淘汰掉换成新服务器,有多老呢?差不多20年了。比我干这个行业的时间还久。 老服务器的系统分别是: 1:3台windows server 2008 sp2 x64系统 2:2台windows server 2003 sp2 x32系统 新服务…