六一礼物怎么选?来用python采集几套试卷送给小朋友们吧

马上要六一了,想一想我小时候的儿童节老师大概率都会布置一些试卷,所以也算是渡过了一个很"快乐"的童年呢。

所以今天这篇文章来采集一下试卷网中的试卷,快来学习一下,然后采集几套试卷送给你身边还在上学的小朋友们吧,想必收到这个儿童节礼物他们应该会很高兴~

目标网站的页面大概是长这样的,结构还是很清晰的,不同科目,年级都很规律,可以说是比较容易采集的了。

image.png

我们以一年级的语文试卷为例来演示,首先点击"语文试卷",选择"一年级"。会新打开一个标签页,可以看到试卷还是很丰富的,为了小朋友的身心健康,我们就先采集前 5 页的试卷吧。

image.png

打开开发者工具,查看页面的 dom 结构

image.png

核心就是这个表格 tbody 里的内容了,关键信息基本都有了,试卷名称,文件类型,版本,大小,上传日期。那么问题来了,怎么下载呢? 我们继续点击某一个试卷,查看这个试卷的详情页面,可以看到页面底下有一个"本地下载按钮"。

image.png

利用开发者工具找到这个按钮的 dom 元素,如下,就能获取到这个试卷的下载地址了。点击测试一下,确实是能下载的。

image.png

这次就不用 js 来写脚本了,换 python 写吧,主打一个随心所欲。 大概原理,利用 request 库来请求内容,bs4 库来解析 html 提取试卷信息,下载链接等,开干~ 编写获取指定页面的所有试卷数据函数

image.png

测试执行执行一下,没什么问题

image.png

然后遍历获取到的试卷,得到下载地址

image.png

执行一下,成功拿到了试卷的下载地址。

image.png

编写下载试卷的函数,传入 url 和 folder,folder 暂时写死为 yuwen

image.png

执行后,就可以在当前目录下的 yuwen 文件夹中看到下载好的试卷文件了

image.png

试卷文件是压缩包,如果要手动解压的话,肯定是不行的。所以我们可以使用 rarfile 这个库来对文件进行解压。添加解压代码,解压后记得要删除原有的压缩包,代码如下

image.png

再来执行一次,完成后就能看到解压后的试卷了

image.png

最后,增加一个遍历条件,采集前 5 页的试卷

image.png

好了,到这里我们基本的功能就都实现好了。 如果你想指定下载的科目和年级,也可以支持,我们继续对代码进行一下改造,支持在执行的时候传入两个参数,分别是科目和年级。

比如下面的这个命令,就表示采集语文科目,1年级的试卷。如果要采集其他科目,也可以传入对应的参数即可

image.png

关键代码大致如下,解析脚本传入的参数

image.png

获取试卷列表页面的 list 地址

image.png

然后我们来尝试下载一年级的数学试卷

image.png

执行后的结果如下

image.png

作者:cooljser
链接:https://juejin.cn/post/7374968339905724426

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/668181.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《面试笔记》——MySQL终结篇30

三大范式? 第一范式:字段具有原子性,不可再分(字段单一职责) 第二范式:满足第一范式,每行应该被唯一区分,加一列存放每行的唯一标识符,称为主键(都要依赖主…

系统架构设计师【第10章】: 软件架构的演化和维护 (核心总结)

文章目录 10.1 软件架构演化和定义的关系10.1.1 演化的重要性10.1.2 演化和定义的关系 10.2 面向对象软件架构演化过程10.2.1 对象演化10.2.2 消息演化10.2.3 复合片段演化10.2.4 约束演化 10.3 软件架构演化方式的分类10.3.1 软件架构演化时期10.3.2 软件架构静态演…

第二十五章新增H5基础(以及视频~兼容)

1.HTML5中新增布局标签 HTML5新增了页眉&#xff0c;页脚&#xff0c;内容块等文档结构相关标签&#xff0c;可以使文档结构更加清晰明了。 1.新增的结构标签 1、<header>标签 定义文档或者文档中内容块的页眉。通常可以包含整个页面或一个内容区域的标题&#xff0c…

【Java】刚刚!突然!紧急通知!垃圾回收!

【Java】刚刚&#xff01;突然&#xff01;紧急通知&#xff01;垃圾回收&#xff01; 文章目录 【Java】刚刚&#xff01;突然&#xff01;紧急通知&#xff01;垃圾回收&#xff01;从C语言的内存管理引入&#xff1a;手动回收Java的垃圾回收机制引用计数器循环引用问题 可达…

支付宝支付-Java基于沙箱环境实现支付宝支付

一、支付宝沙箱环境介绍 沙箱环境是支付宝开放平台为开发者提供的安全低门槛的测试环境&#xff0c;开发者在沙箱环境中调用接口无需具备所需的商业资质&#xff0c;无需绑定和开通产品&#xff0c;同时不会对生产环境中的数据造成任何影响。合理使用沙箱环境&#xff0c;可以…

7-Django项目--账号管理

目录 templates/admin_role/admin_list.html ​编辑 templates/admin_role/add_modify.html views/admin_role.py 账号管理----> 账号添加 views.py 身份修改 views.py 重置密码 views.py templates/admin_role/admin_list.html {% extends "index/index.ht…

[有监督学习] 7.详细图解随机森林

随机森林 随机森林&#xff08;random forest&#xff09;是将多个模型综合起来创建更高性能模型的方法&#xff0c;既可用于回归&#xff0c;也可用于分类。同样的算法有梯度提升&#xff08;gradient boosting&#xff09;等在机器学习竞赛中很受欢迎的算法。 通过学习随机森…

SpringBoot整合jasypt加密配置文件敏感信息

SpringBoot整合jasypt加密配置文件敏感信息 在项目中我们需要对配置文件的一些敏感信息进行加密处理&#xff0c;比如数据库账户密码&#xff0c;避免直接暴露出来&#xff0c;这种场景常常用于生产环境&#xff0c;我们不想让开发人员知道生产库的密码&#xff0c;有运维人员…

Ubuntu 安装好虚拟环境后,找不到workon 命令

1、安装虚拟环境 pip3 install virtualenv pip3 install virtualenvwrapper 2、安装完成后 workon 命令。 找不到workon 命令 执行&#xff0c;source virtualenvwrapper.sh 执行后&#xff0c;在使用workon命令&#xff0c;即可完成。

1.1 Mediapipe随手简记(一)

为了后续项目展开&#xff0c;需要Python、C、Linux、OpenCV、Mediapipe、ROS知识。 最后面有手势识别&#xff08;数字&#xff09;精准案例&#xff0c;项目会用到。 Mediapipe学习篇1 Mediapipe 是一个开源的跨平台框架&#xff0c;它提供了大量的解决方案&#xff0c;用…

MySQL十部曲之九:MySQL优化理论

文章目录 前言概述查询优化查询执行计划EXPLAIN获取表结构信息获取执行计划信息 EXPLAIN 输出格式如何使用EXPLAIN进行优化 范围访问优化单列索引的范围访问多列索引的范围访问 索引合并优化索引合并交叉访问算法索引合并联合访问算法索引合并排序联合访问算法 索引下推优化连接…

随身wifi网络卡顿怎么解决?随身WiFi哪个牌子的最好用?排名第一名的随身WiFi!

对于随身wifi靠不靠谱这个问题&#xff0c;网上一直存在争议。很多人的随身wifi网速不稳定&#xff0c;信号看着满格就是上不了网。关于随身wifi卡顿到底该怎么解决呢&#xff1f; 1.如果是设备网络在一个地方上网速度很快&#xff0c;换一个地方网络就不行了&#xff0c;很可能…

爬虫学习2

中国国家地理网 单张图片爬取 import requests url http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AWujSAA_-xvEYLbU441.jpg!rw9 headers {"User-Agent": Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0…

CC工具箱使用指南:【山西省村规结构调整表(亦求长生亦求你)】

一、简介 群友定制工具。 工具根据输入的用地图层&#xff0c;生成山西村规的结构调整表。 和一般的用地表有些不一样的地方是&#xff0c;现状和规划字段都在同一个图层里。 并且还有一个【村庄名称】的字段&#xff0c;可以将多个村庄放在一个图层中&#xff0c;一次性生…

简介项目管理七步训练与站上山顶

前言 麦肯锡七步成诗法,实际上并非用于创作诗歌,而是一种解决问题的方法,它源自于全球知名的管理咨询公司麦肯锡(McKinsey & Company)。 这种方法强调逻辑清晰、结构化思维,用于解决商业问题非常有效。这种创意思维方法被广泛应用于问题解决和创新过程中。以下是“麦…

【设计模式深度剖析】【7】【结构型】【享元模式】| 以高脚杯重复使用、GUI中的按钮为例说明,并对比Java类库设计加深理解

&#x1f448;️上一篇:外观模式 | 下一篇:结构型设计模式对比&#x1f449;️ 设计模式-专栏&#x1f448;️ 目录 享元模式定义英文原话直译如何理解&#xff1f;字面理解例子&#xff1a;高脚杯的重复使用例子&#xff1a;GUI中的按钮传统方式使用享元模式 4个角色1. …

html期末复习速览

一.基础标签 1.段落标签<p></p> 特点&#xff1a;分段分割 2.标题标签<h1></h1>……<h6></h6> 特点&#xff1a;文字加粗&#xff0c;单独占一行 3.换行标签<br /> 特点&#xff1a;单标签&#xff0c;强制换行 二.文本格式化…

流媒体内网穿透/组网/视频协议转换EasyNTS上云网关如何更改密码?

EasyNTS上云网关的主要作用是解决异地视频共享/组网/上云的需求&#xff0c;网页对域名进行添加映射时&#xff0c;添加成功后会生成一个外网访问地址&#xff0c;在浏览器中输入外网访问地址&#xff0c;即可查看内网应用。无需开放端口&#xff0c;EasyNTS上云网关平台会向Ea…

备忘录--

备忘录 vue新建项目&#xff0c;body 大小占不了全屏 // 解决问题 // public/index.html 更改基础样式 html,body{height: 100%width: 100%&#xff1b;margin: 0;border: 0;padding: 0; }Element Plus 经典布局 参考 Element Plus 官网 <template><div class"…

jmeter性能测试用例提取

性能测试用例提取参考(根据单、混合场景、模块、运行时间、优先级)去考虑 Tips&#xff1a;用例提取和用例设计不一样 后期可以结合性能测试用例设计(设置线程数、时间、循环、同步定时器等等&#xff09;来做性能测试