【Python爬虫实战】抓取省市级城市常务会议内容

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972

   个人介绍: 研一|统计学|干货分享
         擅长Python、Matlab、R等主流编程软件
         累计十余项国家级比赛奖项,参与研究经费10w、40w级横向

文章目录

  • 1 设置内容存储位置及加载包
  • 2 首页网页文本内容爬取
  • 3 循环抓取后续网页
  • 4 数据存储

实现基于R语言的省级常务会议内容的网页爬虫,包括htlm页面解析,由于首页与其它页网页url格式不同的循环读取方式,以及数据存储功能,代码块内附完整编码解析。

  实现效果:

在这里插入图片描述

1 设置内容存储位置及加载包

setwd("F:\\地级城市政策")#设置文件保存路径

library(rvest)
library(stringr)
library(rlist)

2 首页网页文本内容爬取

#读取第一页文件内容
url1 <-("http://www.lijiang.gov.cn/html/zhengwugongkai/zhengfuxinxigongkai/fadingzhudonggongkaineirong/zhengfuhuiyi/changwuhuiyi/index.html")
httr_web <-read_html(url1,encoding ='utf-8')  #抓取网页

#具体时间
time<-httr_web%>%html_nodes('ul.wjer_list li span')%>%html_text(trim = T)#抓取具体时间
######
timel<-data.frame()
for (i in 1:length(time)){
  if(i/2==2){
    timel[i]<-time[i]
  }
}
time<-strsplit(time,split = "-") # strsplit函数将数据拆分成列表(年月日)


time<-strsplit(time,split = ":") # strsplit函数将数据拆分成列表(年月日)
for(i in 1:length(time)) #定义语句循环次数,直至所有链接提取完成
{
  time[i]<-time[[i]][2] #提取列表中位置2的信息,填充websites1
}

for(i in 1:length(time)) #定义语句循环次数,直至所有链接提取完成
{
  time[i]<-strsplit(time[[i]],split = "-") #提取列表中位置2的信息,填充websites1
}

###########
time<-do.call(rbind,time)[,1:2]# 将列表转换为矩阵,提取第第一列和第二列(年、月)
time<-data.frame(time) #转化为数据框形式
po<-data.frame(time)#列合并数据框,格式为次数、年份、月份

3 循环抓取后续网页

po<-data.frame()
index <-seq(1,8,1)
for (i in index){# 读取网址
  url = paste("http://www.cxz.gov.cn/xxgk/xxgkzhlistpage.jsp?totalpage=8&PAGENUM=",i,"&urltype=tree.TreeTempUrl&wbtreeid=1977")
  url2<-str_replace_all(url," ","")  #合并网页去掉空格
  url <-(url2)#由于直接使用url2抓取内容为空:原因未知,故重新读取一次
  httr_web <-read_html(url,encoding ='utf-8')  #抓取网页
  #具体时间
  time<-httr_web%>%html_nodes('ul li span')%>%html_text()#抓取链接
  #具体时间

  time<-strsplit(time,split = "-") # strsplit函数将数据拆分成列表(年月日)
  time<-do.call(rbind,time)[,1:2]# 将列表转换为矩阵,提取第第一列和第二列(年、月)
  time<-data.frame(time) #转化为数据框形式
  timek<-data.frame(time)
  po<-data.frame(rbind(po,timek))
}
po1<-po
po1$X1<-as.numeric(as.character(po1$X1))
po1$X2<-as.numeric(as.character(po1$X2))
time3<-data.frame(2018,7)
names(time3)<-c("X1","X2")
po1<-data.frame(rbind(po1,time3))

4 数据存储

#将因子型转化为数值型
po1<-po
po1$X1<-as.numeric(as.character(po1$X1))
po1$X2<-as.numeric(as.character(po1$X2))


##已获得每个常务会网页的网址及命名需要数据(年份、月份,第k次),现循环存储每个网页文本内容

comments1<-as.character(comments$websites2)#将因子型转化为字符串,即网页形式
p=length(comments1)
for(k in 1:length(comments1)) #定义语句循环次数,直至所有链接提取完成
{
  ur2 <-comments1[k]
  httr_web2 <-read_html(ur2,encoding ='utf-8')  #抓取网页
  text<-httr_web2%>%html_nodes('div.xw-txt p')%>%html_text(trim =T)
  name<-paste("天津市\\","天津",po1[1:p,1][k],po1[1:p,2][k],68-k+1,".txt")#文件命名
  write.table(text, file = name, sep = "\n",
              row.names = F, 
              col.names = F)
}

ur2 <-comments1[1]
httr_web2 <-read_html(ur2,encoding ='utf-8')  #抓取网页
text<-httr_web2%>%html_nodes('div.xw-txt p')%>%html_text(trim =T)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/434981.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Three.js--》探寻Cannon.js构建震撼的3D物理交互体验(二)

我们用three.js可以绘制出各种酷炫的画面&#xff0c;但是当我们想要一个更加真实的物理效果的话&#xff0c;这个时候我们就需要一个物理的库&#xff0c;接下来我们就讲解一下今天要学习的canon&#xff0c;它可以给我们提供一个更加真实的物理效果&#xff0c;像物体的张力、…

Python - Pycharm 配置 autopep8 并设置快捷键

什么是 PEP8 官方&#xff1a;PEP 8 – Style Guide for Python Code | peps.python.org PEP8 是 Python 官方推出的一套编码的规范&#xff0c;只要代码不符合它的规范&#xff0c;就会有相应的提示&#xff0c;还可以让代码自动的格式化 Pycharm 自带的代码格式化 ​ 但这…

【C++】String常用的函数总结

目录 一、string的构造函数方式&#xff1a; 二、常用的大小/容量相关操作&#xff1a; 三、string的常用修改操作&#xff1a; 四、string的遍历&#xff1a; 五、string的任意位置插入 / 删除&#xff1a; 六&#xff1a;补充&#xff1a; 一、string的构造函数方式&a…

JavaWeb环境配置 IDE2022版

一、新建一个javaweb文件 文件名可以自己随意改 二、给建立的项目添加框架支持 勾选Web Application,点击确定 建立成功界面&#xff0c;会生成一个新的web文件夹 三、配置tomcat 1、两种打开配置文件方式&#xff1a; 第一种 第二种 2、打开后&#xff0c;点击号&#xf…

LLM | Gemma的初体验

一起来体验一下吧~ google/gemma-7b-it Hugging Face 此型号卡对应于 Gemma 型号的 7B 指令版本。还可以选择 2B 基本模型、7B 基本模型和 2B 指导模型的模型卡。 微调 使用 QLoRA 对 UltraChat 数据集执行监督微调 &#xff08;SFT&#xff09; 的脚本在 TPU 设备上使用 FS…

鸿蒙Harmony应用开发—ArkTS声明式开发(手势处理:绑定手势方法)

为组件绑定不同类型的手势事件&#xff0c;并设置事件的响应方法。 说明&#xff1a; 从API Version 7开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 绑定手势识别 通过如下属性给组件绑定手势识别&#xff0c;手势识别成功后可以通过事…

LVS负载均衡集群基础概念

目录 一、集群 1、集群概述 1.1 什么是集群 1.2 集群系统扩展方式 1.2.1 Scale UP&#xff08;纵向扩展&#xff09; 1.2.2 Scale OUT&#xff08;横向扩展&#xff09; 1.2.3 区别 1.3 分布式系统 1.4 分布式与集群 1.5 集群设计原则 1.6 集群设计实现 1.6.1 基础…

手回科技:人生的“小雨伞”,能否撑起自己的增长路?

有道是一年之计在于春。新年伊始&#xff0c;多家券商发布研报表达了对2024年保险市场表现的观点。 比如&#xff0c;开源证券表示&#xff0c;政策组合拳带来beta催化&#xff0c;保险业务端和弹性占优&#xff1b;中国银行证券指出&#xff0c;2024年&#xff0c;保险行业景…

Leetcode 第 125 场双周赛题解

Leetcode 第 125 场双周赛题解 Leetcode 第 125 场双周赛题解题目1&#xff1a;3065. 超过阈值的最少操作数 I思路代码复杂度分析 题目2&#xff1a;3066. 超过阈值的最少操作数 II思路代码复杂度分析 题目3&#xff1a;3067. 在带权树网络中统计可连接服务器对数目思路代码复杂…

Marin说PCB之POC电路layout设计仿真案例---01

最近娃哈哈饮料突然爆火&#xff0c;看新闻后才知道春晚的的时候宗老已经病的很严重了&#xff0c;现在也已经离我们而去了&#xff0c;宗老是一个值得我们尊敬爱戴的伟大企业家。于是乎小编我立马去他们的直播间买了一箱娃哈哈AD钙奶支持一下我们的国货。 中午午休的时候&…

智慧城市的未来:利用数字孪生技术推动智慧城市的智能化升级

目录 一、引言 二、数字孪生技术概述 三、数字孪生技术在智慧城市中的应用 1、城市规划与建设 2、城市管理与运营 3、公共服务与民生改善 4、应急管理与灾害防控 四、数字孪生技术推动智慧城市的智能化升级的价值 1、提高城市管理的智能化水平 2、优化城市资源配置 …

python将conda环境打入docker环境中

1.假设你本地已经安装好了conda相关的 ubuntu安装python以及conda-CSDN博客 并且已经创建启动过相关的环境&#xff0c;并且install了相关的包。 我本地的conda环境叫做,gptsovits_conda3 2.下载conda打包工具 conda install conda-pack pip install conda-pack 3.打包 con…

java八股文复习-----2024/03/04----基础

相关资源 大彬八股文 2024八股文 2024秋招八股文 1.了解Java的包装类型吗&#xff1f;为什么需要包装类&#xff1f; Java 是一种面向对象语言&#xff0c;很多地方都需要使用对象而不是基本数据类型。比如&#xff0c;在集合类中&#xff0c;我们是无法将 int 、double 等类型…

lvs集群介绍

目录 一、LVS集群基本介绍 1、什么是集群 2、集群的类型 2.1 负载均衡群集&#xff08;Load Balance Cluster) 2.2 高可用群集(High Availiablity Cluster) 2.3 高性能运算群集(High Performance Computing Cluster) 3、负载均衡集群的结构 ​编辑 4、LVS集群类型中的…

苹果电脑安装Android Studio和配置SDK

大家好&#xff0c;我是你们的好朋友咕噜铁蛋&#xff01;今天&#xff0c;我们要来聊一聊关于《苹果电脑安装Android Studio和配置SDK》这个话题。对于使用苹果电脑的开发者来说&#xff0c;安装Android Studio并配置SDK可能会有些不同&#xff0c;但只要跟着我的指引&#xf…

Linux篇:基础IO

一 预备知识 1. 文件内容属性&#xff0c;内容与属性都是数据&#xff0c;都要在磁盘中保存。 2. 文件分为打开的文件和没打开的文件。 3. 进程在访问一个文件的时候&#xff0c;都是要先打开这个文件。打开文件之前&#xff0c;文件在磁盘&#xff0c;打开文件之后&#xff0…

基于OpenCV的图形分析辨认02

目录 一、前言 二、实验目的 三、实验内容 四、实验过程 一、前言 编程语言&#xff1a;Python&#xff0c;编程软件&#xff1a;vscode或pycharm&#xff0c;必备的第三方库&#xff1a;OpenCV&#xff0c;numpy&#xff0c;matplotlib&#xff0c;os等等。 关于OpenCV&…

【python 1】----Pytest基础知识

定义 用于编写和执行Python测试全功能测试框架&#xff08;工具&#xff09;&#xff0c;是一个第三方库 安装 pip insatll pytest 安装pytest --version 校验 pytest的组成构成 不写调用语句也可以执行函数内容 在用例运行语句里面&#xff1a; -s:指的是开启与终端的…

【CSP试题回顾】201512-2-消除类游戏

CSP-201512-2-消除类游戏 解题思路 输入棋盘大小和颜色: 首先&#xff0c;程序从标准输入读取两个整数n和m&#xff0c;分别代表棋盘的行数和列数。然后&#xff0c;程序读取接下来的n行输入&#xff0c;每行包含m个整数&#xff0c;代表棋盘上每个方格中的棋子颜色。 初始化…

电子台账:通过标签颜色快速区分某月账页是否为空、是否锁定

目录 1 数据为空的账页&#xff0c;标签顶部没有标记色条 2 包含有效数据的账页且未进行锁定&#xff0c;标签顶部为深绿色标记色条 3 包含有效数据的账页且被锁定&#xff0c;标签顶部为橙色标记色条 通过设置账页标签的颜色&#xff0c;快速区分哪些月份的账页数据为空&am…