【R语言爬虫实战】抓取省市级城市常务会议内容

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972

   个人介绍: 研一|统计学|干货分享
         擅长Python、Matlab、R等主流编程软件
         累计十余项国家级比赛奖项,参与研究经费10w、40w级横向

文章目录

  • 1 设置内容存储位置及加载包
  • 2 首页网页文本内容爬取
  • 3 循环抓取后续网页
  • 4 数据存储

实现基于R语言的省级常务会议内容的网页爬虫,包括htlm页面解析,由于首页与其它页网页url格式不同的循环读取方式,以及数据存储功能,代码块内附完整编码解析。

  实现效果:

在这里插入图片描述

1 设置内容存储位置及加载包

setwd("F:\\地级城市政策")#设置文件保存路径

library(rvest)
library(stringr)
library(rlist)

2 首页网页文本内容爬取

#读取第一页文件内容
url1 <-("http://www.lijiang.gov.cn/html/zhengwugongkai/zhengfuxinxigongkai/fadingzhudonggongkaineirong/zhengfuhuiyi/changwuhuiyi/index.html")
httr_web <-read_html(url1,encoding ='utf-8')  #抓取网页

#具体时间
time<-httr_web%>%html_nodes('ul.wjer_list li span')%>%html_text(trim = T)#抓取具体时间
######
timel<-data.frame()
for (i in 1:length(time)){
  if(i/2==2){
    timel[i]<-time[i]
  }
}
time<-strsplit(time,split = "-") # strsplit函数将数据拆分成列表(年月日)


time<-strsplit(time,split = ":") # strsplit函数将数据拆分成列表(年月日)
for(i in 1:length(time)) #定义语句循环次数,直至所有链接提取完成
{
  time[i]<-time[[i]][2] #提取列表中位置2的信息,填充websites1
}

for(i in 1:length(time)) #定义语句循环次数,直至所有链接提取完成
{
  time[i]<-strsplit(time[[i]],split = "-") #提取列表中位置2的信息,填充websites1
}

###########
time<-do.call(rbind,time)[,1:2]# 将列表转换为矩阵,提取第第一列和第二列(年、月)
time<-data.frame(time) #转化为数据框形式
po<-data.frame(time)#列合并数据框,格式为次数、年份、月份

3 循环抓取后续网页

po<-data.frame()
index <-seq(1,8,1)
for (i in index){# 读取网址
  url = paste("http://www.cxz.gov.cn/xxgk/xxgkzhlistpage.jsp?totalpage=8&PAGENUM=",i,"&urltype=tree.TreeTempUrl&wbtreeid=1977")
  url2<-str_replace_all(url," ","")  #合并网页去掉空格
  url <-(url2)#由于直接使用url2抓取内容为空:原因未知,故重新读取一次
  httr_web <-read_html(url,encoding ='utf-8')  #抓取网页
  #具体时间
  time<-httr_web%>%html_nodes('ul li span')%>%html_text()#抓取链接
  #具体时间

  time<-strsplit(time,split = "-") # strsplit函数将数据拆分成列表(年月日)
  time<-do.call(rbind,time)[,1:2]# 将列表转换为矩阵,提取第第一列和第二列(年、月)
  time<-data.frame(time) #转化为数据框形式
  timek<-data.frame(time)
  po<-data.frame(rbind(po,timek))
}
po1<-po
po1$X1<-as.numeric(as.character(po1$X1))
po1$X2<-as.numeric(as.character(po1$X2))
time3<-data.frame(2018,7)
names(time3)<-c("X1","X2")
po1<-data.frame(rbind(po1,time3))

4 数据存储

#将因子型转化为数值型
po1<-po
po1$X1<-as.numeric(as.character(po1$X1))
po1$X2<-as.numeric(as.character(po1$X2))


##已获得每个常务会网页的网址及命名需要数据(年份、月份,第k次),现循环存储每个网页文本内容

comments1<-as.character(comments$websites2)#将因子型转化为字符串,即网页形式
p=length(comments1)
for(k in 1:length(comments1)) #定义语句循环次数,直至所有链接提取完成
{
  ur2 <-comments1[k]
  httr_web2 <-read_html(ur2,encoding ='utf-8')  #抓取网页
  text<-httr_web2%>%html_nodes('div.xw-txt p')%>%html_text(trim =T)
  name<-paste("天津市\\","天津",po1[1:p,1][k],po1[1:p,2][k],68-k+1,".txt")#文件命名
  write.table(text, file = name, sep = "\n",
              row.names = F, 
              col.names = F)
}

ur2 <-comments1[1]
httr_web2 <-read_html(ur2,encoding ='utf-8')  #抓取网页
text<-httr_web2%>%html_nodes('div.xw-txt p')%>%html_text(trim =T)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/445679.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

enumerate函数的用法

enumerate() 函数是 Python 内置函数之一&#xff0c;用于同时返回可迭代对象的索引和对应的值。 它的语法结构如下&#xff1a; enumerate(iterable, start0) iterable: 表示一个可迭代的对象&#xff0c;如列表、元组、字符串等。start: 可选参数&#xff0c;表示索引起始…

02hadoop伪分布式搭建

3. 环境安装 3.1 安装方式 单机模式 只能启动MapReduce 伪分布式 能启动HDFS、MapReduce 和 YARN的大部分功能 完全分布式 能启动Hadoop的所有功能 3.2 安装JDK 3.2.1 JDK安装步骤 下载JDK安装包&#xff08;下载Linux系统的 .tar.gz 的安装包&#xff09; https://www…

网络协议常见问题

网络协议常见问题 OSI&#xff08;Open Systems Interconnection&#xff09;模型OSI 封装 TCP/IP协议栈IP数据报的报头TCP头格式UDP头格式TCP (3-way shake)三次握手建立连接&#xff1a;为什么三次握手才可以初始化 Socket、序列号和窗口大小并建立 TCP 连接。每次建立TCP连接…

蓝桥杯递推与递归法|斐波那契数列|数字三角形|42点问题|数的计算|数的划分(C++)

递归是用来做dfs&#xff0c;是搜索算法的基础 递推是用来做dp部分&#xff0c;及部分其他算法&#xff0c;复杂度较低&#xff0c;不会出现爆栈问题递推法&#xff1a; 递推法是一种在数学和其他领域广泛应用的重要方法&#xff0c;它在计算机科学中被用作一种关键的数值求解…

自动化运维利器Ansible基础(环境部署)

Ansible 介绍及安装 1. 介绍 Ansible 是⼀个 IT ⾃动化⼯具。它能配置系统、部署软件、编 排更复杂的 IT 任务&#xff0c;如连续部署或零停机时间滚动更新。 Ansible ⽤ Python 编写&#xff0c;尽管市⾯上已经有很多可供选择的 配置管理解决⽅案&#xff08;例如 Salt、Pupp…

OpenAI GPT LLMs 高级提示词工程方法汇总

原文地址&#xff1a;An Introduction to Prompt Engineering for OpenAI GPT LLMs Github&#xff1a;Prompt-Engineering-Intro 2023 年 3 月 2 日 提示工程指南 | Prompt Engineering Guide Naive 提示词&#xff1a;带有提示的情感分类器 prompt Decide whether a T…

复合查询【MySQL】

文章目录 复合查询测试表 单表查询多表查询子查询单行子查询多行子查询IN 关键字ALL 关键字ANY 关键字 多列子查询 合并查询 复合查询 测试表 雇员信息表中包含三张表&#xff0c;分别是员工表&#xff08;emp&#xff09;、部门表&#xff08;dept&#xff09;和工资等级表&…

GEE:基于ERA5数据集(U和V风速分量)计算风速的幅值和风向

作者:CSDN @ _养乐多_ 本文将介绍使用Google Earth Engine (GEE)平台提供的API加载ERA5月度数据集,该数据集包含了从1979年至今的全球月度气象数据。然后,定义了一个数据计算函数,用于将U和V风速分量转换为风速的幅值和风向。 结果如下图所示, 文章目录 一、核心函数1…

基于单片机的语音存储与回放系统设计

目 录 摘 要 I Abstract II 引 言 1 1 控制系统设计 3 1.1 系统方案设计 3 1.2 系统工作原理 4 1.2.1 单片机的选择 4 1.2.2 语音芯片的选择 5 2 硬件电路设计 6 2.1 时钟电路 6 2.2 复位电路 6 2.3 显示电路 7 2.4 电源电路 7 2.5 按键模块电路 8 2.6 LM386功放电路 8 2.7 总…

基于深度学习YOLOv8+Pyqt5的抽烟吸烟检测识别系统(源码+跑通说明文件)

wx供重浩&#xff1a;创享日记 对话框发送&#xff1a;39抽烟 获取完整源码源文件4000张已标注的数据集配置说明文件 可有偿59yuan一对一远程操作跑通 效果展示 基于深度学YOLOv8PyQt5的抽烟吸烟检测识别系统&#xff08;完整源码跑通说明文件&#xff09; 各文件说明 模型评价…

Seurat 中的数据可视化方法

本文[1]将使用从 2,700 PBMC 教程计算的 Seurat 对象来演示 Seurat 中的可视化技术。您可以从 SeuratData[2] 下载此数据集。 SeuratData::InstallData("pbmc3k")library(Seurat)library(SeuratData)library(ggplot2)library(patchwork)pbmc3k.final <- LoadData(…

【机器学习300问】31、不平衡数据集如何进行机器学习?

一、什么是不平衡的数据集&#xff1f; &#xff08;1&#xff09;认识不平衡数据 假如你正在管理一个果园&#xff0c;这个果园里主要有两种水果——苹果和樱桃。如果苹果树有1000棵&#xff0c;而樱桃树只有10棵&#xff0c;那么在收集果园的果实时&#xff0c;你会得到大量…

RocketMQ架构详解

文章目录 概述RocketMQ架构rocketmq的工作流程Broker 高可用集群刷盘策略 概述 RocketMQ一个纯java、分布式、队列模型的开源消息中间件&#xff0c;前身是MetaQ&#xff0c;是阿里研发的一个队列模型的消息中间件&#xff0c;后开源给apache基金会成为了apache的顶级开源项目…

全栈的自我修养 ———— css中常用的布局方法flex和grid

在项目里面有两种常用的主要布局:flex和grid布局&#xff08;b站布局&#xff09;&#xff0c;今天分享给大家这两种的常用的简单方法&#xff01; 一、flex布局1、原图2、中心对齐3、主轴末尾或者开始对其4、互相间隔 二、grid布局1、基本效果2、加间隔3、放大某一个元素 一、…

Nginx请求转发和Rewrite的URL重写及重定向的功能实现移动端和PC端前端服务转发和重定向配置。

应用场景说明一 应用系统分pc端和微信小程序&#xff0c;移动端和pc端分别申请二级子域名&#xff0c;通过Nginx域名解析匹配&#xff0c;将web访问统一转发至对应的域名请求中。部分配置如下所示&#xff1a; 1、WEB访问统一入口域名解析转发配置&#xff0c;PC端和移动端根域…

【论文整理】自动驾驶场景中Collaborative Methods多智能体协同感知文章创新点整理

Collaborative Methods F-CooperV2VNetWhen2commDiscoNetAttFusionV2X-ViTCRCNetCoBERTWhere2commDouble-MCoCa3D 这篇文章主要想整理一下&#xff0c;根据时间顺序这些文章是怎么说明自己的创新点的&#xff0c;又是怎么说明自己的文章比别的文章优越的。显然似乎很多文章只是…

数据结构与算法:链式二叉树

上一篇文章我们结束了二叉树的顺序存储&#xff0c;本届内容我们来到二叉树的链式存储&#xff01; 链式二叉树 1.链式二叉树的遍历1.1二叉树的前序&#xff0c;中序&#xff0c;后序遍历1.2 三种遍历方法代码实现 2. 获取相关个数2.1获取节点个数2.2获取叶节点个数2.3 获取树的…

前端请求到 SpringMVC 的处理流程

1. 发起请求 客户端通过 HTTP 协议向服务器发起请求。 2. 前端控制器&#xff08;DispatcherServlet&#xff09; 这个请求会先到前端控制器 DispatcherServlet&#xff0c;它是整个流程的入口点&#xff0c;负责接收请求并将其分发给相应的处理器。 3. 处理器映射&#xf…

数据库-多表查询

外连接与内连接 -- 查询部门及所属部门名称&#xff0c;隐式内连接 select tb_emp.name,tb_dept.name from tb_emp,tb_dept where tb_emp.dept_idtb_dept.id;-- 起别名 select e.name,q.name from tb_emp e,tb_dept q where e.dept_idq.id;-- 外连接 select tb_emp.name,tb_dep…

GEE图像可视化常用函数

目录 图层操作Map.addLayer&#xff08;&#xff09;Map.centerObject&#xff08;&#xff09; 直方图ui.Chart.image.histogram&#xff08;&#xff09; 趋势线ui.Chart.image.series&#xff08;&#xff09; 图层操作 Map.addLayer&#xff08;&#xff09; Map.addLaye…