R语言数据探索和分析21-中国GDP及其影响因素多元线性回归分析

一、研究背景和意义

GDP 是宏观经济中最受关注的经济统计数字,目前我国国内生产总值年均增长率均明显高于同期美、日等发达经济体和巴 西、俄罗斯、南非、印度等其他金砖国家,成为世界经济增长的主力军,GDP 的增长对一个国家有着十分重要的意义,它衡量一国在过去 的一年里所创造的劳动成果,而研究它的影响因素不仅可以很好的了解 GDP 的经济内涵,而且还有利于我们根据这些因素对 GDP 影响大小来宏观经济的有效调控。

因此本文选取1990-2020年的GDP、税收等数据,数据为东方财务网爬取而得,其中包括人口(population),固定资产投资(fixed_investments),消费(consumption_level),净出口(total_export_import_volume),税收(tax),广义M2货币,物价指数(CPI),上述变量作为解释变量X,我国GDP作为被解释变量y,使用多元回归模型对我国GDP增长的因素进行分析。

二、文献综述

戚顺欣(2017年)选取2006年到2013年八年内的沈阳市GDP数据,利用多元回归模型,从多方面入手,选择多个影响因子分析沈阳市GDP增长的主要影响因素[1]。郭崇文(2016年)选取了三个因素,使用eviews软件对GDP与这些因素建立计量模型,并进行相关的统计检验和修正,对我国的经济发展提供借鉴意义[2]。卢金凤(2015年)通过搜集2010年、2013年重庆市能源消费量及地区生产总值,对单位生产总值能耗完成"十二五"规划进行检查和分析,总结完成目标的经验,以便为我国完成降耗目标起到借鉴作用[3]。.....

三、算法原理

....

四、实证分析

数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。

进行数据清理是因为现实世界的数据一般是不完整的、有噪声的、是不一致的。数据清理流程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。数据集成是指合并来自多个数据存储的数据。数据规约指可以用来得到数据集的规约表示,它小得多,但仍接近于保持原始数据的完整性。数据变换是指将数据格式转变,如将数据变为数值型、分类型数据等等。数据预处理,一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。当然了,这四个大步骤在做数据预处理时未必都要执行,在许多情况下完成前两个步骤就可以对数据开始进行分析了。

本文选取1990-2020年的GDP、税收等数据,数据为东方财务网爬取而得,其中包括人口(population),固定资产投资(fixed_investments),消费(consumption_level),净出口(total_export_import_volume),税收(tax),广义M2货币,物价指数(CPI),上述变量作为解释变量X,我国GDP作为被解释变量y。首先进行数据展示,如图1所示。

数据和代码

代码和完整分析报告

具体描述性统计如下,其中包括了各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等,如表2所示。

install.packages("openxlsx")
library(openxlsx)
# 文件名+sheet的序号
dataset<- read.xlsx("D:/例题/影响经济增长的因素(随机森林回归)/data.xlsx", sheet = 1)
#View(dataset)
dataset

summary(dataset)#####描述性统计分析

表 1 数据整体性描述

GDP

population

Fixed_investments

Consumption_level

min

18923

min

114333

min

4517

min

825

1st Qu

81310

1st Qu

124194

1st Qu

26674

1st Qu

3033

median

185999

median

130756

median

80994

median

5671

mean

333476

mean

129859

mean

171118

mean

9489

3rd Qu

562735

3rd Qu

136324

3rd Qu

305501

3rd Qu

14845

max

1008783

max

141212

max

527270

max

29210

Import_export_volume

tax

M2

CPI

min

5560

min

2822

min

15293

min

98.6

1st Qu

26908

1st Qu

8748

1st Qu

97747

1st Qu

101.5

median

116922

median

28779

median

298756

median

102.6

mean

133990

mean

55933

mean

619342

mean

103.4

3rd Qu

243773

3rd Qu

105572

3rd Qu

1040337

3rd Qu

104.3

max

322215

max

158000

max

2186796

max

117.1

 首先画出1990-2020年GDP的走势情况:

画出特征变量的箱线图,看其分布形状

par(mfrow = c(2, 4)) #让图片以2行5列的形式排列在一张图上
boxplot(dataset$population, main = "population")
boxplot(dataset$fixed_investments, main = "fixed_investments")
boxplot(dataset$consumption_level, main = "consumption_level")
boxplot(dataset$total_export_import_volume, main = "total_export_import_volume")
boxplot(dataset$tax, main = "tax")
boxplot(dataset$M2, main = "M2")
boxplot(dataset$CPI, main = "CPI")

 由图可得,7个特征变量均分布较好且异常值很少。再用ggpairs函数展示出变量间的相关性,以及从下图中的相关系数中也可得出其相关性。

随后算出各个变量直接的相关系数,如下

GDP

人口

固定资产

消费

净出口

税收

M2

物价指数

GDP

1

0.897

0.997

0.998

0.962

0.995

0.997

-0.237

人口

0.897

1

0.886

0.891

0.941

0.902

0.873

-0.382

固定资产

0.997

0.886

1

0.993

0.955

0.996

0.995

-0.234

消费

0.998

0.891

0.993

1

0.947

0.987

0.999

-0.243

净出口

0.962

0.941

0.955

0.947

1

0.972

0.941

-0.267

税收

0.995

0.902

0.996

0.987

0.972

1

0.987

-0.239

M2

0.997

0.873

0.995

0.999

0.941

0.987

1

-0.235

物价指数

-0.237

-0.382

-0.234

-0.243

-0.237

-0.239

-0.235

1

 接下来用GDP对最初的特征变量进行回归,结果如下:

通过观察发现,回归方程的系数的个别因子的p值过大了,导致有些系数没有通过显著性检验。所以接下来需要优化模型即通过t检验来进行逐步回归。

运用向后逐步回归,每次计算AIC值不断剔除一个变量,利用其余变量进行回归;接着剔除再剔除变量直到不能剔除为止,最后能达到更好的回归效果。最终对剔除结果再次进行回归可得,如下:

##逐步回归
fit1 <- step(fit,direction = "backward") 
summary(fit1)
fit2 <- lm(GDP~population+consumption_level+total_export_import_volume +tax ,data=dataset)
summary(fit2)
fit2_step <- step(fit2)
summary(fit2_step)

依次剔除了变量fixed_investments,M2,CPI。回归系数的显著性水平有所提高。此时。并且p值均较小,说明回归系数显著。向后删除的逐步回归过程结束后,最终只剩下4个自变量。这6个自变量已经足以用来解释该方程了。....

最终模型为:

接下来进行模型检验

#异方差检验
library(foreign)
library(zoo)
lmtest::bptest(fit2_step)

表 3 异方差检验结果

Stufentsized Breusch-Pagan test

Data: fit2_step

BP= 2.8563,  df=4 , p_value=0.5822

由于p值>0.1可认为该模型不存在异方差性。

 

###自相关检验 DW
library(lmtest)
dwtest(fit2_step)
#因为dw>0.05所以不拒绝原假设,即认为是不相关的

表 4 自相关检验

Durbin-watson test

Data: fit2_step

DW= 0.98122,  p_value=0.00002874

Alternative hyphothesis: true autocorrelation is greater than 0

DW检验的原假设为:误差不相关!

因为dw>0.05所以不拒绝原假设,即认为误差是不相关的。

五、结论与建议

本文对1990—2020年间GDP和各个行业增加值的数据 进行描述性分析和多元线性分析,根据数据可以给出以下建议:在回归模型下,基于逐步回归合理删除变量之后,本文得到对GDP均有影响的4个变量的t检验都非常的显著,它们是对GDP均有影响的4个变量。分别是人口、消费、净出口额、税收。故若希望GDP能稳定持续增长,则需要注重在这几个变量上.....

参考文献

  1. 戚顺欣,傅格格,张馨予.基于多元回归模型沈阳市GDP影响因素分析[J].商场现代化,2017(09):170-171.DOI:10.14013/j.cnki.scxdh.2017.09.096.
  2. 郭崇文.我国GDP的影响因素分析[J].商,2016(16):204.
  3. 卢金凤,彭莉莎.重庆市单位GDP能耗影响因素分析[J].合作经济与科技,2015(23):13-14.DOI:10.13665/j.cnki.hzjjykj.2015.23.005.

创作不易,希望大家多点赞关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/683742.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

TSINGSEE青犀视频:城市道路积水智能监管,智慧城市的守护者

随着城市化进程的加快&#xff0c;城市道路网络日益复杂&#xff0c;尤其在夏季&#xff0c;由于暴雨频发&#xff0c;道路积水问题成为影响城市交通和市民生活的重要因素之一。传统的道路积水监测方式往往依赖于人工巡逻和简单的监控设备&#xff0c;这些方法存在效率低下、响…

软信天成:告别数据脏乱差!企业数据清洗实战方案分享

低质量数据普遍存在。据统计&#xff0c;数据质量问题每年给企业造成高达3.1万亿美元的损失。为了防范这种损失&#xff0c;越来越多的企业采用数据清洗来清洗数据&#xff0c;提高数据质量。 数据清洗&#xff0c;顾名思义是将数据上“脏”的部分清洗掉&#xff0c;让数据变得…

读《淘宝技术这10年》:从进化中感受技术的美与挑战

本文作者:小米,一个热爱技术分享的29岁程序员。如果你喜欢我的文章,欢迎关注我的微信公众号“软件求生”,获取更多技术干货! 大家好,我是小米,一个29岁的程序员,喜欢分享技术干货。今天,我想和大家聊一聊我最近读的一本书——《淘宝技术这10年》。这本书让我深刻领悟…

JetBrains PhpStorm 激活码限时特惠 7.1 折快抢!

各位程序员&#xff0c;每天敲代码真的需要一款好用的 IDE&#xff0c;大名鼎鼎的 JetBrains 值得信赖&#xff01;PHP 开发看过来&#xff0c;PhpStorm 个人版首年订阅 618 限时特惠 7.1 折&#xff0c;有需要的朋友一定不要错过&#xff01; PhpStorm 汇集了众多效率功能和集…

【微信小程序】网络请求

出于安全性方面的考虑&#xff0c;小程序官方对数据接口的请求做出了如下两个限制&#xff1a; 只能请求HTTPS类型的接口必须将接口的域名添加到信任列表中 登录微信小程序管理后台->开发->开发设置->服务器域名->修改request合法域名。 注意事项&#xff1a; 域…

视频汇聚EasyCVR安防监控系统GA/T 1400协议视图库对接:技术实现与应用

随着信息技术的不断发展&#xff0c;各类协议标准在各个领域得到了广泛应用。GA/T1400协议作为公安视频监控系统中的一种重要标准&#xff0c;对于提升公安工作的信息化水平、加强社会治安防控具有重要意义。本文将重点探讨GA/T1400协议视图库对接的技术实现及应用价值。 一、…

领菲linfeeLNF96E多功能电力仪表智能数码液晶显示三相电压电流表

品牌 LINFEE 型号 LNF96E 货号 LNF96E 产地 中国大陆 省份 江苏省 地市 无锡市 装修及施工内容 安装工程 电源电路 交流电表 电表类型 多功能电度表 颜色分类 LNF96E-C,LNF96E-CM,LNF96E-CJ,LNF96E-CK,LNF96E-CJK,LNF96E-CMJK 多功能电力仪表,LNF96E三相多…

c语言练习:POJ 1003 宿醉(HangOver)

为什么写这篇文章 作为一名计算机相关方向的学生&#xff0c;本人的代码能力却十分差劲&#xff0c;这不能不让人万分羞愧。于是&#xff0c;决定从此好好学代码&#xff0c;每天坚持刷题。而C语言是计算机程序语言的基础&#xff0c;遂决定从c语言开始&#xff0c;提高自身编…

Nvidia/算能 +FPGA+AI大算力边缘计算盒子:中国舰船研究院

中国舰船研究院又称中国船舶重工集团公司第七研究院&#xff0c;隶属于中国船舶重工集团公司&#xff0c;是专门从事舰船研究、设计、开发的科学技术研究机构&#xff0c;是中国船舶重工集团公司的军品技术研究中心、科技开发中心&#xff1b;主要从事舰船武器装备发展战略研究…

图神经网络实战(12)——图同构网络(Graph Isomorphism Network, GIN)

图神经网络实战&#xff08;12&#xff09;——图同构网络 0. 前言1. 图同构网络原理2. 构建 GIN 模型执行图分类2.1 图分类任务2.2 PROTEINS 数据集分析2.3 构建 GIN 实现图分类2.4 GCN 与 GIN 性能差异分析 3. 提升模型性能小结系列链接 0. 前言 Weisfeiler-Leman (WL) 测试…

解决vscode终端不显示conda环境变量名称问题【详细步骤!实测可行!!】

最近在使用Visual Studio Code (VSCode) 时候&#xff0c;发现终端没有正确显示激活的conda环境名称&#xff0c;搜了一下&#xff0c;找到原因&#xff0c;记录一下&#xff0c;如果有人也遇到同样的问题&#xff0c;可以收藏一下。   分别两种情况&#xff0c;一是windows系…

GaussDB技术解读——GaussDB架构介绍(一)

目录 1 GaussDB 关键架构目标 2 GaussDB分布式架构 2.1 GaussDB 分布式关键技术架构 3 数据计算路由层&#xff08;Coordinator&#xff09;关键技术方案 3.1 分布式优化器 3.2 分布式执行框架 GaussDB是华为自主创新研发的关系型数据库&#xff0c;基于华为在数据库领域…

Python编程学习第一篇——制作一个小游戏休闲一下

到上期结束&#xff0c;我们已经学习了Python语言的基本数据结构&#xff0c;除了数值型没有介绍&#xff0c;数值型用的非常广&#xff0c;但也是最容易理解的&#xff0c;将在未来的学习中带大家直接接触和学习掌握。后续我们会开始学习这门语言的一些基础语法和编程技巧&…

C++候捷stl-视频笔记4

一个万用的hash function 哈希函数的形式&#xff0c;一种是一般函数(右边)&#xff0c;一种是成员函数(左边)&#xff0c;类的对象将成为函数对象 具体做法例子。直接把属性的所有hash值加起来&#xff0c;会在hashtable中会产生很多的碰撞&#xff0c;放在同一个bucket中的元…

嵌入式学习记录6.5(内存分配/构造函数/析构函数)

目录 目录 一.c动态内存分配回收 1.1分配 1.2回收 1.3new、delete和malloc、free之间的区别(重点&#xff09; 二.构造函数 2.1功能,格式 2.2示例 三.析构函数 3.1功能&#xff0c;格式 3.2特点 3.3示例 四.思维导图/练习 4.1思维导图 4.2练习 一.c动态内存分配回…

BGP基础配置

BGP 邻居关系建立&#xff0c;与路由条目宣告是分开的配置的 1)直连的 EBGP 邻居关系建立 [r1]bgp1 启动 BGP 协议&#xff0c;启动时需要键入 AS号&#xff1b;没有多进程概念 [r1-bgp]router-id 1.1.1.1 建议配置 RID;若不配置将自动生成一规则同 OSPF 相同 [r1-bgp]pe…

【机器学习基础】Python编程03:五个实用练习题的解析与总结

Python是一种广泛使用的高级编程语言,它在机器学习领域中的重要性主要体现在以下几个方面: 简洁易学:Python语法简洁清晰,易于学习,使得初学者能够快速上手机器学习项目。 丰富的库支持:Python拥有大量的机器学习库,如scikit-learn、TensorFlow、Keras和PyTorch等,这些…

【Python报错】SyntaxError: invalid character in identifier

成功解决“SyntaxError: invalid character in identifier”错误的全面指南 一、引言 在Python编程中&#xff0c;SyntaxError是一种常见的编程错误&#xff0c;它表明Python解释器在解析代码时遇到了不符合语法规则的情况。其中&#xff0c;“SyntaxError: invalid character…

Docker之路(三)docker安装nginx实现对springboot项目的负载均衡

Docker之路&#xff08;三&#xff09;dockernginxspringboot负载均衡 前言&#xff1a;一、安装docker二、安装nginx三、准备好我们的springboot项目四、将springboot项目分别build成docker镜像五、配置nginx并且启动六、nginx的负载均衡策略七、nginx的常用属性八、总结 前言…

第二证券:A股重磅调整!富时中国A50指数将纳入中远海控中国中车

重要的音讯有哪些 A股&#xff0c;重磅调整&#xff01; 6月5日&#xff0c;富时罗素宣布对富时我国50指数、富时我国A50指数、富时我国A150指数、富时我国A200指数、富时我国A400指数的季度审阅变更。该变更将于2024年6月21日星期五收盘后&#xff08;即2024年6月24日星期一…