平均工资数据分析之回归

链接: R语言实战——中国职工平均工资的变化分析——相关与回归分析

1、模型诊断和评估的方法

1. 残差分析

1、残差图 (Residual Plot):用于检查残差是否存在非随机模式。理想情况下,残差应随机分布在零附近
2、Q-Q 图 (Quantile-Quantile Plot):用于检查残差是否符合正态分布。如果残差接近正态分布,Q-Q 图上的点应接近一条直线
3、Shapiro-Wilk Test:用于检验残差的正态性。p 值大于 0.05 表示残差近似正态分布。

2. 多重共线性检测

方差膨胀因子 (VIF, Variance Inflation Factor):用于检测多重共线性。如果 VIF 值大于 10,说明存在严重的多重共线性问题。

3. 模型拟合优度

R² 和调整后的 R²:衡量模型解释变异的能力。调整后的 R² 考虑了自变量个数,对模型复杂度进行了惩罚。
AIC (Akaike 信息准则) 和 BIC (贝叶斯信息准则):用于模型比较,较低的 AIC 或 BIC 表示模型更好。

4. 异常值和影响点

标准化残差 (Standardized Residuals):用于识别异常值。绝对值大于 2 或 3 的残差可能是异常值。
Cook’s 距离 (Cook’s Distance):用于识别对模型有显著影响的数据点。Cook’s 距离大于 1 的点可能是影响点。

5. 异方差性检验

Breusch-Pagan Test:用于检测异方差性。如果 p 值小于 0.05,说明存在异方差性问题。
White Test:另一种异方差性检测方法。

6. 自相关性检验

Durbin-Watson Test:用于检测残差的自相关性。值接近 2 表示不存在自相关性,值接近 0 或 4 表示存在自相关性。

7. 预测性能评估

交叉验证 (Cross-Validation):将数据集分成训练集和测试集,评估模型在未见过的数据上的表现。
均方误差 (MSE, Mean Squared Error) 和 均方根误差 (RMSE, Root Mean Squared Error):用于衡量模型的预测误差。

2、指数回归(对数模型)——地区

由于指数模型的值会过于大,会出现以下警告

: RuntimeWarning: overflow encountered in exppredicted_values_exp = np.exp(predicted_values)

这个警告通常是由于指数函数中的值过大而引起的。当预测值非常大时,应用指数函数可能会导致数值溢出(overflow)

因此:使用对数函数:如果数据呈现指数型增长,可以考虑使用对数函数进行拟合和预测。这样可以将指数型增长的问题转化为线性回归问题

(1)构建对数模型并可视化

在这里插入图片描述
在这里插入图片描述

(2)模型诊断的评估

在这里插入图片描述

  1. Omnibus(Omnibus test of normality):
    这个统计量是对模型中误差项的正态性进行综合检验的统计量。正态性是线性回归模型的一个重要假设,即模型的残差应该近似服从正态分布。Omnibus统计量的p值提供了一个关于模型中误差项是否服从正态分布的检验结果。如果p值低于某个显著性水平(通常是0.05),则拒绝了误差项服从正态分布的假设。p值应该越大越好,因为大的p值表示误差项符合正态分布的假设越合理。
  2. Skewness(Skewness of residuals):
    偏度是衡量数据分布偏斜程度的统计量。在线性回归模型中,残差的偏度可以用来检验误差项是否符合正态分布。如果残差的偏度接近于0,则表示数据分布大致对称。如果偏度值大于0,则表示数据分布右偏,即正偏。如果偏度值小于0,则表示数据分布左偏,即负偏。通常认为,偏度的绝对值大于2时,数据分布具有显著的偏斜。偏度应该接近于0,因为接近于0表示数据分布大致对称,符合正态分布的特征。
  3. Kurtosis(Kurtosis of residuals):
    峰度是衡量数据分布峰态(峰的陡峭程度)的统计量。在线性回归模型中,残差的峰度可以用来检验误差项是否符合正态分布。如果残差的峰度接近于0,则表示数据分布具有正常的峰态。如果峰度值大于0,则表示数据分布具有尖峰,即峰态较高。如果峰度值小于0,则表示数据分布扁平,即峰态较低。与偏度类似,通常认为,峰度的绝对值大于2时,数据分布具有显著的峰态。峰度应该接近于0,因为接近于0表示数据分布的峰态与正态分布相似,没有明显的尖峰或扁平。
  4. Durbin-Watson statistic:
    杜宾-沃森统计量是用来检验残差是否存在自相关(序列相关)的统计量。自相关是指残差之间的相关性,如果残差之间存在自相关,意味着模型中的一些信息没有被完全捕捉到,可能导致模型的估计结果不准确。Durbin-Watson统计量的取值范围为0到4之间,如果接近于2,则表示残差之间不存在自相关;如果接近于0或4,则表示存在正向或负向自相关。通常认为,当Durbin-Watson统计量的值在1.5到2.5之间时,不存在严重的自相关问题。值接近于2,因为接近于2表示残差之间不存在自相关,即模型中没有未被捕捉到的序列相关性。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

3、多项式回归及检验——地区

(1)构建模型并可视化

在这里插入图片描述

(2)模型诊断评估

在这里插入图片描述
在这里插入图片描述

  1. Shapiro-Wilk Test
    W 值:Shapiro-Wilk Test 的统计量。这个值接近于1时,表示样本数据与正态分布相符。
    p 值:Shapiro-Wilk Test 的显著性水平。如果 p 值小于某个阈值(通常为 0.05),我们拒绝原假设,认为数据不服从正态分布。反之,如果 p 值大于 0.05,我们不能拒绝原假设,认为数据服从正态分布。
    作用和意义
    Shapiro-Wilk Test 的主要作用是检验数据正态性,这在统计分析中非常重要,因为许多统计方法(如 t 检验、回归分析)假设数据是正态分布的。如果数据不符合正态分布,这些方法的结果可能不可靠。
    残差正态性:在回归分析中,残差应该近似正态分布。这是因为正态分布的残差意味着模型的假设是合理的,且估计的系数和预测是可靠的。
    模型诊断:如果残差不符合正态分布,可能表明模型不适合数据,或者数据中存在异常值、异方差性等问题。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

4、多元线性回归(增加变量gdp、人口增长率)

在这里插入图片描述

5、预测

(1)指数预测

在这里插入图片描述

(2)多项式预测

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/631039.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

redis-stack部署概要

第一步,下载redis-stack 下载链接:Downloads - Redis 第二步,redis安装包解压缩 gzip -d redis-stack-server-7.2.0-v10.rhel8.x86_64.tar.gz tar -xvf redis-stack-server-7.2.0-v10.rhel8.x86_64.tar 第三步,编辑etc下的redis…

高性能日志库go-logger2.0.4—支持slog日志文件切割

go-logger v2.0.4 发布 该版本主要支持go原生日志库 log/slog 的日志文件切割,压缩等功能。 log/slog 库是 Go 语言用于结构化日志记录的一个强大工具,它旨在提升日志的管理和分析能力,同时保证代码的简洁性和执行效率。随着 Go 语言生态的…

简单聊聊分布式和集群

前言 分布式和集群,我们都听的比较多,分布式系统和集群的概念对于刚进入职场的小伙伴可能不是很清楚,这篇文章我们就一起看看两者到底是什么,有什么区别。 什么是分布式系统? 先看下书面解释: 分布式系统…

学习笔记-C++

目录 1、何为常量 2、关键字 3、实型 4、水平制表符 5、string字符串 6、C中的三目运算符 7、随机数种子 8、结构体 9、各的区 10、引用 11、函数默认参数 12、函数占位参数 13、函数重载 14、私有属性 15、让另一个类作为本类的成员 16、声明和实现的文件…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-15.7讲 GPIO中断实验-编写按键中断驱动

前言: 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM(MX6U)裸机篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

初识Django

day15 初识Django Python知识点:函数、面向对象。前端开发:HTML、CSS、JavaScript、jQuery、BootStrap。MySQL数据库。 Python的Web框架: Flask,自身短小精悍 第三方组件。Django,内部已集成了很多组件 第三方组件。…

GM812条码模块的产品说明

1 模块尺寸 引脚定义 (单位:mm) 接口定义:规格 1.25*6Pin 接口说明: a) UART 缺省波特率为 9600bps,数据格式:8 位数据位,1 位停止位,无校验位。 b) 如果上位机是 MCU(3.3V&#x…

Java面试八股之Java中有哪些原子类,原理是什么

Java中有哪些原子类,原理是什么 AtomicInteger 和 AtomicLong: 用于对整数(int)和长整数(long)进行原子操作。 原理:它们内部封装了一个整型或长整型变量,并通过使用Unsafe类提供…

括号生成[中等]

优质博文:IT-BLOG-CN 一、题目 数字n代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。 示例 1: 输入:n 3 输出:["((()))","(()())","(())(…

项目管理-案例重点知识(干系人管理)

项目管理:每天进步一点点~ 活到老,学到老 ヾ(◍∇◍)ノ゙ 何时学习都不晚,加油 四、干系人管理 案例重点知识 干系人管理 案例 重点内容: (1)权力利益方格、权力影响方格&#xff…

GPT-4o“成精了”:推测技术原理,附送“美国湾区”小道消息

原创:谭婧 如果你能跟上技术发展,那大多数技术提升都是按部就班, 偶而会有突破性进展。 如果你仅仅吃瓜,那OpenAI的所有新闻, 你都可以写成: “改写历史”“干翻所有”“颠覆世界”。 真的颠覆世界了吗&…

ue引擎游戏开发笔记(41)——行为树的建立(2)--丰富ai行为:巡逻后返回原处

1.需求分析: 就敌人ai而言,追踪到敌人有可能丢失目标,丢失目标后应该能返回原来位置,实现这一功能。 2.操作实现: 1.思路:利用clear value函数,禁用掉当前的追踪功能,执行之后的返…

Git项目管理——提交项目和版本回退(二)

个人名片: 🎓作者简介:嵌入式领域优质创作者🌐个人主页:妄北y 📞个人QQ:2061314755 💌个人邮箱:[mailto:2061314755qq.com] 📱个人微信:Vir2025WB…

SSL证书对于网络安全的重要作用

SSL证书是一种数字证书,它通过加密技术确保了客户端(如浏览器)与服务器之间的数据传输安全。当一个网站安装了SSL证书后,用户在浏览器地址栏中可以观察到HTTPS(超文本传输安全协议)前缀和挂锁图标&#xff…

聚鼎科技:装饰画行业到底怎么样

在当代社会,随着人们审美水平的提升和生活品质的追求,装饰画行业呈现出蓬勃的发展态势。这一行业不仅关系到文化艺术的传承与创新,也与市场经济紧密相连,其前景值得深入探讨。 装饰画行业的市场潜力巨大,它贯穿于家居装…

Git使用(4):分支管理

一、新建分支 首先选择Git -> Branches... 然后选择 New Branch,输入新分支名称,例如dev。 可以看到右下角显示已经切换到新建的dev分支了。 push到远程仓库,可以看到新添加的分支。 二、切换分支与合并分支 为了演示合并分支&#xff0c…

【opencv】答题卡判分实验

实验环境: anaconda、jupyter notebook 实验用的包:numpy、matplotlib、opencv 实验的目的还是以熟悉图像的透视变换、轮廓特征提取为主要目的 关于如何判断答题卡被选项:通过几个覆盖备选项的掩膜与原二值图像想与,最终整个图像…

Python100个库分享第23个—wordcloud(词云图)

目录 专栏导读库的介绍库的安装基础使用1:将TXT文本转为词云图基础使用2:使用自定义字体和形状基础使用3:中文词云图停用词(中英文版)-代码是中文版总结 专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题&#xff0…

JavaWeb--18 tlias-web-management 登录认证

登录认证 1 登录功能功能开发 2 登录校验2.1 问题分析2.2 会话技术CookieSession令牌技术 2.3 JWT令牌介绍生成和校验登录下发令牌 2.4 过滤器Filter拦截路径过滤器链 登录校验-Filter 2.5 拦截器InterceptorInterceptor详解执行流程 登录校验- Interceptor 3 异常处理3.1 当前…

文本分类TextRCNN模型(pytorch实现)

文本分类TextRCNN模型 RCNN简介TextRCNN模型介绍TextRCNN代码(文本10分类) RCNN简介 从之前的文章中介绍过RNN的优点是能够捕捉到序列的时序信息,这可能有利于捕获长文本的语义。但是RNN对于文本序列后面的单词获取到的语义会更多&#xff0…