【小白学机器学习9】自己纯手动计算验证,EXCEL的一元线性回归的各种参数值

目录

0 目标

1 构造模型 

1.1 构造模型的思路

1.2 具体模型构造的EXCEL公式和过程

2 直接用EXCEL画图,然后生成趋势线的方式进行回归分析

2.1 先选择“观测值Y”的数据,用散点图或者折线图作图

2.2  然后添加趋势线和设置趋势线格式

2.3  生成趋势线

3 使用EXCEL的 数据/数据分析/回归功能

3.1 功能入口:数据/数据分析/回归功能

3.2 进行回归时,需要注意2个点

3.3 回归分析的结果

4 逐个手动重算“回归统计”里的几个指标

4.1 相关系数

4.1.1 公式

4.1.2  以下是详细计算过程

4.2  先求 SSE SSR SST 以及OLS,再求R2

 4.3 决定系数R**2

4.3.1 公式

4.3.2  R2具体计算

4.4 调整后的R2

4.5 标准误差  SEE

4.6 观测值

5  逐个手动重算“方差分析”里的几个指标

5.1 自由度 DF

5.2 关于SS离差的3个类型 SSR, SSE ,SST

5.3  均方MS

5.3.1 定义

5.3.2  公式

6 RESIDUAL OUTPUT

6.1 残差= y=y^= 观测值-预测值

7 多个模拟直线比较

8 未完成的部分 F检验的显著度 和 T检验的P值 (需要学习F检验,T检验的知识!)

9 未解决的问题

10 python 模拟实操,缺!


0 目标

  • 目标:用EXCEL做一元线性回归的各种参数,手动计算验证EXCEL计算的各个参数的值,自己重新算一遍,了解具体的公式计算过程。
  • 为什么要这么做
    • 看了这么多讲指标运算公式的,大多数都是推导。但很少见到有自己手动,完全验证一遍这些指标计算公式实操的,我自己试试。
  • 目的2个:
    • 还能验证自己整理的公式的对错。
    • 可以加深对公式的理解

1 构造模型 

1.1 构造模型的思路

  • 正常思路:(先有我们大脑里的理想值,也就是假设)→先有观测值 →再回归模型→预测值
  • 我的构造思路: 先作假一个理想数据(公式生成)→生造观测值(加rand扰动)→再回归模型→预测值
  • 为什么要这么搞?
  • 这样我自己相当于,先掌握了理想数据=“正确答案”,然后可以比较到底什么样的模拟更接近我这个预设的正确答案。

1.2 具体模型构造的EXCEL公式和过程

  • 理想数据
    • X:1,2 ...15
    • Y: Y=2x+3
  • 观测值
    • y=y~real+RANDBETWEEN(-3,3)

2 直接用EXCEL画图,然后生成趋势线的方式进行回归分析

见下图

2.1 先选择“观测值Y”的数据,用散点图或者折线图作图

作图格式

  • 可以选择连线的散点图,或者折线图

2.2  然后添加趋势线和设置趋势线格式

  • 因为做的是一元线性回归,这里记得选择直线

 

2.3  生成趋势线

生成一个一元函数的趋势线: 直线

  • 其中 y=ax+b,具体为y=2.33306x
  • a=2.33306
  • b=0
  • R**2=0.9749

3 使用EXCEL的 数据/数据分析/回归功能

  • 基本内容如下

3.1 功能入口:数据/数据分析/回归功能

3.2 进行回归时,需要注意2个点

  • 1 注意回归面板上,Y值在上面,X值在下面。容易选错
  • 2 下面哪些勾选项,做简单回归分析可以不勾
  • 3 详细的回归可以都勾选

 

3.3 回归分析的结果

4 逐个手动重算“回归统计”里的几个指标

4.1 相关系数

4.1.1 公式

4.1.2  以下是详细计算过程

  • 手动计算的和回归分析的R相等
  • 求和不要犯低级错误 Σ(x-ave(x))*(y-ave(y)) !=Σ(x-ave(x))*Σ(y-ave(y))
  • R=Σ((x-ave(x))*(y-ave(y))) /SQRT(Σ(x-ave(x))^2*Σ(y-ave(y))^2)

4.2  先求 SSE SSR SST 以及OLS,再求R2

  • SSE: 残差平方和, Σ(y-y^'')^2  
  • SSR:回归平方和 ,Σ(y^''-ave(y))^2  
  • SST:离差平方和,总体平方和, Σ(y-ave(y))^2
  • OLS最小二乘法的=SS=SSE=残差平方和

 4.3 决定系数R**2

4.3.1 公式

4.3.2  R2具体计算

4.4 调整后的R2

  • 修正的R2确实不适合一元线性回归
  • K=变量个数
  • 只有1个变量是,修正的R2会变小
  • 修正的R2看起来确实只适合多元线性回归

4.5 标准误差  SEE

  • 标准误差SEE
  • SEE = sqrt(Σ(y - y^'')^² / (n - k - 1))    
  • SEE = sqrt(SSE / (n - k - 1))
  • 并不是 /n

4.6 观测值

观测值=样本数量=15,没什么好说的。

5  逐个手动重算“方差分析”里的几个指标

  • df:degree of freedom  自由度
  • ss:离均差平方和
  • ms :均方

5.1 自由度 DF

详细内容看上次的关于自由度的文章

【小白学机器学习8】统计里的自由度DF=degree of freedom, 以及关于df=n-k, df=n-k-1, df=n-1 等自由度公式-CSDN博客文章浏览阅读698次,点赞13次,收藏12次。自由度通常用于抽样分布中。统计学中:在统计模型中,自由度指样本中可以自由变动的独立不相关的变量的个数,当有约束条件时,自由度减少。样本中独立或能自由变化的数据的个数,称为该统计量的自由度。自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。https://blog.csdn.net/xuemanqianshan/article/details/136643151?spm=1001.2014.3001.5502

  • 回归分析的df,y=a+bx,因为只有1个自变量,所以df=1
  • 残差SSE的df
    • 这里面需要确定a 和b两个参数,其中a是截距,而b 是x的参数。
    •  因为自由度=n-k, 而SSE=Σ(y-y^'')^2 = Σ(y-(a+bx))^2  ,所以df=n-k=n-2=15-2=13
    • 或者用多元线性回归的公式 df=n-k-1=15-1-1=13
  • 总计的df=方程的df+样本的df=1+13=14

5.2 关于SS离差的3个类型 SSR, SSE ,SST

见上面的分析

5.3  均方MS

5.3.1 定义


MS是均方
方差分析中的MS是均方(离差平方和除以自由度)
在这里具体是 均方误差

5.3.2  公式

  • Mean Square Error 均方误差
  • MSE = Σ(y - ŷ)²/n    这里n是自由度
  • MSE =  Σ(y - ŷ)²/df

6 RESIDUAL OUTPUT

6.1 残差= y=y^= 观测值-预测值

7 多个模拟直线比较

  • 暂时看略有差别,差别不大

8 未完成的部分 F检验的显著度 和 T检验的P值 (需要学习F检验,T检验的知识!)

  • Significance F:越小说明拟合越好
  • T检验的P-value:越小说明拟合越好

9 未解决的问题

比如一元线性回归模型中,关于y=ax+b,这里面a  和 b 的标准误差是怎么求出来的?

网上也有人提出了这样的问题,暂时我没看明白,留着

一元回归结果当中,斜率的标准误差是怎么计算出来的? - 知乎回归系数不是一个确定的值,相反它是一个随机变量,也就是说你不同样本回归得到的回归系数是不一样的,举…icon-default.png?t=N7T8https://www.zhihu.com/question/297956772/answer/1032593129?utm_id=0

一元回归结果当中,斜率的标准误差是怎么计算出来的? - 知乎深夜吃西瓜碰到回答一下!!首先,记住因为误差项的存在,所以参数的方差才不等于0,只要理解了回归的含…icon-default.png?t=N7T8https://www.zhihu.com/question/297956772/answer/1302721483

其他

RM

回归模型(regression model)对统计关系进行定量描述的一种数学模型。如多元线性回归的数学模型可以表示为y=β0+β1*x+εi,式中,β0,β1,…,βp是p+1个待估计的参数,εi是相互独立且服从同一正态分布N(0,σ2)的随机变量,y是随机变量;x可以是随机变量,也可以是非随机变量,βi称为回归系数,表征自变量对因变量影响的程度。

OLS,是 普通最小二乘回归模型

ols 全称ordinary least squares,是回归分析(regression analysis)最根本的一个形式

10 python 模拟实操,缺!


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/457965.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

服务器Debian 12.x中安装Jupyer并配置远程访问

服务器系统:Debian 12.x;IP地址:10.100.2.138 客户端:Windows 10;IP地址:10.100.2.38 利用ssh登录服务器: 1.安装python3 #apt install python3 2.安装pip #apt install python3-pip … 3.安装virtualen…

HBase分布式数据库的原理和架构

一、HBase简介 HBase是是一个高性能、高可靠性、面向列的分布式数据库,它是为了在廉价的硬件集群上存储大规模数据而设计的。HBase利用Hadoop HDFS作为其文件存储系统,且Hbase是基于Zookeeper的。 二、HBase架构 *图片引用 Hbase采用Master/Slave架构…

PTA-练习1

目录 实验2-3-8 计算火车运行时间 实验2-4-4 求简单交错序列前N项和 实验2-4-5 输出华氏-摄氏温度转换表 实验3-4 统计字符[2] 实验3-5 查询水果价格 实验3-11 求一元二次方程的根 实验4-1-1 统计数字字符和空格 实验2-3-8 计算火车运行时间 时钟数有两种情况&#xff1…

使用BBDown下载bilibili视频的方法

一款命令行式哔哩哔哩下载器. Bilibili Downloader. 下载地址 https://github.com/nilaoda/BBDown 功能 番剧下载(Web|TV|App) 课程下载(Web) 普通内容下载(Web|TV|App) 合集/列表/收藏夹/个人空间解析 多分P自动下载 选择指定分P进行下载 选择指定清晰度进行下载 下载外挂字幕…

解决驱动开发中<stdlib.h> no such file 的问题

前言 在进行驱动开发时&#xff0c;需要使用malloc等函数&#xff0c;导入C库<stdlib.h>出现bug。 嵌入式驱动学习专栏将详细记录博主学习驱动的详细过程&#xff0c;未来预计四个月将高强度更新本专栏&#xff0c;喜欢的可以关注本博主并订阅本专栏&#xff0c;一起讨论…

java并发编程之 volatile关键字

1、简单介绍一下JMM Java 内存模型&#xff08;Java Memory Model 简称JMM&#xff09;是一种抽象的概念&#xff0c;并不真实存在&#xff0c;指一组规则或规范&#xff0c;通过这组规范定义了程序中各个变量的访问方式。java内存模型(JMM)屏蔽掉各种硬件和操作系统的内存访问…

OpenvSwitch VXLAN 隧道实验

OpenvSwitch VXLAN 隧道实验 最近在了解 openstack 网络&#xff0c;下面基于ubuntu虚拟机安装OpenvSwitch&#xff0c;测试vxlan的基本配置。 节点信息&#xff1a; 主机名IP地址OS网卡node1192.168.95.11Ubuntu 22.04ens33node2192.168.95.12Ubuntu 22.04ens33 网卡信息&…

XUbuntu22.04之关闭todesk开机自启动(二百二十一)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

Python数据分析-4

1.对于一组电影数据&#xff0c;呈现出rating,runtime的分布情况&#xff1a; #encodingutf-8 import pandas as pd import numpy as np from matplotlib import pyplot as plt file_path "./youtube_video_data/IMDB-Movie-Data.csv" df pd.read_csv(file_path) …

React低代码平台实战:构建高效、灵活的应用新范式

文章目录 每日一句正能量前言一、React与低代码平台的结合优势二、基于React的低代码平台开发挑战三、基于React的低代码平台开发实践后记好书推荐编辑推荐内容简介作者简介目录前言为什么要写这本书 读者对象如何阅读本书 赠书活动 每日一句正能量 人生之美&#xff0c;不在争…

C# 根据两点名称,寻找两短路程的最优解,【有数据库设计,完整代码】

前言 如果我们遇到路径问题&#xff0c;可以使用点点连线&#xff0c;给定一个点&#xff0c;可以到达另外几个点&#xff0c;寻找最优解 例&#xff1a;如下图所示&#xff0c;如果要从A1-C1,可以有三条路 1.A1-B1-C1 2.A1-B2-C1 3.A1-B3-C1 最优解肯定是A1-B1-C1&#xff0c…

15. jwt认证中间件

在上一篇登录功能的实现中&#xff0c;我们使用了jwt作为鉴权组件&#xff0c;其中登录后会颁发token。前端在访问后续请求时&#xff0c;可以带上这个token。对于一些需要权限校验的请求&#xff0c;我们就需要验证这个token&#xff0c;从token中获取到用户id&#xff08;有了…

Unity Timeline学习笔记(1) - 创建TL和添加动画片段

Timeline在刚出的时候学习了一下&#xff0c;但是因为一些原因一直都没用在工作中使用。 版本也迭代了很久不用都不会用了&#xff0c;抽时间回顾和复习一下&#xff0c;做一个笔记后面可以翻出来看。 创建Timeline 首先我们创建一个场景&#xff0c;放入一个Plane地板&#…

【机器学习智能硬件开发全解】(四)—— 政安晨:嵌入式系统基本素养【后摩尔时代】

随着物联网、大数据、人工智能时代的到来&#xff0c;海量的数据分析、大量复杂的运算对CPU的算力要求越来越高。 CPU内部的大部分资源用于缓存和逻辑控制&#xff0c;适合运行具有分支跳转、逻辑复杂、数据结构不规则、递归等特点的串行程序。 在集成电路工艺制程将要达到极…

PgSQL技术内幕 - 优化器如何估算行数

PgSQL技术内幕 - 优化器如何估算行数 PgSQL优化器根据统计信息估算执行计划路径的代价&#xff0c;从而选择出最优的执行计划。而这些统计信息来自pg_statistic&#xff0c;当然这个系统表是由ANALYZE或者VACUUM进行样本采集而来。关于该系统表的介绍详见&#xff1a;PgSQL技术…

水泵房远程监控物联网系统

随着物联网技术的快速发展&#xff0c;越来越多的行业开始利用物联网技术实现设备的远程监控与管理。水泵房作为城市供水系统的重要组成部分&#xff0c;其运行状态的监控与管理至关重要。HiWoo Cloud作为专业的物联网云服务平台&#xff0c;为水泵房远程监控提供了高效、稳定、…

2.1HTML5基本结构

HTML5实际上不算是一种编程语言&#xff0c;而是一种标记语言。HTML5文件是由一系列成对出现的元素标签嵌套组合而成&#xff0c;这些标签以<元素名>的形式出现&#xff0c;用于标记文本内容的含义。浏览器通过元素标签解析文本内容并将结果显示在网页上&#xff0c;而元…

基于centos7的k8s最新版v1.29.2安装教程

k8s概述 Kubernetes 是一个可移植、可扩展的开源平台&#xff0c;用于管理容器化的工作负载和服务&#xff0c;可促进声明式配置和自动化。 Kubernetes 拥有一个庞大且快速增长的生态&#xff0c;其服务、支持和工具的使用范围相当广泛。 Kubernetes 这个名字源于希腊语&…

CentOS无法解析部分网站(域名)

我正在安装helm软件&#xff0c;参考官方文档&#xff0c;要求下载 get-helm-3 这个文件。 但是我执行该条命令后&#xff0c;报错 连接被拒绝&#xff1a; curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 # curl: (7) Fai…

深入探索Java中的MarkWord与锁优化机制——无锁、偏向锁、自旋锁、重量级锁

引言 在Java并发编程领域&#xff0c;有效管理对共享资源的访问显得尤为关键。为了保障线程安全&#xff0c;Java虚拟机&#xff08;JVM&#xff09;引入了一系列精妙的锁机制&#xff0c;这其中的核心概念就是Java对象头中的MarkWord。本文将详尽解析MarkWord的作用&#xff…