【小白学机器学习8】统计里的自由度DF=degree of freedom, 以及关于df=n-k, df=n-k-1, df=n-1 等自由度公式

目录

1 自由度 /degree of freedom / df

1.1 物理学的自由度

1.2 数学里的自由度

1.2.1 数学里的自由度

1.2.2 用线性代数来理解自由度(需要补充)

1.2.3 统计里的自由度

1.3 统计学里自由度的定义

2 不同对象的自由度

2.1 纯公式的自由度:纯公式,没采样无样本时

2.2 抽样分析时:纯样本的自由度

2.3 公式里某个特定变量的自由度

3 自由度的公式

3.1 自由度的基础公式 df=n-k

3.2 ESS 残差平方和的误差 df=n-k-1

3.3  回归方程的自由度,  df=n-k-1=n-1

3.3.1 一元线性回归

3.3.2 多元线性回归

4 参考

5 其他(未完成)


1 自由度 /degree of freedom / df

1.1 物理学的自由度

理论力学:(下面这段摘自网上)

  • 确定物体的位置所需要的独立坐标数称作物体的自由度,当物体受到某些限制时——自由度减少。
  • 一个质点在空间自由运动,它的位置由三个独立坐标就可以确定,所以质点的运动有三个自由度。
  • 假如将质点限制在一个平面或一个曲面上运动,它有两个自由度。
  • 假如将质点限制在一条直线或一条曲线上运动,它只有一个自由度。
  • 刚体在空间的运动既有平动也有转动,其自由度有六个,即三个平动自由度x、y、z和三个转动自由度a、b、q。如果刚体运动存在某些限制条件,自由度会相应减少。

1.2 数学里的自由度

1.2.1 数学里的自由度

  • 数学上,自由度是一个随机向量的维度数
  • 也就是一个向量能被完整描述所需的最少单位向量数

1.2.2 用线性代数来理解自由度需要补充

  • 从线性代数的角度理解
  • 自由度就是向量/矩阵/张量的维度,秩。最少需要用几个维度来现实就是自由度.

1.2.3 统计里的自由度

  • 样本容量越大,自由度就越高,就越趋近于正态分布,实验就更加合理
  • 下图时转载的,文章链接附在最后

1.3 统计学里自由度的定义

自由度通常用于抽样分布中。

统计学中:在统计模型中,自由度指样本中可以自由变动的独立不相关的变量的个数,当有约束条件时,自由度减少。

  • 样本中独立或能自由变化的数据的个数,称为该统计量的自由度。
  • 自由度指的是计算某一统计量时,取值不受限制的变量个数。

2 不同对象的自由度

  • 通用的自由度公式,都是n-k。但是不同对象下的DF的意义不同
    • 如果讲的是公式的自由度,是自变量的个数  df=n
    • 如果讲的是样本的自由度,是样本的数量减去约束条件个数,df=n-k
    • 如果讲的是某个公式里某个特定变量的自由度,是样本的数量减去约束条件个数,df=n-k

2.1 纯公式的自由度:纯公式,没采样无样本时

  • 抽象的公式的自由度:不受约束自变量的个数
  • 不受约束的自变量个数就是公式的自由度。

举例:

  • 一元线性回归:y=ax+b
    • x是自变量,自由度1
    • y是因变量,没有自由度
    • 总自由度1
  • 多元线性回归:y=a1X1+a2X2+......anXn
    • x是自变量,自由度n
    • y是因变量,没有自由度
    • 总自由度n

2.2 抽样分析时:纯样本的自由度

  • 样本的自由度=n-k
  • 样本数量n
  • 关于样本的约束条件k,比如用到了样本的均值,就少1个自由度

举例

  • a+b=1,其中a,b都是变量,那么总自由度为1,因为若a为变量,b会受到1-a的约束,所以不自由。自由度=2个自变量-1被限制的自变量=1
  • 总体平均数,u=average(x)。因为总体内,每个样本都是独立的,所以自由度就是总体的容量n
  • 样本平均数,average(xi) ,假设有10个样本,平均数=1,那只有前9个数可以自由取值,第10个数,一定得受到平均值得约束,因此自由度=n-1=10-1=9
  •  总体方差,公式为
  • 样本方差,公式为,因为本身是一个样本的约束,所以自由度=n-1

2.3 公式里某个特定变量的自由度

  • 如果讲的是公式里某个特定变量的自由度,是样本的数量减去约束条件个数,df=n-k
  • 通用的公式都是这个,df=n-k
  • 但是还可以细分,下面详细展开

3 自由度的公式

3.1 自由度的基础公式 df=n-k

自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)

  • df=n-k。
  • 自由度df:
    • 不受限制的变量个数 
    • 不受限制的样本个数
  • n:
    • 自变量个数 
    • 样本数量
  • k:
    • 被限制的条件数或变量个数
    • 或计算某一统计量时用到其它独立统计量的个数。
    • 这些变量之间的有公式关系等形成的约束个数(应该要减掉一些线性相关的约束)

3.2 ESS 残差平方和的误差 df=n-k-1 (比n-k多出的-1是指那个截距参数)

  • 需要考虑2方面
  • 模型中自变量的个数,+自由度
  • 模型中有几个未知数就要消耗几个自由度,-自由度

举例

  • 观测值y
  • 预测值y^
  • 一元线性回归模型 y=b0+b1X+ε,因为每个y^都是用这个模型估算出来的
  • y^-y的误差就是残差,也就是ε
  • b0 常数,截距
  • b1 自变量x的参数,未知,需要求
  • ε   残差,残差的均值=0

  • 另外,我们心中有一个理想模型y=b0+b1X (虽然不一定存在,不能能找到),但是我们相信我们的观测值符合一个这样的理想直线模型(否则我们也不会用线性回归,而是用曲线或者其他了^ ^)
  • y^观测值,记录下来
  • 理想模型的y观测值:y=b0+b1X 
  • ESS=Σ(y^-y)**2 =Σ(y^-b0+b1X)**2

  • 残差平方和  ESS 的自由度 
  • 残差平方和  ESS=Σ(y^-y)**2,因为因为每个y^=b0+b1X,包含2个参数b0,b1 因此需要确定这2个参数,就需要2个约束才能算出来
  • 为什么2个参数需要2个约束:因为解方程的需要,而且这2个约束还不能是线性相关的才行。因此有几个未知参数就消耗几个自由度
  • 所以:
    • 一元线性回归的ESS的自由度df = n-k-1=n-1-1=n-2
    • 多元线性回归的ESS的自由度 df =n-k-1
    • 其中k 是变量个数,1是截距常量个数。

3.3  回归方程的自由度,  df=n-k-1=n-1

3.3.1 一元线性回归

  • 回归方程 y=b0+b1X
  • 其中自变量X,只有1个,自由度+1
  • 而参数是2个,也就是2个未知数,b0 和b1,自由度-2
  • 如果有n个样本
  • 那么回归方程的自由度= n-2+1=n-1

3.3.2 多元线性回归

  • 回归方程 y=b0+b1X+b2X+....+bkX,
  • 其中自变量X,有k个自变量,自由度+k
  • 而参数是k+1个,所有x的参数,还一个一个截距。这些都是未知数。
  • 如果有n个样本
  • 那么回归方程的自由度= n+k-(k+1)=n-1


4 参考

【弱鸡版】什么回归中自由度(degrees of freedom),就是这么简单! - 知乎自由度是什么?我们先来百度一下: “自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。 其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/607458488

一元线性回归模型中残差平方和的自由度为什么是n-2 - 爱问频道 - 经管之家(原人大经济论坛)一元线性回归模型中残差平方和的自由度为什么是n-2,一元线性回归模型中残差平方和的自由度为什么是n-2?,经管之家(原人大经济论坛)icon-default.png?t=N7T8https://bbs.pinggu.org/thread-640905-1-1.html

下面这个解释了多种DF的定义,可惜我还没仔细看~~ 

统计学“自由度”详解 - 知乎本文皆为个人看法,才疏学浅,如果有不妥不准确的对方,还请指正。有些数学推导可能显得不严谨,主要是为了数学基础薄弱的同学能看懂。 “自由度”是统计学中一个很不好懂的概念,因为它的定义有好几个,而每个定…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/81099139

5 其他(未完成)

当想知道适不适合用回归分析时,最简单的方法是做散点图,对于方差分析则做箱线图或是条形图。

均方差:标准差SD

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/452441.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

汤唯N次被封后,除了人美外,这些也许你没想到!

汤唯N次被封后,除了人美外,这些也许你没想到! 引言:影坛的璀璨明星 #李秘书讲写作#注意到,在光鲜亮丽的电影圈,有一位女演员以其独特的气质和深入人心的演技,成为了众多观众心中的璀璨明星。她…

國内linux服务器解决Ollama安装超时

curl -fsSL https://ollama.com/install.sh | sh 执行一直超时 做如下配置: 修改hosts文件,直接将http://github.com做个ip指向。 sudo vim /etc/hosts 输入密码后,按 i 增加以下配置 # github 注意下面的IP地址和域名之间有一个空格 140…

朱熹凭着理学成为天选之子,读书方法也很实用

唐朝是李姓的天下,推行老子的道家思想。同时,佛教兴旺鼎盛。儒家开始没落,失去主要地位。为了恢复儒家的地位,朱憙极力发展理学。 理学又叫道学。北有孔子,南有朱子。朱憙是理学集大成者,被称为朱子。理学…

STM32的GPIO初始化配置-学习笔记

简介: 由于刚开始没有学懂GPIO的配置原理,导致后面学习其它外设的时候总是产生阻碍,因为其它外设要使用前,大部分都要配置GPIO的初始化,因此这几天重新学习了一遍GPIO的配置,记录如下。 首先我们要知道芯片…

基于支持向量机SVM的点火电流预测

目录 支持向量机SVM的详细原理 SVM的定义 SVM理论 Libsvm工具箱详解 简介 参数说明 易错及常见问题 完整代码和数据下载链接:基于支持向量机SVM的点火电流预测(代码完整,数据齐全)资源-CSDN文库 https://download.csdn.net/download/abc991835105/88947558 SVM应用实例,基…

.Net Core 中间件验签

文章目录 为什么是用中间件而不是筛选器?代码实现技术要点context.Request.EnableBuffering()指针问题 小结 为什么是用中间件而不是筛选器? 为什么要用中间件验签,而不是筛选器去验签? 1、根据上图我们可以看到,中间件在筛选器之…

【Rockchip android7.1 平台rtl8821cs wifi移植调试】

Rockchip 平台rtl8821cs wifi移植调试 问题描述解决方法 郑重声明:本人原创博文,都是实战,均经过实际项目验证出货的 转载请标明出处:攻城狮2015 Platform: Rockchip rk3128 OS:Android 7.1.2 Kernel: 3.10 问题描述 客户需要在现在的板子上调一款RTL882…

前端的数据标记协议

文章目录 数据标记协议是什么数据标记协议的作用常见的数据标记协议Open Graph protocol 开放图谱协议基本元数据协议可选元数据结构化属性 —— 元数据的属性多个相同的元数据标签类型元数据的使用方法全局类型使用自定义类型使用对象类型使用歌曲对象类型视频对象类型文章对象…

算法打卡day15|二叉树篇04|110.平衡二叉树、257. 二叉树的所有路径、404.左叶子之和

算法题 Leetcode 110.平衡二叉树 题目链接:110.平衡二叉树 大佬视频讲解:平衡二叉树视频讲解 个人思路 可以用递归法,计算左右子树的高度差,当超过1时就不为平衡二叉树了; 解法 回顾一下二叉树节点的深度与高度; …

软件测试知识面试题:白盒测试、黑盒测试、测试用例

文章目录 白盒测试1、白盒测试分两类2、白盒测试的四个原则3、白盒测试常用的7类测试 黑盒测试1、黑盒测试的优缺点2、黑盒测试的方法3、黑盒测试的原则 测试用例1、测试用例包含2、设计测试用例所需的文档资料3、采用白盒测试技术设计用例的目的4、采用黑盒测试技术设计用例的…

网络编程套接字(3)——Java数据报套接字(UDP协议)

目录 一、Java数据报套接字通信模型 二、UDP数据报套接字编程 1、DatagramSocket (1)DatagramSocket构造方法 (2)DatagramSocket方法 2、DatagramPacket (1)DatagramPacket构造方法 (2&…

spring启动时如何自定义日志实现

一、现象 最近在编写传统的springmvc项目时,遇到了一个问题:虽然在项目的web.xml中指定了log4j的日志启动监听器Log4jServletContextListener,且开启了日志写入文件,但是日志文件中只记录业务代码中我们声明了日志记录器的日志&a…

HTML静态网页成品作业(HTML+CSS)——电影加勒比海盗介绍设计制作(1个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有1个页面。 二、作品演示 三、代…

数据结构从入门到精通——树和二叉树

树和二叉树 前言一、树概念及结构1.1树的概念1.2 树的相关概念(重要)1.3 树的表示1.4 树在实际中的运用(表示文件系统的目录树结构) 二、二叉树概念及结构2.1二叉树概念2.2现实中的二叉树2.3 特殊的二叉树2.4 二叉树的性质2.5 二叉…

PCB差分通孔的数值建模方法

目录 0 引言 1 基于CST的3D通孔模型 2 通孔模型的近似等效计算 3 利用ADS进行电路仿真分析 4 总结 0 引言 当数据速率超过10Gbps时,PCB上的通孔所带来的寄生参数会成为影响数据误码率的关键因素之一,虽然通过三维电磁场求解器提取过孔的行为模型&…

rust入门(1)创建项目

安装 vscode 安装插件 rust-analyzerNative Debug vscode 配置自动格式化代码 settings.json{"editor.defaultFoldingRangeProvider": null,"[rust]": {"editor.defaultFormatter": "rust-lang.rust-analyzer", // Makes the magi…

Python 井字棋游戏

井字棋是一种在3 * 3格子上进行的连珠游戏,又称井字游戏。井字棋的游戏有两名玩家,其中一个玩家画圈,另一个玩家画叉,轮流在3 * 3格子上画上自己的符号,最先在横向、纵向、或斜线方向连成一条线的人为胜利方。如图1所示…

静态时序分析:SDC约束命令set_output_delay详解

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 目录 指定延迟值 指定端口、引脚列表 指定参考时钟 简单使用 指定时钟下降沿 指定参考端口、引脚 包含源、网络延迟 指定电平敏感 指定上升、下降沿 指…

Redux Toolkit

本文作者为 360 奇舞团前端开发工程师 阅读本文章前,需要先了解下 redux 的基本概念与用法,Redux Toolkit 是建立在 Redux 基础之上的工具包,因此需要对 Redux 的基本概念有一定的了解,包括 Action、Reducer、Store、Middleware 等…

C#四部曲(知识补充)

Unity跨平台原理 .Net相关 只要编写的时候遵循.NET的这些规则,就能在.NET平台下通用 各种源码→根据.NET规范编写→(虚拟机)生成CIL中间码(保存在程序集中)→转成操作系统原代码 跨语言← 跨平台↓ Unity跨平台原理(Mono) c#脚本→MonoC#编…