线性回归学习总结

一 、引文

1 回归分析

回归是统计学上用来分析数据的方法,以了解两个或多个变量之前的关系。通常是建立被解释变量Y和解释变量X之间关系的模型。

回归分析的最早形式是最小二乘法。

勒让德和高斯都将该方法应用于从天文观测中确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3],包括高斯-马尔可夫定理的一个版本。

但是, 回归(regression)一词由法兰西斯·高尔顿(Francis Galton)所使用。

他在统计学方面也有贡献,高尔顿在1877年发表关于种子的研究结果,指出回归到平均值(regression toward the mean)现象的存在,这个概念与现代统计学中的“回归”并不相同,但是却是回归一词的起源。在此后的研究中,高尔顿第一次使用了相关系数(correlation coefficient)的概念。他使用字母“r”来表示相关系数,这个传统一直延续至今。

2 什么是线性(以下来自ChatGPT)

  • 在数学和统计学中,线性是一个重要的概念,指的是与直线(线性函数)具有相似性质的关系或性质。一个数学对象被称为线性,通常满足以下两个性质:
    1. 比例性质(Proportionality): 如果一个对象的变化与另一个对象的变化成正比,那么它们之间的关系就是线性的。换句话说,当一个对象发生变化时,另一个对象也以相同比例发生变化。
    2. 叠加性质(Superposition): 如果一个对象的总效应等于多个独立影响的叠加,那么这个对象的关系是线性的。换句话说,系统的响应是各个独立输入的总和。
      .
  • 在数学中,线性性质可以表示为以下形式:
    1. 线性函数(Linear Function): 一个函数如果满足以下形式,就被称为线性函数:
      f ( a x + b y ) = a f ( x ) + b f ( y ) f(ax+by)=af(x)+bf(y) f(ax+by)=af(x)+bf(y)
      其中, a a a b b b 是常数, f ( x ) f(x) f(x) f ( y ) f(y) f(y) 是函数。
    2. 线性方程(Linear Equation): 一个方程如果可以写成以下形式,就被称为线性方程:
      a x + b y = c ax+by=c ax+by=c
      其中, a a a b b b c c c 是常数, x x x y y y 是变量。

二、正文目录

1 线性回归

在这里插入图片描述

2 参数估计

2.1 最小二乘法

在这里插入图片描述

2.2 最大似然估计MLE

L ( w ) = log ⁡ p ( Y ∣ X , w ) = log ⁡ ∏ i = 1 N p ( y i ∣ x i , w ) = ∑ i = 1 N log ⁡ ( 1 2 π σ e − ( y i − w T x i ) 2 2 σ 2 ) argmax ⁡ L ( w ) w = argmin ⁡ w ∑ i = 1 N ( y i − w T x i ) 2 \begin{aligned} L(w)=\log p(Y \mid X, w) & =\log \prod_{i=1}^{N} p\left(y_{i} \mid x_{i}, w\right) \\ & =\sum_{i=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi \sigma}} e^{\left.-\frac{\left(y_{i}-w^{T} x_{i}\right)^{2}}{2 \sigma^{2}}\right)}\right. \\ \underset{w}{\operatorname{argmax} L(w)} & =\underset{w}{\operatorname{argmin}} \sum_{i=1^{N}}\left(y_{i}-w^{T} x_{i}\right)^{2} \end{aligned} L(w)=logp(YX,w)wargmaxL(w)=logi=1Np(yixi,w)=i=1Nlog 2πσ 1e2σ2(yiwTxi)2)=wargmini=1N(yiwTxi)2

2.3 最大后验估计MAP

w ^ = argmax ⁡ w p ( w ∣ Y ) = argmax ⁡ w p ( Y ∣ w ) p ( w ) = argmax ⁡ w log ⁡ p ( Y ∣ w ) p ( w ) = argmax ⁡ w ( log ⁡ p ( Y ∣ w ) + log ⁡ p ( w ) ) = argmin ⁡ w [ ( y − w T x ) 2 + σ 2 σ 0 2 w T w ] \begin{aligned} \hat{w}=\underset{w}{\operatorname{argmax}} p(w \mid Y) & =\underset{w}{\operatorname{argmax}} p(Y \mid w) p(w) \\ & =\underset{w}{\operatorname{argmax}} \log p(Y \mid w) p(w) \\ & =\underset{w}{\operatorname{argmax}}(\log p(Y \mid w)+\log p(w)) \\ & =\underset{w}{\operatorname{argmin}}\left[\left(y-w^{T} x\right)^{2}+\frac{\sigma^{2}}{\sigma_{0}^{2}} w^{T} w\right] \end{aligned} w^=wargmaxp(wY)=wargmaxp(Yw)p(w)=wargmaxlogp(Yw)p(w)=wargmax(logp(Yw)+logp(w))=wargmin[(ywTx)2+σ02σ2wTw]

3 正则化

3.1 L1 正则化: Lasso 回归

3.2 L2 正则化: Ridge 回归

在这里插入图片描述

偷个懒,不重复造轮子了。主要是为了自己学习和回顾。以上相关推导公式来自视频和链接,在此感谢up主和博主的分享
Bilibili-机器学习白板系列之线性回归
机器学习-白板推导系列(三)-线性回归(Linear Regression)

三 学习总结

1 清晰几个概念:

1.1 xx分不清

此外在回归分析中,会有残差和均方误差两个词。其中残差是预测值和观测值(真实标签)之差。

  • SSE 表示的是残差平方和(Sum of Squares for Error),也称为误差平方和。
  • MSE 表示均方误差(Mean Squared Error) 均方误差是残差平方和除以样本数量的结果,表示了每个样本的预测误差的平方的平均值
  • 数学上的 误差(相对误差和绝对误差) 是实际测量值和真实值(理论值)之前的差别。
  • 统计学上,方差 是衡量数据的离散程度的,而偏差描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。

1.2 权衡偏差和方差以最小化均方误差

偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望,而方差度量着数据上任意特定采样可能导致的估计期望的偏差 —花书《深度学习》

2 MAP 和 L2范数 正则的关系

  • 在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差
  • 加上L2正则项后,最小二乘误差加上 L2 正则项 等价于 权重先验分布为高斯分布的MAP解
  • 加上 L1 正则项后,等价于 权重Laplace 先验分布。

注意这里有两个分布:

  • 一个是噪声(残差) 为高斯分布,有MLE等价于最小二乘误差。
  • 另一个是 权重(参数) 的先验分布为高斯分布,有MAP等价于 最小二乘误差 加上 L2 正则化。

所谓的先验是针对后验 p ( w ∣ Y ) p(w | Y) p(wY)来说的。这里先假设权重(参数)的先验分布为高斯分布,至于为什么这样做,这里涉及到频率派和贝叶斯派的估计方法。------先不说了😂

其实,这里给最小二乘误差(均方误差)人为加上一个正则项,也是加上了一个先验的知识,倾向于L2范数较小的权重是。而这个先验知识,和假设权重先验分布为高斯分布的最大后验估计是等价的。— —那为什么呢?先留着🤣

3 线性回归的假设条件

前提条件包括:

  • 误差项服从正态分布
  • 误差的方差在各个自变量值上是恒定的(即同方差性,homoscedasticity)
  • 自变量和误差项之间没有相关性
  • 。。。。。。

其中 异方差性 可参考:
残差分析
残差分析与残差图

残差中的非随机模式表明模型的确定部分(预测变量)没有捕获一些“泄露”到残差中的一些可解释/可预测信息

也许线性回归模型只能用来分析一下较为简单的数据,但是线性回归却为其他传统机器学习方法提供了很好的思考方向。

4 线性回归模型的不足:

  1. 线性模型往往不能很好地拟合数据,因此有三种⽅案克服这⼀劣势:
  • 对特征的维数进⾏变换,例如多项式回归模型就是在线性特征的基础上加⼊⾼次项。
  • 在线性⽅程后⾯加⼊⼀个⾮线性变换,即引⼊⼀个⾮线性的激活函数,典型的有线性分类模 型如感知机。
  • 对于⼀致的线性系数,我们进⾏多次变换,这样同⼀个特征不仅仅被单个系数影响,例如多 层感知机(深度前馈⽹络)。
  1. 线性回归在整个样本空间都是线性的,我修改这个限制,在不同区域引⼊不同的线性或⾮线性,例如线性样条回归和决策树模型。
  2. 线性回归中使⽤了所有的样本,但是对数据预先进⾏加⼯学习的效果可能更好(所谓的维数灾难, ⾼维度数据更难学习),例如 PCA 算法和流形学习

这里画个图,总结一下:
在这里插入图片描述

P: 刨根问底,刨个稀烂 🤣🤣🤣

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/72663.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

adb 通过wifi连接手机

adb 通过wifi连接手机 1. 电脑通过USB线连接手机2. 手机开启USB调试模式,开启手机开发者模式3.手机开启USB调试模式 更多设置-》开发者选项-》USB调试4.点击Wi-Fi 高级设置,可以查看到手机Wi-Fi的IP地址,此IP地址adb命令后面的ip地址&#xf…

百度云盘发展历程与影响

摘要: 百度云盘作为中国领先的云存储与共享服务提供商,自其创立至今经历了多个阶段的发展与变革。本论文通过对百度云盘的历史回顾与分析,探讨了其在技术、商业模式、用户体验以及对社会的影响等方面的演变。同时,还分析了在竞争激…

横向移动-域控提权

横向移动-域控提权 CVE-2021-42287 由于Active Directory没有对域中计算机和服务器账号进行验证,经过身份验证的攻击者利用该漏洞绕过完全限制,可将域中普通用户权限提升为域管理员权限并执行任意代码。 利用条件 前提条件:一个域内普通账…

计算机基础概论

一、计算机的组成 1.计算机组成的五大部件 (1)运算器:也叫算术逻辑单元,完成对数据的各种常规运算,如加减乘除,也包括逻辑运算,位移,比较等。 (2)控制器&a…

计算机网络-物理层(一)物理层的概念与传输媒体

计算机网络-物理层(一)物理层的概念与传输媒体 物理层相关概念 物理层的作用用来解决在各种传输媒体上传输比特0和1的问题,进而为数据链路层提供透明(看不见)传输比特流的服务物理层为数据链路层屏蔽了各种传输媒体的差异,使数据…

图像的镜像变换之c++实现(qt + 不调包)

1.基本原理 1.水平镜像变化 设图像的宽度为width,则水平镜像变化的映射关系如下: 2.垂直镜像变化 设图像的宽度为height,则垂直镜像变化的映射关系如下: 2.代码实现(代码是我以前自学图像处理时写的,代码很…

Kotlin和Java互操作时的可空性

注:文中demo的kt版本是1.7.10 一、kotlin语言中的可空性设计 在Java语言中的NPE(NullPointerException)可以说非常常见,而且诟病已久。 kotlin做为后起之秀,在空指针的问题上进行了升级,即&#xff1…

Linux_5_Shell脚本编程

目录 1 基础1.1 程序组成1.2 程序编程风格1.3 编程语言1.4 编程逻辑处理方式 2 shell 脚本语言的基本结构2.1 shell脚本的用途2.2 shell脚本基本结构2.3 创建shell脚本过程2.4 脚本注释规范2.5 第一个脚本2.6 脚本调试2.7 变量2.7.1 变量2.7.2 变量类型2.7.3 编程语言分类2.7.4…

popen/pclose 函数

函数作用 如果说system在一定程度上是execl的优化版,那么popen就一定程度上是system的优化版,使用popen不仅可以运行代码,还可以获取运行的输出结果(但是system和exec族函数还是非常重要的,也有自己的特定应用场景&am…

python_day19_正则表达式

正则表达式re模块 导包 import res "python java c c python2 python python3"match 从头匹配 res re.match("python", s) res_2 re.match("python2", s) print("res:", res) print(res.span()) print(res.group()) print("…

Docker安装nacos v2.1.1

目录 前言安装nacos安装步骤1:准备1. 安装docker2. 搜索可以使用的镜像。3. 选择合适的redis镜像。3. 也可从docker hub上搜索镜像。 安装步骤2:拉取镜像拉取镜像查看已拉取的镜像 安装步骤3:创建容器创建容器方式1:快速创建容器创…

广州华锐互动:VR3D课程在线教育平台为职业院校提供沉浸式的虚拟现实学习体验

随着科技的飞速发展,虚拟现实(VR)和增强现实(AR)技术已经逐渐渗透到我们生活的各个领域。其中,VR3D课程在线教育平台作为一种新兴的教育方式,正在逐渐改变我们的学习方式和体验。本文将详细介绍VR3D课程在线教育平台的应用前景及特点。 VR3D课…

用对角线去遍历矩阵

原题链接 用对角线遍历矩阵https://leetcode.cn/leetbook/read/array-and-string/cuxq3/ 算法分析 图一 图二 图三 图四 由上述四个图可以总结得出以下八个结论: 结论1:k属于[0,a(max)b(max)]。 结论2:每一层遍历行最多存在min(m,n)个矩…

小程序发布注意事项

1、使用HBuildx的 发布 功能发布小程序,因为编译完的代码目录不是同一个 如果使用 运行 到小程序,最后发布的版本会显示”无法连接本地服务器“ 2、使用unicloud的云服务 uniCloud发行 | uni-app官网 阿里云的unicloud的话,使用request域名…

高效实用小工具之Everything

一,简介 有时候我们电脑文件较多时,想快速找到某个文件不是一件容易的事情,实用windows自带的搜素太耗时,效率不高。今天推荐一个用来搜索电脑文件的小工具——Everything,本文将介绍如何安装以及使用everything&…

分布式监控平台—zabbix

前言一、zabbix概述1.1 什么是zabbix1.2 zabbix的监控原理1.3 zabbix常见五个应用程序1.4 zabbix的监控模式1.5 监控架构1.5.1 C/S(server—client)1.5.2 server—proxy—client1.5.3 master—node—client 二、部署zabbix2.1 部署 zabbix server 端2.2 …

记一次物理机安装centos7遇到的问题

首先制作U盘镜像(之前装windows的大白菜之类的就没用了) 用的这个UltraISO制作U盘镜像 然后从U盘启动开始安装, 问题一 安装时报错 dracut-pre-udev[351]:modprobe :ERROR:could not insert ‘floppy’ dracut-pre-udev[351]:modprobe…

ctfshow-web8

0x00 前言 CTF 加解密合集CTF Web合集 0x01 题目 0x02 Write Up 这道题实际上就是一个单纯的布尔型盲注,只不过是过滤了一些东西,一个是过滤的空格,还有一个是过滤了逗号 那么我们需要做的就是对这两个进行绕过,空格还是用/**…

【网络基础实战之路】实现RIP协议与OSPF协议间路由交流的实战详解

系列文章传送门: 【网络基础实战之路】设计网络划分的实战详解 【网络基础实战之路】一文弄懂TCP的三次握手与四次断开 【网络基础实战之路】基于MGRE多点协议的实战详解 【网络基础实战之路】基于OSPF协议建立两个MGRE网络的实验详解 PS:本要求基于…

Python Opencv实践 - 在图像上绘制图形

import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg cv.imread("../SampleImages/pomeranian.png") print(img.shape)plt.imshow(img[:,:,::-1])#画直线 #cv.line(img,start,end,color,thickness) #参考资料:https://blog.csdn.ne…