机器学习理论系列——线性模型(上)

系列文章目录


文章目录


  • 线性模型
  • 线性回归
    • 线性回归与线性模型
    • 一元和多元线性回归
    • 最小二乘法
      • 损失函数与均方误差
      • 最小二乘与闭式解
    • 正则化
    • 梯度下降
      • 什么是梯度下降
      • 算法上的体现
  • 附录


线性模型


线性是数学中的基本概念,即两个变量按照一定比例增加或减少,用数学符号表达就是 y = a x + b {y = ax+b} y=ax+b。在机器学习中,线性模型(Linear Model)就是试图通过数据学得一个x的线性组合来预测y(下式也称线性模型基本型
y ^ = w 1 x 1 + w 2 x 2 + ⋯ + w d x d + b \hat{y} = w_1x_1+w_2x_2+\cdots+w_dx_d+b y^=w1x1+w2x2++wdxd+b
因为我们通过线性模型得到的y并非真实值,是我们预测的,因此我们用 y ^ \hat{y} y^表示,其中的x在现实中可能是与y相关的属性,比如y是电影票房, x 1 x_1 x1可能是演员, x 2 x_2 x2可能是导演, x 3 x_3 x3可能是制作经费等,而前面的 w 1 w_1 w1 w 2 w_2 w2 w 3 w_3 w3分别是对应 x i x_i xi权重,即它们对y的影响程度,如可能这部电影票房受导演因素影响大,那么 x 2 x_2 x2对应的 w 2 w_2 w2就会明显比其他 w w w



线性回归


线性回归与线性模型

线性回归(Linear Regression)可以理解为一套流程,它的主要目的就是获得最优线性模型来描述两个或多个变量之间的关系



一元和多元线性回归

当我们只用一个x来预测y,就是一元线性回归,也就是找一条直线来拟合数据。模型写成如下形式:
y ^ = w x + b \hat{y} = wx + b y^=wx+b
比如,我们有一组数据画出来的散点图,横坐标是电影制作经费,纵坐标表示销量,一元线性回归就是找到一条直线,并且让这条直线尽可能地拟合图中的数据点

请添加图片描述

根据这个模型,当我们获得一部新电影的制作成本时,我们可以预测它的票房


当y的值与d个属性(x)相关,即我们想用d个x来预测y,模型写成如下形式:
y ^ = w 1 × x 1 + w 2 × x 2 + . . . + w d × x d + b y ^ = w T x + b \hat{y} = w_1 \times x_1 + w_2 \times x_2 +...+ w_d \times x_d + b \\ \hat{y} = \mathbf{w^{T}} \mathbf{x} + b y^=w1×x1+w2×x2+...+wd×xd+by^=wTx+b
其中 w , x w,x w,x是d维列项量



最小二乘法

那么现在的问题就是我们如何得到 y ^ = w 1 × x 1 + w 2 × x 2 + . . . + w d × x d + b \hat{y} = w_1 \times x_1 + w_2 \times x_2 +...+ w_d \times x_d + b y^=w1×x1+w2×x2+...+wd×xd+b这条直线,我们考虑下面这个情况

请添加图片描述

如图所示,我们有两条直线,这两条直线好像都可以拟合这些数据点,我们肯定要选择更“优秀”的一条,那么如何判定哪条直线优秀呢?这就引出了我们首先要解决的问题,如何评判一条回归线的好坏,通常我们会用损失函数(Loss Function)来评价


损失函数与均方误差

首先,我们要知道一个统计学概念——“残差”(Residual),它表示真实值与预测值的差距,用公式表示就是
e = y − y ^ e = y - \hat{y} e=yy^
请添加图片描述

对于某个 x i x_i xi,我们有对应的实际 y i y_i yi和预测值 y i ^ \hat{y_i} yi^,计算 e i = y i − y i ^ e_i=y_i - \hat{y_i} ei=yiyi^的值,但此时 e i e_i ei有正有负,如果直接求和,正负抵消就不能正确体现出这个直线的拟合效果,因此我们将其平方后相加,这就是均方误差(Mean Squared Error, MSE),它有着非常好的几何性质,其中的 y − y ^ y-\hat{y} yy^对应了“欧氏距离”。均方误差也是我们常用于线性回归评价回归线的损失函数
E = ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − y ^ i ) 2 = ∑ i = 1 n ( y i − ( w ^ x i + b ) ) 2 E = \sum_{i=1}^{n}e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} \left( y_i - \left(\hat{w} x_i + b \right) \right)^2 E=i=1nei2=i=1n(yiy^i)2=i=1n(yi(w^xi+b))2
它的函数图像类似如下
请添加图片描述



最小二乘与闭式解

既然我们已经得到损失函数或者说均方误差,那接下来我们的任务就是找到那条使得均方误差E最小的那条回归线,其所对应的 w w w b b b就是我们想要的,这种基于均方误差最小化来求解模型的方法称为“最小二乘法”(Ordinary Least Squares, OLS)
我们利用数学中求多元函数极值的方法,对E分别求 w w w b b b的偏导,可得
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) ∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \frac{\partial E_{(w,b)}}{\partial w} = 2 \left( w \sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} (y_i - b) x_i \right) \\ \frac{\partial E_{(w,b)}}{\partial b} = 2 \left( mb - \sum_{i=1}^{m} (y_i - wx_i) \right) wE(w,b)=2(wi=1mxi2i=1m(yib)xi)bE(w,b)=2(mbi=1m(yiwxi))
当两个偏导都为0时,E取得最小,通过计算可以得到
b = 1 m ∑ i = 1 m ( y i − w x i ) w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 (详细过程见附录1.1) b = \frac{1}{m} \sum_{i=1}^{m} (y_i - wx_i)\\ w = \frac{\sum_{i=1}^{m} y_i(x_i - \bar{x})}{\sum_{i=1}^{m} x_i^2 - \frac{1}{m}(\sum_{i=1}^{m}x_i)^2}\\ \text{\scriptsize{(详细过程见附录1.1)}} b=m1i=1m(yiwxi)w=i=1mxi2m1(i=1mxi)2i=1myi(xixˉ)(详细过程见附录1.1)
这种在有限的数学运算步骤内可以通过已知的函数和常数来直接求出的解,叫做闭式解(closed-form solution)

现在我们考虑更一般的情况即y由d个属性描述,此时我们试图学得 y ^ = w T x + b \hat{y} = \mathbf{w}^T\mathbf{x} + b y^=wTx+b,为了方便计算我们将w和b放入向量形式的 w ^ = ( w ; b ) T \hat{w} = (\mathbf{w};b)^T w^=(w;b)T,相应的,把所有x表示为一个 m × ( d + 1 ) m \times (d+1) m×(d+1)大小的矩阵X,其中每一行对应一个示例,改行前d个元素对应于示例的d个属性值,最后一个元素恒为1,即
w ^ = ( w 1 ^ , w 2 ^ , w 3 ^ , . . . , w m ^ , b ) T X = ( x 11 x 12 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d 1 ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 ⋯ x m d 1 ) \hat{w} = \begin{pmatrix} \hat{w_1},\hat{w_2},\hat{w_3},...,\hat{w_m},b \end{pmatrix}^T \\ X = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{pmatrix} w^=(w1^,w2^,w3^,...,wm^,b)TX= x11x21xm1x12x22xm2x1dx2dxmd111
此时
y ^ = X w ^ = ( ∑ j = 1 d w i ^ x i j + b ) (详细过程见附录1.2) \mathbf{\hat{y}} = X \hat{w}=\begin{pmatrix} \sum_{j=1}^d\hat{w_i}x_{ij}+b \end{pmatrix} \\ \text{\scriptsize{(详细过程见附录1.2)}} y^=Xw^=(j=1dwi^xij+b)(详细过程见附录1.2)
再把所有对应的y放进向量里, y = ( y 1 ; y 2 ; . . . ; y m ) T \mathbf{y}=(y_1;y_2;...;y_m)^T y=(y1;y2;...;ym)T,于是
E w ^ = ∑ i = 0 m ( y i − y i ^ ) 2 = ( y − X w ^ ) T ( y − X w ^ ) (详细过程见附录1.3) E_{\hat{w}} = \sum_{i=0}^{m}(y_i-\hat{y_i})^2 \\ =(\mathbf{y} -X\hat{w})^{T}(\mathbf{y} - X\hat{w}) \\ \text{\scriptsize{(详细过程见附录1.3)}} Ew^=i=0m(yiyi^)2=(yXw^)T(yXw^)(详细过程见附录1.3)
现在的目标是求 E w ^ E_{\hat{w}} Ew^的最小值,利用矩阵求导的知识,得到
∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) = 2 X T ( y ^ − y ) (详细过程见附录1.4) \frac{\partial E_{\hat{w}}}{\partial \hat{w}} = 2 X^T (X \hat{w} - \mathbf{y}) =2X^T (\mathbf{\hat{y}} - \mathbf{y}) \\ \text{\scriptsize{(详细过程见附录1.4)}} w^Ew^=2XT(Xw^y)=2XT(y^y)(详细过程见附录1.4)
令上式为0可得 w ^ \hat{w} w^最优的闭式解,,但由于涉及矩阵逆的运算,会变得比较复杂,下面我们做一个简单讨论。当 X T X X^{T}X XTX为满秩矩阵或正定矩阵时,可得
w ^ = ( X T X ) − 1 X T y \mathbf{\hat{w}} = (\mathbf{X^T} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} w^=(XTX)1XTy
但是,现实任务中 X T X X^{T}X XTX往往不是满秩矩阵。例如在许多任务中我们会遇到大量的变量,导致 X X X的列数多于行数,此时能解出多个 w ^ \hat{w} w^,它们均能使均方误差最小,这时我们如何选择呢,常见的方法是引入正则化(Regularization)



正则化

为什么引入正则化

我们考虑这种情况下面这种情况
请添加图片描述
我们得到的模型确实经过了所有的点,E也是最小的,但这是我们想要的结果吗,答案是否定的,因为它在训练数据上表现太好,它的泛化能力太差,一但遇到不同于训练数据的点,它的结果会非常差,此时我们需要增加一个增加惩罚项来防止过拟合,这样学得模型(即所对应的 w ^ \hat{w} w^)才是我们想要的,这个添加惩罚因子的方式就是正则化

L 1 L^1 L1 L 2 L^2 L2正则化

我们首先讲一下矩阵的范数,假设 x \mathbf{x} x是一个向量,它的 L p L^{p} Lp范数定义为
∣ ∣ x ∣ ∣ p = ( ∑ i ( x i ) p ) 1 p ||\mathbf{x}||_p = (\sum_i(x_i)^p)^\frac{1}{p} ∣∣xp=(i(xi)p)p1
p=1时为 L 1 L_1 L1范数,p=2时为 L 2 L_2 L2范数,在目标函数后添加一个系数的惩罚项时正则化的常用方式,为了防止系数过大让模型复杂,添加正则化项之后的目标函数为
KaTeX parse error: Got function '\hat' with no arguments as subscript at position 10: \bar{E}_\̲h̲a̲t̲{w} = E_\hat{w}…
L 1 L^1 L1正则化化时对应的为 L 1 L_1 L1范数, L 2 L^2 L2正则化时对应为 L 2 L_2 L2范数,那么这这两个正则化有什么作用呢,如下图, L 1 , L 2 L^1,L^2 L1,L2正则项的图分别是一个矩形和圆形
接着我们将我们把代价函数(包括正则项)整个画出来,可以直观的理解为,我们最小化损失函数就是求蓝圈+红圈的和的最小值,而这个值通在很多情况下是两个曲面相交的地方。
请添加图片描述
L 1 L^1 L1正则化的作用是使得大部分模型参数的值等于0,这样一来,当模型训练好后,这些权值等于0的特征可以省去,可以方便选出重要的属性特征

L 2 L^2 L2正则化对于绝对值较大的权重予以很重的惩罚,对于绝对值很小的权重予以非常非常小的惩罚,当权重绝对值趋近于0时,基本不惩罚,对于绝对值大的权重予以很重的惩罚,可以避免权重过重导致过拟合

因此 L 1 L^1 L1正则化适用于特征选择, L 2 L^2 L2正则化适用于防止模型过拟合

梯度下降

对于计算机,它不能直接算出 ∂ E ^ ∂ w ^ = 0 \frac{\partial \hat{E}}{\partial \hat{w}} = 0 w^E^=0的值,因此我们需要一种方法使得计算机能够找到最优解,这时我们就需要使用梯度下降的方法

什么是梯度下降

梯度就是导数,梯度下降法就是一种通过求目标函数的导数来寻找目标函数最小化的方法。梯度下降目的是找到目标函数最小化时的取值所对应的自变量的值,在实现上,常常使用迭代法,即从一个初始点开始,反复使用某种规则从移动到下一个点,构造这样一个数列,直到收敛到梯度为0的点处

我们假设这样一个场景,假设我们在山上,想要最快速度下山(我们工具齐全,不会摔死),但是我们只能看到眼前的路,无法看到之后的路,那么想要快速下山,我们就要以当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着山的高度下降的方向走,然后每走一段距离,都反复采用同一个方法,最后就能成功的抵达山谷
请添加图片描述
我们每走一步,就要重新查看当前最陡峭的方向是哪,如果走一步测一次,这样分成麻烦,我们可以走一段距离再测一次,但这样有可能会错过比较好的下山路径,这是两难的选择,如果测量的频繁,可以保证下山的方向是绝对正确的,但又非常耗时,如果测量的过少,又有偏离轨道的风险。所以需要找到一个合适的测量方向的频率(多久测量一次),来确保下山的方向不错误,同时又不至于耗时太多,在算法中我们成为步长
请添加图片描述

算法上的体现

首先,根据数学中方向导数的知识, f ( x , y ) f(x,y) f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处沿方向 e l = ( c o s α , c o s β ) e_l=(cosα,cosβ) el=(cosα,cosβ)的方向导数为:
∂ z ∂ l = ∣ ∇ f ( x 0 , y 0 ) ∣ cos ⁡ θ (详细过程见附录1.5) \frac{\partial z}{\partial l} = |\nabla f(x_0, y_0)| \cos \theta \\ \text{\scriptsize{(详细过程见附录1.5)}} lz=∣∇f(x0,y0)cosθ(详细过程见附录1.5)
为了使目标函数达到局部最小值,只需要沿着这个向量的反方向进行迭代就可以,即在每次迭代中,令:
w ^ 1 = w ^ 1 − α ∂ E ( w ^ ) ∂ w ^ 1 , w ^ 2 = w ^ 2 − α ∂ E ( w ^ ) ∂ w ^ 2 , ⋮ w ^ m = w ^ m − α ∂ E ( w ^ ) ∂ w ^ m . \begin{align*} \hat{w}_1 &= \hat{w}_1 - \alpha \frac{\partial E(\hat{w})}{\partial \hat{w}_1}, \\ \hat{w}_2 &= \hat{w}_2 - \alpha \frac{\partial E(\hat{w})}{\partial \hat{w}_2}, \\ &\vdots \\ \hat{w}_m &= \hat{w}_m - \alpha \frac{\partial E(\hat{w})}{\partial \hat{w}_m}. \end{align*} w^1w^2w^m=w^1αw^1E(w^),=w^2αw^2E(w^),=w^mαw^mE(w^).

附录

(1.1)
b = y ˉ − w x ˉ w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i = 0 ( 带入   b = y ˉ − w x ˉ ) w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − ( y ˉ − w x ˉ ) ) x i = 0 w ∑ i = 1 m x i 2 − ∑ i = 1 m y i x i + ∑ i = 1 m x i y ˉ − ∑ i = 1 m w x ˉ x i = 0 w ( ∑ i = 1 m x i 2 − ∑ i = 1 m x ˉ x i ) = ∑ i = 1 m y i x i − ∑ i = 1 m x i y ˉ w = ∑ i = 1 m y i x i − ∑ i = 1 m x i y ˉ ∑ i = 1 m x i 2 − ∑ i = 1 m x ˉ x i ( y ˉ = 1 m ∑ i = 1 m y i , x ˉ = 1 m ∑ i = 1 m x i ) w = ∑ i = 1 m y i x i − ∑ i = 1 m x i 1 m ∑ i = 1 m y i ∑ i = 1 m x i 2 − ∑ i = 1 m x i 1 m ∑ i = 1 m x i w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 \begin{align*} b &= \bar{y} - w\bar{x} \\ w \sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} (y_i - b) x_i &= 0 \quad \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad (\text{带入} \, b = \bar{y} - w\bar{x}) \\ w \sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} \left(y_i - (\bar{y} - w\bar{x})\right) x_i &= 0 \\ w \sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} y_i x_i + \sum_{i=1}^{m} x_i \bar{y} - \sum_{i=1}^{m} w \bar{x} x_i &= 0 \\ w \left(\sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} \bar{x} x_i\right) &= \sum_{i=1}^{m} y_i x_i - \sum_{i=1}^{m} x_i \bar{y} \\ w &= \frac{\sum_{i=1}^{m} y_i x_i - \sum_{i=1}^{m} x_i \bar{y}}{\sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} \bar{x} x_i} \quad \left(\bar{y} = \frac{1}{m} \sum_{i=1}^{m} y_i , \bar{x} = \frac{1}{m} \sum_{i=1}^{m} x_i \right) \\ w &= \frac{\sum_{i=1}^{m} y_i x_i - \sum_{i=1}^{m} x_i \frac{1}{m} \sum_{i=1}^{m} y_i}{\sum_{i=1}^{m} x_i^2 - \sum_{i=1}^{m} x_i \frac{1}{m} \sum_{i=1}^{m} x_i} \\ w &= \frac{\sum_{i=1}^{m} y_i (x_i - \bar{x})}{\sum_{i=1}^{m} x_i^2 - \frac{1}{m} \left(\sum_{i=1}^{m} x_i\right)^2} \end{align*} bwi=1mxi2i=1m(yib)xiwi=1mxi2i=1m(yi(yˉwxˉ))xiwi=1mxi2i=1myixi+i=1mxiyˉi=1mwxˉxiw(i=1mxi2i=1mxˉxi)www=yˉwxˉ=0(带入b=yˉwxˉ)=0=0=i=1myixii=1mxiyˉ=i=1mxi2i=1mxˉxii=1myixii=1mxiyˉ(yˉ=m1i=1myi,xˉ=m1i=1mxi)=i=1mxi2i=1mxim1i=1mxii=1myixii=1mxim1i=1myi=i=1mxi2m1(i=1mxi)2i=1myi(xixˉ)


(1.2)
y ^ = X w ^ ( y 1 ^ y 2 ^ ⋮ y m ^ ) = ( x 11 x 12 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d 1 ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 ⋯ x m d 1 ) ( w 1 ^ w 2 ^ w 3 ^ ⋮ w m ^ b ) ( y 1 ^ y 2 ^ ⋮ y m ^ ) = ( w 1 ^ x 11 + w 2 ^ x 12 + w 3 ^ x 13 + . . . + w d ^ x 1 d + b w 1 ^ x 21 + w 2 ^ x 22 + w 3 ^ x 23 + . . . + w d ^ x 2 d + b ⋮ w 1 ^ x m 1 + w 2 ^ x m 2 + w 3 ^ x m 3 + . . . + w d ^ x m d + b ) \begin{align*} \mathbf{\hat{y}} &= X \hat{w} \\ \begin{pmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{pmatrix} &= \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{pmatrix}\begin{pmatrix} \hat{w_1} \\ \hat{w_2} \\ \hat{w_3} \\ \vdots \\ \hat{w_m} \\ b \end{pmatrix}\\ \begin{pmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{pmatrix} &= \begin{pmatrix} \hat{w_1}x_{11} + \hat{w_2}x_{12} + \hat{w_3}x_{13} + ... + \hat{w_d}x_{1d} +b \\ \hat{w_1}x_{21} + \hat{w_2}x_{22} + \hat{w_3}x_{23} + ... + \hat{w_d}x_{2d} +b \\ \vdots \\ \hat{w_1}x_{m1} + \hat{w_2}x_{m2} + \hat{w_3}x_{m3} + ... + \hat{w_d}x_{md} +b \\ \end{pmatrix} \end{align*} y^ y1^y2^ym^ y1^y2^ym^ =Xw^= x11x21xm1x12x22xm2x1dx2dxmd111 w1^w2^w3^wm^b = w1^x11+w2^x12+w3^x13+...+wd^x1d+bw1^x21+w2^x22+w3^x23+...+wd^x2d+bw1^xm1+w2^xm2+w3^xm3+...+wd^xmd+b


(1.3)
( y − X w ^ ) T ( y − X w ^ ) = ( y − y ^ ) T ( y − y ^ ) = ( ( y 1 y 2 ⋮ y m ) − ( y 1 ^ y 2 ^ ⋮ y m ^ ) ) T ( ( y 1 y 2 ⋮ y m ) − ( y 1 ^ y 2 ^ ⋮ y m ^ ) ) = ( y 1 − y 1 ^ y 2 − y 2 ^ ⋯ y m − y m ^ ) ( y 1 − y 1 ^ y 2 − y 2 ^ ⋮ y m − y m ^ ) = ( y 1 − y 1 ^ ) 2 + ( y 2 − y 2 ^ ) 2 + ⋯ + ( y 2 m − y m ^ ) 2 = ∑ i = 0 m ( y i − y i ^ ) 2 \begin{align*} (\mathbf{y} -X\hat{w})^{T}(\mathbf{y} - X\hat{w}) &= (\mathbf{y}- \mathbf{\hat{y}})^T( \mathbf{y}- \mathbf{\hat{y}}) \\ &= (\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix} -\begin{pmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{pmatrix} )^T (\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix} -\begin{pmatrix} \hat{y_1} \\ \hat{y_2} \\ \vdots \\ \hat{y_m} \end{pmatrix}) \\ &= \begin{pmatrix} y_1 - \hat{y_1} & y_2 - \hat{y_2} & \cdots & y_m - \hat{y_m} \end{pmatrix} \begin{pmatrix} y_1 - \hat{y_1} \\ y_2 - \hat{y_2} \\ \vdots \\ y_m - \hat{y_m} \end{pmatrix} \\ &= (y_1 - \hat{y_1})^2+(y_2 - \hat{y_2})^2+\cdots+(y_2m- \hat{y_m})^2 \\ &= \sum_{i=0}^{m}(y_i-\hat{y_i})^2 \end{align*} (yXw^)T(yXw^)=(yy^)T(yy^)=( y1y2ym y1^y2^ym^ )T( y1y2ym y1^y2^ym^ )=(y1y1^y2y2^ymym^) y1y1^y2y2^ymym^ =(y1y1^)2+(y2y2^)2++(y2mym^)2=i=0m(yiyi^)2


(1.4)
( y − X w ^ ) T ( y − X w ^ ) = y T y − y T X w ^ − w ^ T X T y + w ^ T X T X w ^ 注意 y T X w ^ , w ^ T X T y 为标量,标量的转置为自身 故 w ^ T X T y = ( w ^ T X T y ) T = y T X w ^ ( y − X w ^ ) T ( y − X w ^ ) = y T y − 2 y T X w ^ + w ^ T X T X w ^ ∂ y T y ∂ w ^ = 0 ∂ 2 y T X w ^ ∂ w ^ = 2 X T y ∂ w ^ T X T X w ^ ∂ w ^ = 2 X T X w ^ ∂ E w ^ ∂ w ^ = − 2 X T y + 2 X T X w ^ = 2 X T ( X w ^ − y ) = 2 X T ( y ^ − y ) \begin{align*} (\mathbf{y} -X\hat{w})^{T}(\mathbf{y} - X\hat{w}) &= \mathbf{y}^T \mathbf{y} - \mathbf{y}^T \mathbf{X} \mathbf{\hat{w}} - \mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{y} + \mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}} \\ 注意\mathbf{y}^T \mathbf{X} \mathbf{\hat{w}},\mathbf{\hat{w}}^T & \mathbf{X}^T \mathbf{y}为标量,标量的转置为自身 \\ 故\mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{y} &=(\mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{y})^T = \mathbf{y}^T \mathbf{X} \mathbf{\hat{w}} \\ (\mathbf{y} -X\hat{w})^{T}(\mathbf{y} - X\hat{w}) &= \mathbf{y}^T \mathbf{y} - 2 \mathbf{y}^T \mathbf{X} \mathbf{\hat{w}} + \mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}} \\ \frac{\partial \mathbf{y}^T \mathbf{y}}{\partial \hat{w}} &= 0 \\ \frac{\partial 2 \mathbf{y}^T \mathbf{X} \mathbf{\hat{w}}}{\partial \hat{w}} &= 2 \mathbf{X}^T \mathbf{y}\\ \frac{\partial \mathbf{\hat{w}}^T \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}}}{\partial \hat{w}} &= 2 \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}} \\ \frac{\partial E_{\hat{w}}}{\partial \hat{w}} &= - 2 \mathbf{X}^T \mathbf{y} + 2 \mathbf{X}^T \mathbf{X} \mathbf{\hat{w}} = 2 \mathbf{X}^T ( \mathbf{X} \mathbf{\hat{w}}- \mathbf{y})= 2 \mathbf{X}^T (\mathbf{\hat{y}-\mathbf{}y}) \end{align*} (yXw^)T(yXw^)注意yTXw^w^Tw^TXTy(yXw^)T(yXw^)w^yTyw^2yTXw^w^w^TXTXw^w^Ew^=yTyyTXw^w^TXTy+w^TXTXw^XTy为标量,标量的转置为自身=(w^TXTy)T=yTXw^=yTy2yTXw^+w^TXTXw^=0=2XTy=2XTXw^=2XTy+2XTXw^=2XT(Xw^y)=2XT(y^y)


∂ z ∂ l = lim ⁡ ρ → 0 + f ( x 0 + ρ cos ⁡ α , y 0 + ρ cos ⁡ β ) − f ( x 0 , y 0 ) ρ = f x ( x 0 , y 0 ) cos ⁡ α + f y ( x 0 , y 0 ) cos ⁡ β = ( f x ( x 0 , y 0 ) , f y ( x 0 , y 0 ) ) ⋅ e l = ∣ ∇ f ( x 0 , y 0 ) ∣ cos ⁡ θ \begin{align*} \frac{\partial z}{\partial l} &= \lim_{\rho \to 0^+} \frac{f(x_0 + \rho \cos \alpha, y_0 + \rho \cos \beta) - f(x_0, y_0)}{\rho} \\ &= f_x(x_0, y_0) \cos \alpha + f_y(x_0, y_0) \cos \beta \\ &= (f_x(x_0, y_0), f_y(x_0, y_0)) \cdot \mathbf{e}_l \\ &= |\nabla f(x_0, y_0)| \cos \theta \\ \end{align*} lz=ρ0+limρf(x0+ρcosα,y0+ρcosβ)f(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ=(fx(x0,y0),fy(x0,y0))el=∣∇f(x0,y0)cosθ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/899513.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

面试官:Zabbix 和 Prometheus 到底怎么选?

新公司要上监控,面试提到了 Prometheus 是公司需要的监控解决方案,我当然是选择跟风了。 之前主要做的是 Zabbix,既然公司需要 Prometheus,那没办法,只能好好对比一番,了解下,毕竟技多不压身。…

家庭宽带的ip地址是固定的吗?宽带ip地址怎么修改‌

在家庭网络环境中,IP地址的分配和管理是用户常关注的问题。本文将探讨家庭宽带IP地址的固定性,并介绍如何修改宽带IP地址,以满足用户的不同需求。 一、家庭宽带的IP地址是否固定? 关于家庭宽带的IP地址是否固定,答案并非一概而论…

Could not find artifact cn.hutool:hutool-all:jar:8.1 in central 导入Hutool报错

<!-- https://mvnrepository.com/artifact/cn.hutool/hutool-all --><dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.9</version></dependency> 引入hutool 8.1版本的工具…

采用 Redis+数据库为建立线上药品销售系统

目录 案例 【说明】 【问题1】(9分) 【问题2】(9分) 【问题3】(7 分) 【答案】 【问题1】答案 【问题2】答案 【问题3】答案 相关推荐 案例 阅读以下关于数据库设计的叙述&#xff0c;回答问题 1 至问题 3 。 【说明】 某医药销售企业因业务发展&#xff0c;需要建立…

Windows图形界面(GUI)-QT-C/C++ - QT基本概念 - 安装配置 - QT Creator

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 目录 QT 基本概念 QT 安装配置 QT Creator 界面布局 快捷操作 QT 基本概念 QT 简介 QT是一个跨平台的C图形用户界面应用程序开发框架。 QT支持多种操作系统&#xff0c;包括Windows、Lin…

2024年必收藏!最全 禅道 项目管理软件各版本安装部署全攻略

一、禅道简介 1. 禅道是什么&#xff1f;功能强大的项目管理软件。 禅道是一款专业的国产开源研发项目管理软件&#xff0c;集产品管理、项目管理、质量管理、文档管理、组织管理和事务管理于一体&#xff0c;完整覆盖了研发项目管理的核心流程。 管理思想基于国际流行的敏捷…

Ovis: 多模态大语言模型的结构化嵌入对齐

论文题目&#xff1a;Ovis: Structural Embedding Alignment for Multimodal Large Language Model 论文地址&#xff1a;https://arxiv.org/pdf/2405.20797 github地址&#xff1a;https://github.com/AIDC-AI/Ovis/?tabreadme-ov-file 今天&#xff0c;我将分享一项重要的研…

咸鱼自动发货 免费无需授权

下载&#xff1a;&#xff08;两个都可以下&#xff0c;自己选择&#xff09; https://pan.quark.cn/s/1e3039e322ad https://pan.xunlei.com/s/VO9ww89ZNkEg_Fq1wRr-fk9ZA1?pwd8x9s# 不是闲管家 闲鱼自动发货&#xff08;PC端&#xff09; 暂不支持密&#xff0c;免费使…

论文阅读与写作入门

文章目录 1.阅读第一篇论文(1)论文结构(2)目标 2.使用GPT辅助论文的阅读与写作3.专有名词(1)架构(2)网络(3)机器学习 4.文献翻译软件5.如何判断(你自己的)研究工作的价值or贡献【论文精读李沐】6.经典论文(1)AlexNet 2012(2)FCN 全卷积 2014(3)ResNet&#xff1a;残差学习&…

【Spring篇】Spring的Aop详解

&#x1f9f8;安清h&#xff1a;个人主页 &#x1f3a5;个人专栏&#xff1a;【计算机网络】【Mybatis篇】【Spring篇】 &#x1f6a6;作者简介&#xff1a;一个有趣爱睡觉的intp&#xff0c;期待和更多人分享自己所学知识的真诚大学生。 目录 &#x1f3af;初始Sprig AOP及…

通过运行窗口呼出Windows功能的快捷命令集合

平时使用电脑需要快速调出Windows的一些功能设置&#xff0c;你们是怎么样操作的呢&#xff1f;今天给大家归集一些通过运行窗口快速调出Windows功能的快捷命令&#xff0c;供朋友们参考。示例如下图&#xff0c;各个功能命令集合见表格.

Python实现贪吃蛇大作战

初始版本 初始版本&#xff0c;只存在基本数据结构——双向队列。 游戏思路 贪吃蛇通过不断得吃食物来增长自身&#xff0c;如果贪吃蛇碰到边界或者自身则游戏失败。 食物是绿色矩形来模拟&#xff0c;坐标为随机数生成&#xff0c;定义一个蛇长变量&#xff0c;判断蛇头坐标和…

需求分析基础指南:从零开始理解需求分析

目录 从零开始理解需求分析什么是需求分析&#xff1f;需求分析的目标需求分析的基本原则需求分析的各个阶段需求分析的常用方法和工具编写需求文档总结 从零开始理解需求分析 需求分析是软件开发过程中不可或缺的一环&#xff0c;它帮助我们明确用户的需求&#xff0c;确保最…

养殖场大型全自动饲料颗粒加工机械设备

随着养殖业的快速发展&#xff0c;对饲料加工设备的需求也日益增长。全自动饲料颗粒机作为现代养殖场的重要制粒设备&#xff0c;其自动化、高效化和智能化特点&#xff0c;不仅提高了饲料生产效率&#xff0c;还保障了饲料质量&#xff0c;为养殖业的可持续发展提供了有力支持…

关于jmeter中没有jp@gc - response times over time

1、问题如下&#xff1a; jmeter没有我们要使用的插件 2、解决方法&#xff1a; 选择下面文件&#xff0c;点击应用&#xff1b; 3、问题解决 ps&#xff1a;谢谢观看&#xff01;&#xff01;&#xff01;

【AIGC】AI如何匹配RAG知识库:混合检索

混合搜索 引言单检索的局限性单检索例子 混合检索拆解实现完整代码 总结 引言 RAG作为减少模型幻觉和让模型分析、回答私域相关知识最简单高效的方式&#xff0c;我们除了使用之外可以尝试了解其是如何实现的。在实现RAG的过程中&#xff0c;最重要的是保证召回的知识的准确性…

红日靶场(三)1、环境介绍及环境搭建

1、靶场介绍 红日靶场03是一个用于安全测试和渗透测试的虚拟化环境&#xff0c;可以帮助用户通过模拟攻击和防御场景来提升网络安全技能。该靶场包含了多个虚拟机和网络配置&#xff0c;用户可以在其中进行各种安全测试活动&#xff0c;如信息收集、漏洞利用、权限提升等。 2…

npm install node-sass安装失败

需求&#xff1a;搭建前端开发环境时&#xff0c;npm install报错&#xff0c;错误提示安装node_modules时&#xff0c;node-sass依赖包安装失败&#xff0c;网上找了好久解决方法&#xff0c;大家提示采用淘宝源等方式安装&#xff0c;都失败了了&#xff0c;尝试了很久终于找…

BUUCTF 之Basic 1(BUU BRUTE 11)

今天我们继续BUUCTF之Basic 1的第二关卡。 1、老规矩&#xff0c;进入地址BUUCTF在线评测 (buuoj.cn)打开对应靶场进行启动&#xff0c;会看一个页面&#xff0c;就代表启动成功。 首先分析一下&#xff0c;看到这个页面我们就可以得出是爆破的题目&#xff0c;常用于登陆&am…