学习记录之数学表达式(5)

文章目录

  • 十、线性回归
    • 10.1 示例
    • 10.2 拟合
    • 10.3 推导
    • 10.4 岭回归
    • 10.5 作业
  • 十一、Logistic回归
    • 11.1 分割超平面
    • 11.2 点到直线的距离
    • 11.3 sigmoid函数
    • 11.4 优化目标
    • 11.5 求解
    • 11.6 作业

十、线性回归

  线性回归是一个常用的机器学习算法;

10.1 示例

  • 表 1.单变量的股价预测
时间(天)股价
110
211
3?

  令 x 表示第 x 天, y = f ( x ) y=f(x) y=f(x) 表示第 x 天的股价,由此建立线性模型:
y = f ( x ) = a x + b y = f(x) = ax + b y=f(x)=ax+b
  求系数 a 和 b.
解:
{ 10 = 1 a + b 11 = 2 a + b ⇒ { a = 1 b = 9 ⇒ f ( x ) = x + 9 \left\{ \begin{matrix} 10 = 1a + b \\ 11 = 2a + b \end{matrix} \right. \Rightarrow \left\{ \begin{matrix} a = 1 \\ b = 9 \end{matrix} \right. \Rightarrow f(x) = x + 9 {10=1a+b11=2a+b{a=1b=9f(x)=x+9
  源码为:\left{ \begin{matrix} 10 = 1a + b \ 11 = 2a + b \end{matrix} \right. \Rightarrow \left{ \begin{matrix} a = 1 \ b = 9 \end{matrix} \right. \Rightarrow f(x) = x + 9;
  将 x = 3 带入,可以预测第 3 天的股价为 12 元;

  • 表 2.多变量的股价预测
时间(天)外围股指股价
12500010
22550011
32560011.4
425800

  令 x 1 x_1 x1 表示时间, x 2 x_2 x2 表示外围股数, y y y 表示股价,由此建立线性模型:
y = f ( x 1 , x 2 ) = a 1 x 1 + a 2 x 2 + b (1) y = f(x_1,x_2) = a_1x_1 + a_2x_2 + b \tag{1} y=f(x1,x2)=a1x1+a2x2+b(1)
  由于有三个变量 a 1 , a 2 , b a_1,a_2,b a1,a2,b,因此需要用三天的数据求得它们;
{ 10 = 1 a 1 + 25000 a 2 + b 11 = 2 a 1 + 25500 a 2 + b 11.4 = 3 a 1 + 25600 a 2 + b \left\{ \begin{matrix} 10 = 1a_1 + 25000a_2 + b \\ 11 = 2a_1 + 25500a_2 + b \\ 11.4 = 3a_1 + 25600a_2 + b \end{matrix} \right. 10=1a1+25000a2+b11=2a1+25500a2+b11.4=3a1+25600a2+b
  然后就可以对第 4 天的股价进行预测;
  但是当自变量(属性)较多时,这样写太麻烦;
  因此可以将第 i 天的数据写成向量 x i = [ x i 1 , … , x i m ] \mathbf{x}_{i} = [x_{i1},\dots,x_{im}] xi=[xi1,,xim],相应的系数写为 w = [ w 1 , … , w m ] \mathbf{w} = [w_1,\dots,w_m] w=[w1,,wm],则(1)式可以修改为:
y i = x i w + b (2) y_i = \mathbf{x}_i\mathbf{w} + b \tag{2} yi=xiw+b(2)
  进一步地,扩展 x i = [ x i 0 , x i 1 , … , x i m ] \mathbf{x}_i = [x_{i0},x_{i1},\dots,x_{im}] xi=[xi0,xi1,,xim],其中 x i 0 ≡ 1 x_{i0} \equiv 1 xi01
  同时扩展 w = [ w 0 , w 1 , … , w m ] T \mathbf{w} = [w_0,w_1,\dots,w_m]^{\mathrm{T}} w=[w0,w1,,wm]T,其中 w 0 = b w_0 = b w0=b,则(2)式改写为:
y i = x i w (3) y_i = \mathbf{x}_{i} \mathbf{w} \tag{3} yi=xiw(3)
  该方案看起来很完美,但是在实际数据中, m m m 个属性远远不止 m + 1 m+1 m+1 条训练数据,因此需要更加复杂的方案;

10.2 拟合

  给定数据集 X = [ x i j ] n × ( m + 1 ) \mathbf{X} = [x_{ij}]_{n \times (m+1)} X=[xij]n×(m+1) 与其标签 Y = [ y 1 , … , y N ] T \mathbf{Y} = [y_1,\dots,y_N]^{\mathrm{T}} Y=[y1,,yN]T,线性回归的目的是获得一个系数向量 w \mathbf{w} w (它是 ( m + 1 ) × 1 (m+1)\times 1 (m+1)×1 列向量)使得 X w ≈ Y \mathbf{X} \mathbf{w} \approx \mathbf{Y} XwY,源码为:\mathbf{X} \mathbf{w} \approx \mathbf{Y};或者更为准确地说,是:
arg ⁡ w min ⁡ ∥ X w − Y ∥ 2 2 (4) \arg_{\mathbf{w}}\min \Vert \mathbf{X}_{\mathbf{w}} - \mathbf{Y} \Vert_{2}^{2} \tag{4} argwminXwY22(4)
  源码为:\arg_{\mathbf{w}}\min \Vert \mathbf{X}{\mathbf{w}} - \mathbf{Y} \Vert{2}^{2} \tag{4};
  注意:双竖线在Latex中需要换成 | 表示;另外,这里已经扩展了 X \mathbf{X} X w \mathbf{w} w
  表 2 所对应的:
X = [ 1 1 25000 1 2 25500 1 3 25600 ] \mathbf{X} = \left[ \begin{matrix} 1&1&25000 \\ 1&2&25500 \\ 1&3&25600 \end{matrix} \right] X= 111123250002550025600
  源码为:\mathbf{X} = \left[ \begin{matrix} 1&1&25000 \ 1&2&25500 \ 1&3&25600 \end{matrix} \right];
  分析:

  • 希望使用 ∑ j = 0 m x i j w j \sum_{j=0}^{m} x_{ij}w{j} j=0mxijwj 来拟合 y j y_j yj
  • 对于新的实例 x \mathbf{x} x ,则将 x w \mathbf{xw} xw 作为 y y y 的预测值;
  • X \mathbf{X} X w \mathbf{w} w 的维度分别为 n × ( m + 1 ) n \times (m + 1) n×(m+1) ( m + 1 ) × 1 (m+1)\times 1 (m+1)×1,因此其乘积的维度为 n × 1 n \times 1 n×1
  • 复习矩阵的乘法 A = U V \mathbf{A} = \mathbf{U}\mathbf{V} A=UV,则 a i j a_{ij} aij U \mathbf{U} U 的第 i i i 行与 U \mathbf{U} U j j j 行的乘积;

10.3 推导

  如何获得 w \mathbf{w} w ?
  推导过程:
∣ ∣ X w − Y ∣ ∣ 2 2 = ( X w − Y ) T ( X w − Y ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y \begin{array}{ll}||\mathbf{X} \mathbf{w} - \mathbf{Y}||_2^2 &= (\mathbf{X} \mathbf{w} - \mathbf{Y})^{\textrm{T}} (\mathbf{X} \mathbf{w} - \mathbf{Y})\\ &= (\mathbf{w}^{\textrm{T}} \mathbf{X}^{\mathrm{T}} - \mathbf{Y}^{\mathrm{T}}) (\mathbf{X} \mathbf{w} - \mathbf{Y})\\ &= \mathbf{w}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}}\mathbf{X} \mathbf{w} - \mathbf{w}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}}\mathbf{Y} - \mathbf{Y}^{\mathrm{T}}\mathbf{X} \mathbf{w}+\mathbf{Y}^{\mathrm{T}}\mathbf{Y} \end{array} ∣∣XwY22=(XwY)T(XwY)=(wTXTYT)(XwY)=wTXTXwwTXTYYTXw+YTY
  将该式关于 w \mathbf{w} w 求导(使用向量求导法则)并令其为0,可得:
  KaTeX parse error: Expected 'EOF', got '}' at position 80: …m{T}}\mathbf{Y}}̲ = 0
  最后: w = ( X T X ) − 1 X T Y \mathbf{w} = \left( \mathbf{X}^{\mathbf{T}} \mathbf{X} \right)^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y} w=(XTX)1XTY
  更多知识请点击:向量求导法则和线性回归与最小二乘法;

  • 注意:若公式需要对齐,在需要对齐的地方加&,并加换行符\

10.4 岭回归

  将优化目标改为:
arg ⁡ w min ⁡ ∥ X w − Y ∥ 2 2 + λ ∥ w ∥ 2 2 (5) \arg_{\mathbf{w}}\min \Vert \mathbf{X}_{\mathbf{w}} - \mathbf{Y} \Vert_{2}^{2} + \lambda \Vert \mathbf{w} \Vert_{2}^{2} \tag{5} argwminXwY22+λw22(5)
  源码为:\arg_{\mathbf{w}}\min \Vert \mathbf{X}{\mathbf{w}} - \mathbf{Y} \Vert{2}^{2} + \lambda \Vert \mathbf{w} \Vert_{2}^{2} \tag{5};
  可以推导出: X T X w − X T Y + λ w = 0 \mathbf{X}^{\mathrm{T}}\mathbf{X}\mathbf{w} - \mathbf{X}^{\mathrm{T}} \mathbf{Y} + \lambda\mathbf{w} = 0 XTXwXTY+λw=0
  最后: w = ( X T X + λ I ) − 1 X T Y \mathbf{w} = \left( \mathbf{X}^{\mathrm{T}}\mathbf{X} + \lambda \mathbf{I}\right)^{-1} \mathbf{X}^{\mathrm{T}}\mathbf{Y} w=(XTX+λI)1XTY

10.5 作业

  • 写一个小例子 ( n = 3 , m = 1 ) \left( n=3,m=1 \right) (n=3,m=1) 来验证最小二乘法;

首先解释一下m与n的含义:
  在最小二乘法中,n通常表示数据点的数量。可以理解为:在拟合一条直线或者更高层次的多项式到一组数据点时,n代表拥有的观测值(即数据点)的数量。
  若有一组(x,y)的数据,那么n表示数据点的数量,等于数组x和y的长度。
x: [x1, x2, x3, ..., xn] y: [y1, y2, y3, ..., yn]
在最小二乘法的计算中,需要使用所有n个数据点来计算残差平方和,并找到使这个和最小的参数值(如直线的斜率和截距)。这些参数通过最小化残差平方和(即每个数据点的预测值与实际观测值之间的差的平方和)来确定。

  因此,在上述例子中,n=3, m=1,这里的 n=3 表示有三个数据点,而 m=1 表示正在拟合的直线的斜率被固定为1(在该特定例子中,我们只需要找到截距即可)。

  • 假设有以下三个数据点:
  • x: [1, 2, 3] y: [2, 3, 5]
  • 由于m=1,因此直线假设为y=x+b。最小二乘法的目标是找到使以下残差平方和最小的 b 值: S ( b ) = ∑ i = 1 n ( y i − ( x i + b ) ) 2 S(b) = \sum_{i=1}{n} (y_i - (x_i + b))^2 S(b)=i=1n(yi(xi+b))2
  • 将三组(x,y)代入得: S ( b ) = ( 2 − ( 1 + b ) ) 2 + ( 3 − ( 2 + b ) ) 2 + ( 5 − ( 3 + b ) ) 2 S(b) = (2 - (1 + b))^2 + (3 - (2 + b))^2 + (5 - (3 + b))^2 S(b)=(2(1+b))2+(3(2+b))2+(5(3+b))2
  • 化解可得: S ( b ) = 3 b 2 − 8 b + 6 S(b) = 3b^2 - 8b + 6 S(b)=3b28b+6
  • 为找到S(b)的最小值,对S(b)关于b求导并令其等于0
  • 解得: b = 4 3 b=\frac{4}{3} b=34
  • 将b值代入直线可得: y = x + 4 3 y = x + \frac{4}{3} y=x+34 3 y = 3 x + 4 3y = 3x + 4 3y=3x+4

十一、Logistic回归

  logistic回归用于分类,特别是二分类(仅有两个类别)。

11.1 分割超平面

  • 线性分类模型的目标,是找到一个超平面,把正例、负例分割;
  • 问题:如何评价每个超平面的性能?
  • 方案之一,是最小化错分对象的数量,但如果多个超平面都有满足条件怎么办?
  • 哪个超平面是最优的,就体现不同算法的设计理念;
  • 方案之二,就是根据每个对象到超平面的距离,来计算损失;如果分类正确,则离超平面越远越好;如果错误分类,则离超平面越近越好;
    在这里插入图片描述
图11.1 分割超平面

11.2 点到直线的距离

  • m \mathbf{m} m 维空间上, m \mathbf{m} m 维向量 w \mathbf{w} w 确定了一条直线;
  • 为方便起见,令 w \mathbf{w} w 为列向量;
  • x \mathbf{x} x w \mathbf{w} w 的距离为 x w \mathbf{xw} xw
  • 这个距离带符号,正号代表 x \mathbf{x} x w \mathbf{w} w 的某一边,负号则表示另一边;
  • 参见《高等数学》;

11.3 sigmoid函数

在这里插入图片描述

  • x \mathbf{x} x 到超平面的距离(带符号)取值范围为: ( − ∞ , + ∞ ) \left( -\infty , +\infty \right) (,+),希望将其转成概率;
  • 如果距离为负而且离超平面很远,则它为正例的概率就接近0;
  • 如果距离为正而且离超平面很远,则它为正例的概率就接近1;
  • 使用sigmoid函数将距离转换为(我们以为的)概率;

P ( y = 1 ∣ x ; w ) = 1 1 + e − x w (1) P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}} \tag{1} P(y=1∣x;w)=1+exw1(1)
  源码为:P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}};

11.4 优化目标

  • 统一 y i \mathbf{y}_{i} yi 不同取值(0或1):
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i (2) P\left( \mathbf{y}_{i} \vert \mathbf{x}_{i} ; \mathbf{w} \right) = P\left( \mathbf{y}_{i} =1 \vert \mathbf{x}_{i} ; \mathbf{w} \right)^{\mathbf{y}_{i}} \left( 1-P\left( \mathbf{y}_{i}=1 \vert \mathbf{x}_{i}; \mathbf{w} \right) \right)^{1-\mathbf{y}_{i}} \tag{2} P(yixi;w)=P(yi=1∣xi;w)yi(1P(yi=1∣xi;w))1yi(2)
    显然,这个概率越大越好;
    要针对全部对象进行优化,可将相应的概率相乘(最大似然,maximal likelihood):
    arg ⁡ w max ⁡ L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) (3) \arg_{\mathbf{w}}\max \mathrm{L}(\mathbf{w}) = \prod_{i=1}^{n} P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \tag{3} argwmaxL(w)=i=1nP(yixi;w)(3)

11.5 求解

  相乘计算困难,将其求一个对数,不改变单调性:
log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) (4) \begin{aligned} \log L(\mathbf{w}) &= \sum_{i=1}^{n} \log P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w}) + (1-\mathbf{y}_{i}) \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log \frac{P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}{1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}+ \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \mathbf{x}_{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}}) \end{aligned} \tag{4} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1∣xi;w)+(1yi)log(1P(yi=1∣xi;w))=i=1nyilog1P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1P(yi=1∣xi;w))=i=1nyixiwlog(1+exiw)(4)

  • 源码为:
    \begin{aligned} \log L(\mathbf{w})
    &= \sum_{i=1}^{n} \log P(\mathbf{y}{i} \vert \mathbf{x}{i};\mathbf{w}) \
    &= \sum_{i=1}^{n} \mathbf{y}{i} \log P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w}) + (1-\mathbf{y}{i}) \log(1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})) \
    &= \sum_{i=1}^{n} \mathbf{y}{i} \log \frac{P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})}{1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})}+ \log(1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})) \
    &= \sum
    {i=1}^{n} \mathbf{y}{i} \mathbf{x}{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}})
    \end{aligned} \tag{4}

  对 w \mathbf{w} w 求编导:
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i (5) \begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i=1}^{n}\mathbf{y}_{i} \mathbf{x}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_{i} \\ &= \sum_{i=1}^{n}\left(\mathbf{y}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}} \right) \mathbf{x}_{i} \end{aligned} \tag{5} wlogL(w)=i=1nyixi1+exiwexiwxi=i=1n(yi1+exiwexiw)xi(5)

  • 源码为:
    \begin{aligned}
    \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}
    &= \sum_{i=1}^{n}\mathbf{y}{i} \mathbf{x}{i} - \frac{e{\mathbf{x}_{i}\mathbf{w}}}{1+e{\mathbf{x}{i}\mathbf{w}}}\mathbf{x}{i} \
    &= \sum_{i=1}^{n}\left(\mathbf{y}{i} - \frac{e{\mathbf{x}_{i}\mathbf{w}}}{1+e{\mathbf{x}{i}\mathbf{w}}} \right) \mathbf{x}_{i}
    \end{aligned} \tag{5}

  令该偏导为0,无法获得解析式,因此用梯度下降:
w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w (6) \mathbf{w}^{t+1} = \mathbf{w}^{t} - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} \tag{6} wt+1=wtαwlogL(w)(6)

11.6 作业

  自己推导一遍,并描述这个方法的特点(不少于5条)

  推导过程如下:

  • m \mathbf{m} m维空间上,由点到直线的距离可得:点 x \mathbf{x} x m \mathbf{m} m维超平面上的 m \mathbf{m} m维向量 w \mathbf{w} w可确定一条直线,将 w \mathbf{w} w表示为列向量,则点 x \mathbf{x} x w \mathbf{w} w之间的距离为 x w \mathbf{xw} xw
  • 接着,使用Sigmoid激活函数将距离转换到0和1之间:若距离为负且离超平面很远,则输出接近0;若距离为正且离超平面远,则输出接近1。可表示为下述式子:
    P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}} P(y=1∣x;w)=1+exw1
  • 统一 y i \mathbf{y}_{i} yi 不同取值(0或1):
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i P\left( \mathbf{y}_{i} \vert \mathbf{x}_{i} ; \mathbf{w} \right) = P\left( \mathbf{y}_{i} =1 \vert \mathbf{x}_{i} ; \mathbf{w} \right)^{\mathbf{y}_{i}} \left( 1-P\left( \mathbf{y}_{i}=1 \vert \mathbf{x}_{i}; \mathbf{w} \right) \right)^{1-\mathbf{y}_{i}} P(yixi;w)=P(yi=1∣xi;w)yi(1P(yi=1∣xi;w))1yi
  • 显然,这个概率越大越好。要针对全部对象进行优化,可将相应的概率相乘:
    arg ⁡ w max ⁡ L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \arg_{\mathbf{w}}\max \mathrm{L}(\mathbf{w}) = \prod_{i=1}^{n} P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) argwmaxL(w)=i=1nP(yixi;w)
  • 简化求解:将其求一个对数,不改变单调性:
    log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) \begin{aligned} \log L(\mathbf{w}) &= \sum_{i=1}^{n} \log P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w}) + (1-\mathbf{y}_{i}) \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log \frac{P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}{1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}+ \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \mathbf{x}_{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}}) \end{aligned} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1∣xi;w)+(1yi)log(1P(yi=1∣xi;w))=i=1nyilog1P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1P(yi=1∣xi;w))=i=1nyixiwlog(1+exiw)
  • w \mathbf{w} w 求编导:
    ∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i \begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i=1}^{n}\mathbf{y}_{i} \mathbf{x}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_{i} \\ &= \sum_{i=1}^{n}\left(\mathbf{y}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}} \right) \mathbf{x}_{i} \end{aligned} wlogL(w)=i=1nyixi1+exiwexiwxi=i=1n(yi1+exiwexiw)xi
  • 令该偏导为0,无法获得解析式,因此用梯度下降:
    w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w \mathbf{w}^{t+1} = \mathbf{w}^{t} - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wtαwlogL(w)
  • 特点
    将损失用距离表示,并转换为概率;
    损失函数不同,得到的分类可能不同;
    使用对数相关公式对函数进行化解;
    y i \mathbf{y}_i yi的两种取值的不同情况用同一个式子表示出来;
    使用Sigmoid激活函数将距离转换到0和1之间,实现二分类;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/725042.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

格雷母线技术革新:推动斗轮堆取料机进入精准操作时代

随着工业4.0时代的到来,智能化、自动化已成为工业发展的必然趋势。特别是在港口、电力、冶金等行业中,散料装卸机械的智能化水平直接关系到整个生产流程的效率与安全。斗轮堆取料机作为这些行业中的关键设备,其操作方式的革新显得尤为重要。 …

Unity OpenCVForUnity 安装和第二个案例详解 <二>

目录 一、前言 二、场景介绍 1.WebCamTextureToMatExample脚本 2.FpsMonitor脚本 三、 结构体Scaler 四、找到相机并使用 1.相机的启用 2.格式转换 a.把webCamTexture转换成Mat b.把Mat转换成Texture2D 五、脚本组合 六、作者的碎碎念 一、前言 第二个案例&#xf…

leetcode (top100)盛最多水的容器

题目: 题解: 第一种可行的方案: 设置左指针指向第一条线,设置右指针指向最后一条线。每次向中间移动两条线中最短的一条,计算移动过程中最大接水量。 本题可以看出影响接水量的有两个因素,两条线的距离&…

空间复杂度的相关概念

1. 空间复杂度 空间复杂度(space complexity)用于衡量算法占用内存空间随着数据量变大时的增长趋势。 统计哪些空间: ● 暂存数据:用于保存算法运行过程中的各种常量、变量、对象等。 ● 栈帧空间:用于保存调用函数…

PyTorch -- RNN 快速实践

RNN Layer torch.nn.RNN(input_size,hidden_size,num_layers,batch_first) input_size: 输入的编码维度hidden_size: 隐含层的维数num_layers: 隐含层的层数batch_first: True 指定输入的参数顺序为: x:[batch, seq_len, input_size]h0:[batc…

Ubuntu 24.04安装zabbix7.0.0图形中文乱码

当zabbix安装完成后,设置中文界面时,打开图形,中文内容会显示方框乱码,是因为服务器字体中没有相关的中文字体,需要更换。 1、找到中文字体,可以在网络上下载《得意黑》开源字体,也可以在windo…

LeetCode322.零钱兑换(一)

LeetCode刷题记录 文章目录 📜题目描述💡解题思路⌨C代码 📜题目描述 给你一个整数数组 coins ,表示不同面额的硬币;以及一个整数 amount ,表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。…

SAP MIGO 050 BADI:字段 GOITEM-XXXXX 未准备好输出

背景: MIGO过账时候需要根据某些条件更改某些字段的值,当要改的字段在前台不显示时,通过MB_MIGO_BADI~LINE_MODIFY去更改时,则会出现以下报错:MIGO050 解决方案1: 通过配置将该字段配置显示出来即可&…

阿里云如何部署项目【2024 详细版】

首次注册阿里云后可以购买免费服务器,可以用服务器练习部署项目,这里以部署个人网站为例 本人目前没有购买域名,因此域名流程并没有写,有看不懂的私信或者评论就行,我都可以看见 目录 一、购买服务器 二、安装宝塔…

「Python-docx 专栏」docx设置罗马数字页码,即页码编码格式为罗马数字

本文目录 前言一、docx 设置罗马数字页码1、docx设置大写罗马数字的页码①、docx背后的xml长啥样②、<w:sectPr> 标签详解③、通过<w:sectPr> 设置大写罗马数字的页码A、完整代码B、处理效果图C、这段代码实际上的作用2、docx设置小写罗马数字的页码①、完整代码②…

vue3前端对接后端的图片验证码

vue3前端对接后端的图片验证码 <template> <image :src"captchaUrl" alt"图片验证码" click"refreshCaptcha"></image> </template><script setup>import {ref} from "vue";import {useCounterStore} …

vue 2.0

自定义vue标签指令&#xff1a; <!DOCTYPE html> <html lang"en"> <script src"vue.js"></script> <head><meta charset"UTF-8"><title>Title</title> </head> <body> <div id…

Prometheus告警Alertmanager部署

Prometheus告警Alertmanager部署 资源监控一般离不开预警&#xff0c;因为我们不可能每时每刻都盯着某个资源监控看&#xff0c;而且在实际的工作中当中我们搭建的解决方案涉及到的服务器是多台甚至数十台&#xff0c;所以更加不现实&#xff0c;因此资源告警是一个必不可少的…

3ds Max软件下载安装:3D建模软件 轻松开启你的建模之旅!

3ds Max&#xff0c;在建模过程中&#xff0c;网格建模和NURBS建模两大技术发挥着不可或缺的作用。网格建模允许用户通过顶点、边和面等元素的调整&#xff0c;精确地塑造出模型的形态&#xff1b;而NURBS建模则以其优秀的曲线和曲面处理能力&#xff0c;为设计师们提供了更为平…

ChinaTravel成流量密码,景区如何打造视频监控管理平台提升旅游体验

随着中国经济的飞速发展和人民生活水平的持续提高&#xff0c;旅游已经成为越来越多人休闲放松的首选方式。近期&#xff0c;随着互联网的普及和社交媒体的兴起&#xff0c;以及免签政策带火入境游&#xff0c;“ChinaTravel”已成为社交网络上的一大流量密码&#xff0c;吸引了…

1. ELK日志分析

ELK日志分析 一、ELK作用、组件1、作用2、核心组件2.1 beat软件2.1 Logstash2.2 Elasticsearch2.3 Kibana 二、ELK部署、测试1、环境规划2、确保SELinux关闭、时间同步3、所有主机添加主机名解析4、三台ES主机安装jdk 1.155、调整系统资源限制6、部署es集群6.1 创建普通用户elk…

AI口语练习APP的技术难点

AI口语练习APP旨在帮助用户练习口语&#xff0c;因此其核心功能是语音识别和语音评测。以下是一些AI口语练习APP的主要技术难点。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流合作。 1. 语音识别 语音识别是将语音信号转换为文本的过程。…

C++ —— unordered_set、unordered_map的介绍及使用

目录 unordered系列关联式容器 unordered_set的介绍 unordered_set的使用 unordered_set的定义方式 unordered_set接口的使用 unordered_multiset unordered_map的介绍 unordered_map的使用 unordered_map的定义方式 unordered_map接口的使用 unordered_multimap …

机器学习周记(第四十三周:MCformer)2024.6.10~2024.6.16

目录 摘要ABSTRACT1 论文信息1.1 论文标题1.2 论文摘要1.3 论文引言1.4 论文贡献 2 论文模型2.1 问题定义2.2 可逆实例归一化&#xff08;Reversible Instance Normalization&#xff09;2.3 混合通道块 &#xff08;Mixed-Channels Block&#xff09;2.4 编码器&#xff08;De…

安全可靠跨国传输的前提下,如何兼顾数据跨国快速传输?

在全球化的商业环境中&#xff0c;跨国公司在与国际客户、合作伙伴或海外分支机构进行数据跨国快速传输时&#xff0c;不可避免会遇到一系列挑战。比如网络延迟、数据包丢失、带宽限制以及数据安全和合规性问题&#xff0c;一定程度上都会影响数据传输的效率&#xff0c;业务的…