logistic回归多用于二分类问题。
文章目录
目的:给出x,当x满足条件时,y=1的概率是多少。
即
y
^
=
P
(
y
=
1
∣
x
)
,
x
∈
R
n
x
y
^
∈
[
0
,
1
]
\hat y=P(y=1|x),x \in R^{nx}\\ \hat y \in[0,1]
y^=P(y=1∣x),x∈Rnxy^∈[0,1]
方程: y ^ = σ ( ω T x + b ) \hat y =\sigma(\omega^Tx+b) y^=σ(ωTx+b)
参数: ω ∈ R n x 、 b ∈ R \omega\in R^{nx}、b\in R ω∈Rnx、b∈R
-
在线性规划中输出为
y ^ = ω T x + b \hat y =\omega^Tx+b y^=ωTx+b
但是 y ^ \hat y y^可能为大于1的数或负数,这样的概率无意义。 -
因此在logistic回归中,输出变为
y ^ = σ ( ω T x + b ) = σ ( z ) ω T x + b = z \hat y =\sigma(\omega^Tx+b)\\=\sigma(z)\\\omega^Tx+b=z y^=σ(ωTx+b)=σ(z)ωTx+b=z
其中 σ ( ) \sigma() σ()即为sigmoid函数,如下所示。
损失函数: J ( ω , b ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) J(\omega,b)={1\over m}\sum_{i=1}^m L(\hat y^{(i)},y^{(i)}) J(ω,b)=m1∑i=1mL(y^(i),y(i))
设 L ( y ^ , y ) L(\hat y,y) L(y^,y)为单个样本的误差函数,越小越好。
我们常见的衡量误差的函数一般是误差平方,即
L
(
y
^
,
y
)
=
1
2
(
y
^
−
y
)
2
L(\hat y,y)={1\over 2}(\hat y-y)^2
L(y^,y)=21(y^−y)2
但将其作为损失函数不便于用梯度下降法求最优解,因为为非凸函数。
因此,在logistic回归中,我们定义损失函数如下,起着与误差平方相似的作用
L
(
y
^
,
y
)
=
−
(
y
l
o
g
y
^
+
(
1
−
y
)
l
o
g
(
1
−
y
^
)
L(\hat y,y)=-(ylog\hat y+(1-y)log(1-\hat y)
L(y^,y)=−(ylogy^+(1−y)log(1−y^)
当y=1时,
L
(
y
^
,
y
)
=
−
l
o
g
y
^
L(\hat y,y)=-log\hat y
L(y^,y)=−logy^,想要让损失函数尽可能小,则需使
y
^
\hat y
y^尽可能大,接近1
当y=0时, L ( y ^ , y ) = − l o g ( 1 − y ^ ) L(\hat y,y)=-log(1-\hat y) L(y^,y)=−log(1−y^),想要让损失函数尽可能小,则需使 y ^ \hat y y^尽可能小,接近0
总体的损失函数即为
J
(
ω
,
b
)
=
1
m
∑
i
=
1
m
L
(
y
^
(
i
)
,
y
(
i
)
)
J(\omega,b)={1\over m}\sum_{i=1}^m L(\hat y^{(i)},y^{(i)})
J(ω,b)=m1i=1∑mL(y^(i),y(i))
logistic的训练过程,即通过不断的训练找到参数 ω 、 b \omega、b ω、b,使得损失函数最小