机器学习笔记之优化算法(十二)梯度下降法:凸函数VS强凸函数

机器学习笔记之优化算法——梯度下降法:凸函数VS强凸函数

  • 引言
    • 凸函数:
      • 凸函数的定义与判定条件
      • 凸函数的一阶条件
      • 凸函数的梯度单调性
      • 凸函数的二阶条件
    • 强凸函数
      • 强凸函数的定义
      • 强凸函数的判定条件
      • 强凸函数的一阶条件
      • 强凸函数的梯度单调性
      • 强突函数的二阶条件

引言

本节将介绍凸函数、强凸函数以及它们之间的联系(补梯度下降法:总体介绍中的坑)。

凸函数:

凸函数的定义与判定条件

关于凸函数的定义表示如下: f ( ⋅ ) f(\cdot) f()为定义在空间 I \mathcal I I上的函数,若对 I \mathcal I I上的任意两点 x 1 , x 2 x_1,x_2 x1,x2任意实数 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ(0,1)总有
通常将空间 I \mathcal I I设置为实数域与空间 ⇒ R n \Rightarrow \mathbb R^n Rn
f [ λ ⋅ x 2 + ( 1 − λ ) ⋅ x 1 ] ≤ λ ⋅ f ( x 2 ) + ( 1 − λ ) ⋅ f ( x 1 ) f[\lambda \cdot x_2 + (1 - \lambda) \cdot x_1] \leq \lambda \cdot f(x_2) + (1 - \lambda) \cdot f(x_1) f[λx2+(1λ)x1]λf(x2)+(1λ)f(x1)
则称:函数 f ( ⋅ ) f(\cdot) f() I \mathcal I I上的凸函数。对应示例图像表示如下:
将其转化: λ ⋅ x 2 + ( 1 − λ ) ⋅ x 1 = x 1 + λ ⋅ ( x 2 − x 1 ) \lambda \cdot x_2 + (1 - \lambda)\cdot x_1 = x_1 + \lambda \cdot (x_2 - x_1) λx2+(1λ)x1=x1+λ(x2x1),那么 λ ( x 2 − x 1 ) \lambda(x_2 - x_1) λ(x2x1)可看作增量,而 λ \lambda λ可看作控制增量的参数。
凸函数定义示例
凸函数的一种判定条件:构造一个函数 G ( t ) \mathcal G(t) G(t),满足:
G ( t ) ≜ f ( x + v ⋅ t ) ∀ x , v ∈ R n , t ∈ R \mathcal G(t) \triangleq f(x + v \cdot t) \quad \forall x,v \in \mathbb R^n,t \in \mathbb R G(t)f(x+vt)x,vRn,tR
则有推论: f ( ⋅ ) f(\cdot) f()是凸函数 ⇔ G ( t ) \Leftrightarrow \mathcal G(t) G(t)是凸函数。在一般情况下,我们面对的权重空间是一个高维空间,而在高维空间中的目标函数 f ( ⋅ ) f(\cdot) f()也通常是一个高维函数。假设:权重空间是一个 2 2 2维空间,对应的目标函数 f ( ⋅ ) f(\cdot) f()也是一个 2 2 2维函数
即:输入变量的维度是 2 2 2维,而目标函数的输出结果是 1 1 1维标量。
f ( ⋅ ) : R 2 ↦ R f(\cdot):\mathbb R^2 \mapsto \mathbb R f():R2R
那么如何验证 f ( ⋅ ) f(\cdot) f()描述的图像在高维空间中的曲面是否为凸的 ? ? ?在介绍方向导数中提到:关于某一点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)关于函数 f ( ⋅ ) f(\cdot) f()在方向 l ⃗ \vec l l 方向导数 ∂ Z ∂ l ⃗ ∣ ( x 0 , y 0 ) \begin{aligned}\frac{\partial \mathcal Z}{\partial \vec l}|_{(x_0,y_0)}\end{aligned} l Z(x0,y0)表示为下图中在 l ⃗ \vec l l 方向上过 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)做一个垂直于 X O Y \mathcal X\mathcal O\mathcal Y XOY的平面,平面与 f ( ⋅ ) f(\cdot) f()相交的图像在 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处的斜率结果

  • 其中黄色菱形部分表示垂直于 X O Y \mathcal X\mathcal O\mathcal Y XOY平面在 l ⃗ \vec l l 方向上并过 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)黄色点的平面;红色点则表示 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)在函数 f ( ⋅ ) f(\cdot) f()上的结果;而黑色实线则表示过映射点与函数图像相切的直线,其斜率即方向导数 ∂ Z ∂ l ⃗ ∣ ( x 0 , y 0 ) \begin{aligned}\frac{\partial \mathcal Z}{\partial \vec l}|_{(x_0,y_0)}\end{aligned} l Z(x0,y0)

方向导数定义——示例
但这里我们并不关注方向导数,而是关注平面与函数图像之间相交所产生的截线的形状。可以观察上述图像对应的俯视图结果:
无论是上图还是俯视图,都没有对 f ( x , y ) f(x,y) f(x,y)进行完全表示,这仅仅是其中一部分图像。
俯视图效果
从俯视图角度可以看到:黄色截面简化成了一条直线。这实际上可看做上述判定条件中函数 x + v ⋅ t x+v \cdot t x+vt的某一种结果。而对应的 f ( x + v ⋅ t ) f(x + v \cdot t) f(x+vt)则表达:截面与函数图像之间相交产生的截线

如果从向量的角度认识,以下面红色直线为例:
判定条件2示例
其中 x , v x,v x,v是任意 R n \mathbb R^n Rn的向量,从而 x + v ⋅ t x+v \cdot t x+vt可表示为该图黑色虚线的结果。由于 t ∈ R t \in \mathbb R tR,如果我们将所有的 t t t全部取到,那么最终构成 x + v ⋅ t x + v \cdot t x+vt构成向量的集合就是红色直线的结果。

  • 关于向量 v v v,我们通常将其视作单位向量。因为即便不是单位向量,在转化为单位向量过程中得到的标量系数 k k k也可以与 t t t进行合并: t ∈ R ⇒ k ⋅ t ∈ R t \in\mathbb R \Rightarrow k \cdot t \in \mathbb R tRktR
  • 如果将 v v v看作单位向量 e ⃗ ( cos ⁡ α , cos ⁡ β ) \vec e(\cos \alpha,\cos\beta) e (cosα,cosβ),那么过点 P ( x 0 , y 0 ) \mathcal P(x_0,y_0) P(x0,y0),并且方向与 e ⃗ \vec e e 平行的直线参数方程可表示为
    Y = ( x 0 , y 0 ) + t ⋅ e ⃗ = ( x 0 , y 0 ) + t ⋅ ( cos ⁡ α , cos ⁡ β ) \mathcal Y = (x_0,y_0) + t \cdot \vec e = (x_0,y_0) + t \cdot (\cos\alpha,\cos\beta) Y=(x0,y0)+te =(x0,y0)+t(cosα,cosβ)

因此,关于该判定条件的另一种表达有:如果 x + v ⋅ t x + v \cdot t x+vt在该权重空间中描述的任意一个截面,其与函数 f ( ⋅ ) f(\cdot) f()相交产生的任意一条截线对应的函数均是凸函数,那么函数 f ( ⋅ ) f(\cdot) f()也是一个凸函数,反之同理
这是一个充分必要条件

凸函数的一阶条件

在函数 f ( ⋅ ) f(\cdot) f()可微的条件下,有:
相比于上述的定义与判定条件,并没有要求函数 f ( ⋅ ) f(\cdot) f()一定是可微的。也就是说:一个函数是凸函数,并不要求该函数一定可微
f ( ⋅ )  is Convex ⇔ f ( x 2 ) ≥ f ( x 1 ) + [ ∇ f ( x 1 ) ] T ⋅ ( x 2 − x 1 ) f(\cdot) \text{ is Convex} \Leftrightarrow f(x_2) \geq f(x_1) + [\nabla f(x_1)]^T \cdot (x_2-x_1) f() is Convexf(x2)f(x1)+[f(x1)]T(x2x1)
这是一个充分必要条件。可以在图像中看到这个现象:
凸函数的一阶条件示例
( 2023/8/10 ) (\text{2023/8/10}) (2023/8/10)补充
证明:充分性

  • 要证: f [ λ ⋅ x 1 + ( 1 − λ ) ⋅ x 2 ] ≤ λ ⋅ f ( x 1 ) + ( 1 − λ ) ⋅ f ( x 2 ) , ∀ x 1 , x 2 ∈ C , λ ∈ ( 0 , 1 ) f[\lambda \cdot x_1 + (1 - \lambda) \cdot x_2] \leq \lambda \cdot f(x_1) + (1 - \lambda) \cdot f(x_2),\forall x_1,x_2 \in \mathcal C,\lambda \in (0,1) f[λx1+(1λ)x2]λf(x1)+(1λ)f(x2),x1,x2C,λ(0,1)
  • λ ⋅ x 1 + ( 1 − λ ) ⋅ x 2 \lambda \cdot x_1 + (1 - \lambda) \cdot x_2 λx1+(1λ)x2记作 Z \mathcal Z Z,从而有: Z ∈ C \mathcal Z \in \mathcal C ZC。既然 Z \mathcal Z Z同样是定义域 C \mathcal C C上一点,根据假设条件必然有:
    { f ( x 1 ) ≥ f ( Z ) + [ ∇ f ( Z ) ] T ⋅ ( x 1 − Z ) f ( x 2 ) ≥ f ( Z ) + [ ∇ f ( Z ) ] T ⋅ ( x 2 − Z ) \begin{cases} f(x_1) & \geq f(\mathcal Z) + [\nabla f(\mathcal Z)]^T \cdot (x_1 - \mathcal Z) \\ f(x_2) & \geq f(\mathcal Z) + [\nabla f(\mathcal Z)]^T \cdot (x_2 - \mathcal Z)\end{cases} {f(x1)f(x2)f(Z)+[f(Z)]T(x1Z)f(Z)+[f(Z)]T(x2Z)
  • 将上述两个不等式的左右两端分别乘以 λ , 1 − λ \lambda,1 - \lambda λ,1λ。由于 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ(0,1),因而不等式符号不发生变化:
    { λ ⋅ f ( x 1 ) ≥ λ ⋅ f ( Z ) + λ [ ∇ f ( Z ) ] T ⋅ ( x 1 − Z ) ( 1 − λ ) ⋅ f ( x 2 ) ≥ ( 1 − λ ) ⋅ f ( Z ) + ( 1 − λ ) ⋅ [ ∇ f ( Z ) ] T ⋅ ( x 2 − Z ) \begin{cases} \begin{aligned} \lambda \cdot f(x_1) & \geq \lambda \cdot f(\mathcal Z) + \lambda [\nabla f(\mathcal Z)]^T \cdot (x_1 - \mathcal Z) \\ (1 - \lambda) \cdot f(x_2) & \geq (1 - \lambda) \cdot f(\mathcal Z) + (1 - \lambda) \cdot [\nabla f(\mathcal Z)]^T \cdot (x_2 - \mathcal Z) \end{aligned} \end{cases} {λf(x1)(1λ)f(x2)λf(Z)+λ[f(Z)]T(x1Z)(1λ)f(Z)+(1λ)[f(Z)]T(x2Z)
    将上述两不等式对应位置相加,有:
    λ f ( x 1 ) + ( 1 − λ ) ⋅ f ( x 2 ) ≥ ( λ + 1 − λ ) ⋅ f ( Z ) + [ ∇ f ( Z ) ] T ⋅ [ ( λ ⋅ x 1 − λ ⋅ Z ) + ( 1 − λ ) ⋅ x 2 − ( 1 − λ ) ⋅ Z ] ≥ f ( Z ) + [ ∇ f ( Z ) ] T ⋅ [ λ ⋅ x 1 + ( 1 − λ ) ⋅ x 2 − Z ] \begin{aligned} \lambda f(x_1) + (1 - \lambda) \cdot f(x_2) & \geq (\lambda + 1 - \lambda) \cdot f(\mathcal Z) + [\nabla f(\mathcal Z)]^T \cdot [(\lambda \cdot x_1 - \lambda \cdot \mathcal Z) + (1 - \lambda) \cdot x_2 - (1 - \lambda) \cdot \mathcal Z] \\ & \geq f(\mathcal Z) + [\nabla f(\mathcal Z)]^T \cdot [\lambda \cdot x_1 + (1 - \lambda) \cdot x_2 - \mathcal Z] \end{aligned} λf(x1)+(1λ)f(x2)(λ+1λ)f(Z)+[f(Z)]T[(λx1λZ)+(1λ)x2(1λ)Z]f(Z)+[f(Z)]T[λx1+(1λ)x2Z]
    由于: λ ⋅ x 1 + ( 1 − λ ) ⋅ x 2 \lambda \cdot x_1 + (1 - \lambda) \cdot x_2 λx1+(1λ)x2记作 Z \mathcal Z Z,因此后一项: [ ∇ f ( Z ) ] T ⋅ [ λ ⋅ x 1 + ( 1 − λ ) ⋅ x 2 − Z ] = 0 [\nabla f(\mathcal Z)]^T \cdot [\lambda \cdot x_1 + (1 - \lambda) \cdot x_2 - \mathcal Z] = 0 [f(Z)]T[λx1+(1λ)x2Z]=0。最后将 Z \mathcal Z Z带入,整理有:
    这正是凸函数的定义。
    λ f ( x 1 ) + ( 1 − λ ) ⋅ f ( x 2 ) ≥ f ( Z ) = f [ λ ⋅ x 1 + ( 1 − λ ) ⋅ x 2 ] \lambda f(x_1) + (1 - \lambda) \cdot f(x_2) \geq f(\mathcal Z) = f[\lambda \cdot x_1 + (1 - \lambda) \cdot x_2] λf(x1)+(1λ)f(x2)f(Z)=f[λx1+(1λ)x2]

证明:必要性

  • 在已知 f ( ⋅ ) f(\cdot) f()凸函数的条件下:
    即便将 x 1 , x 2 x_1,x_2 x1,x2调换位置,也不会影响公式的成立。
    f [ λ ⋅ x 2 + ( 1 − λ ) ⋅ x 1 ] ≤ λ ⋅ f ( x 2 ) + ( 1 − λ ) ⋅ f ( x 1 ) x 1 , x 2 ∈ C ; λ ∈ ( 0 , 1 ) f [\lambda \cdot x_2 + (1 - \lambda) \cdot x_1] \leq \lambda \cdot f(x_2) + (1 - \lambda) \cdot f(x_1) \quad x_1,x_2 \in \mathcal C;\lambda \in (0,1) f[λx2+(1λ)x1]λf(x2)+(1λ)f(x1)x1,x2C;λ(0,1)

    • 观察不等式左侧,有:
      f [ λ ⋅ x 2 + ( 1 − λ ) ⋅ x 1 ] = f [ x 1 + λ ⋅ ( x 2 − x 1 ) ] f[\lambda \cdot x_2 + (1 - \lambda) \cdot x_1] = f [x_1 + \lambda \cdot (x_2 - x_1)] f[λx2+(1λ)x1]=f[x1+λ(x2x1)]
    • 观察不等式右侧,有:
      λ ⋅ f ( x 2 ) + ( 1 − λ ) ⋅ f ( x 1 ) = f ( x 1 ) + λ ⋅ [ f ( x 2 ) − f ( x 1 ) ] \lambda \cdot f(x_2) + (1 - \lambda) \cdot f(x_1) = f(x_1) + \lambda \cdot [f(x_2) - f(x_1)] λf(x2)+(1λ)f(x1)=f(x1)+λ[f(x2)f(x1)]

    最终将上式整理得:
    f ( x 2 ) f(x_2) f(x2)以外的其他项移到不等号左侧,不等号不发生变化。
    f [ x 1 + λ ⋅ ( x 2 − x 1 ) ] − f ( x 1 ) λ + f ( x 1 ) ≤ f ( x 2 ) \frac{f [x_1 + \lambda \cdot (x_2 - x_1)] - f(x_1)}{\lambda} + f(x_1)\leq f(x_2) λf[x1+λ(x2x1)]f(x1)+f(x1)f(x2)

  • 对项 f [ x 1 + λ ⋅ ( x 2 − x 1 ) ] f [x_1 + \lambda \cdot (x_2 - x_1)] f[x1+λ(x2x1)]关于 x 1 x_1 x1进行泰勒展开
    其中 O ( ⋅ ) \mathcal O(\cdot) O()表示高阶无穷小。
    f [ x 1 + λ ⋅ ( x 2 − x 1 ) ] = f ( x 1 ) + 1 1 ! λ ⋅ [ ∇ f ( x 1 ) ] T ( x 2 − x 1 ) + O ( λ ⋅ ∣ ∣ x 2 − x 1 ∣ ∣ ) \begin{aligned} f[x_1 + \lambda \cdot (x_2 - x_1)] = f(x_1) + \frac{1}{1!}\lambda \cdot [\nabla f(x_1)]^T (x_2 - x_1) + \mathcal O(\lambda \cdot ||x_2 - x_1||) \end{aligned} f[x1+λ(x2x1)]=f(x1)+1!1λ[f(x1)]T(x2x1)+O(λ∣∣x2x1∣∣)
    将上式的 f ( x 1 ) f(x_1) f(x1)移至等号左侧,并将等式左右两侧同时除以 λ \lambda λ,有:
    f [ x 1 + λ ⋅ ( x 2 − x 1 ) ] − f ( x 1 ) λ = [ ∇ f ( x 1 ) ] T ( x 2 − x 1 ) + O ( λ ⋅ ∣ ∣ x 2 − x 1 ∣ ∣ ) λ \frac{f[x_1 + \lambda \cdot (x_2 - x_1)] - f(x_1)}{\lambda} = [\nabla f(x_1)]^T (x_2 - x_1) + \frac{\mathcal O(\lambda \cdot ||x_2 - x_1||)}{\lambda} λf[x1+λ(x2x1)]f(x1)=[f(x1)]T(x2x1)+λO(λ∣∣x2x1∣∣)
    由于 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ(0,1),因此这里令 λ ⇒ 0 \lambda \Rightarrow 0 λ0,有:
    关于 lim ⁡ λ ⇒ 0 O ( λ ⋅ ∣ ∣ x 2 − x 1 ∣ ∣ ) λ \begin{aligned}\mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{\mathcal O(\lambda \cdot ||x_2 - x_1||)}{\lambda}\end{aligned} λ0limλO(λ∣∣x2x1∣∣),其中分子是关于 λ \lambda λ的高阶无穷小,而分子仅是一阶。因此该项分子趋近 0 0 0的速度要快于分母,从而为 0 0 0
    f [ x 1 + λ ⋅ ( x 2 − x 1 ) ] − f ( x 1 ) λ = [ ∇ f ( x 1 ) ] T ( x 2 − x 1 ) \frac{f[x_1 + \lambda \cdot (x_2 - x_1)] - f(x_1)}{\lambda} = [\nabla f(x_1)]^T (x_2 - x_1) λf[x1+λ(x2x1)]f(x1)=[f(x1)]T(x2x1)

  • 将该式带入到上述步骤,有:
    [ ∇ f ( x 1 ) ] T ( x 2 − x 1 ) + f ( x 1 ) ≤ f ( x 2 ) [\nabla f(x_1)]^T (x_2 - x_1) + f(x_1) \leq f(x_2) [f(x1)]T(x2x1)+f(x1)f(x2)

凸函数的梯度单调性

在函数 f ( ⋅ ) f(\cdot) f()可微的条件下, [ ∇ f ( x ) − ∇ f ( y ) ] [\nabla f(x) - \nabla f(y)] [f(x)f(y)] x − y x-y xy之间同号。即:
f ( ⋅ )  is Convex  ⇔ [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) ≥ 0 f(\cdot) \text{ is Convex } \Leftrightarrow [\nabla f(x) - \nabla f(y)]^T (x - y) \geq 0 f() is Convex [f(x)f(y)]T(xy)0

证明:必要性
如果 f ( ⋅ ) f(\cdot) f()可微的凸函数,根据凸函数的一阶条件,有:
{ f ( y ) ≥ f ( x ) + [ ∇ f ( x ) ] T ⋅ ( y − x ) f ( x ) ≥ f ( y ) + [ ∇ f ( y ) ] T ⋅ ( x − y ) \begin{cases} \begin{aligned} f(y) \geq f(x) + [\nabla f(x)]^T \cdot (y - x) \\ f(x) \geq f(y) + [\nabla f(y)]^T \cdot (x - y) \end{aligned} \end{cases} {f(y)f(x)+[f(x)]T(yx)f(x)f(y)+[f(y)]T(xy)
将上述式子相加,有:
[ ∇ f ( x ) − ∇ f ( y ) ] T ⋅ ( x − y ) ≥ 0 [\nabla f(x) - \nabla f(y)]^T \cdot (x - y) \geq 0 [f(x)f(y)]T(xy)0
证明:充分性
如果 f ( ⋅ ) f(\cdot) f()的梯度 ∇ f ( ⋅ ) \nabla f(\cdot) f()单调的,定义关于 t ∈ [ 0 , 1 ] t \in [0,1] t[0,1]的函数 G ( t ) \mathcal G(t) G(t)
G ( t ) = f [ x + t ⋅ ( y − x ) ] \mathcal G(t) = f[x + t \cdot (y - x)] G(t)=f[x+t(yx)]
对应 G ( t ) \mathcal G(t) G(t)的导数 G ′ ( t ) \mathcal G'(t) G(t)
G ′ ( t ) = [ ∇ f ( x + t ⋅ ( y − x ) ) ] T ⋅ ( y − x ) \mathcal G'(t) = [\nabla f(x + t \cdot (y-x))]^T \cdot (y-x) G(t)=[f(x+t(yx))]T(yx)
由于 G ′ ( t ) \mathcal G'(t) G(t) t ∈ [ 0 , 1 ] t \in [0,1] t[0,1]上连续,且:
[ ∇ f ( x ) − ∇ f ( y ) ] T ⋅ ( x − y ) ≥ 0 [\nabla f(x) - \nabla f(y)]^T \cdot (x - y) \geq 0 [f(x)f(y)]T(xy)0
从而有:
消了两个负号~
G ′ ( t ) ≥ G ′ ( 0 ) ⇐ { G ′ ( 1 ) − G ′ ( 0 ) = [ ∇ f ( y ) − ∇ f ( x ) ] T ⋅ ( y − x ) ≥ 0 G ′ ( 0 ) − G ′ ( 0 ) = 0 \mathcal G'(t) \geq \mathcal G'(0) \Leftarrow \begin{cases} \mathcal G'(1) - \mathcal G'(0) = [\nabla f(y) - \nabla f(x)]^T \cdot (y-x) \geq 0 \\ \mathcal G'(0) - \mathcal G'(0) = 0 \end{cases} G(t)G(0){G(1)G(0)=[f(y)f(x)]T(yx)0G(0)G(0)=0
最终有:
f ( y ) = G ( 1 ) = G ( 0 ) + ∫ 0 1 G ′ ( t ) d t ≥ G ( 0 ) + G ′ ( 0 ) = f ( x ) + [ ∇ f ( x ) ] T ( y − x ) f(y) = \mathcal G(1) = \mathcal G(0) + \int_0^1 \mathcal G'(t) dt \geq \mathcal G(0) + \mathcal G'(0) = f(x) + [\nabla f(x)]^T (y-x) f(y)=G(1)=G(0)+01G(t)dtG(0)+G(0)=f(x)+[f(x)]T(yx)
即: f ( ⋅ ) f(\cdot) f()为凸函数

凸函数的二阶条件

在函数 f ( ⋅ ) f(\cdot) f()二阶可微的条件下,说明关于 f ( ⋅ ) f(\cdot) f()二阶梯度 ∇ 2 f ( ⋅ ) \nabla^2 f(\cdot) 2f()存在,即对应的 Hessian Matrix \text{Hessian Matrix} Hessian Matrix存在。从而有该矩阵是一个半正定矩阵
简单注意一下,这里的 0 0 0指的是 0 0 0矩阵。
f ( ⋅ )  is Convex  ⇔ ∇ 2 f ( x ) ≽ 0 f(\cdot) \text{ is Convex } \Leftrightarrow \nabla^2 f(x) \succcurlyeq 0 f() is Convex 2f(x)0
( 2023 / 8 / 10 ) (2023/8/10) (2023/8/10)补充
证明:充分性
已知 Hessian Matrix \text{Hessian Matrix} Hessian Matrix是半正定矩阵 ( ∇ 2 f ( x ) ≽ 0 , ∀ x ∈ C ) (\nabla^2 f(x) \succcurlyeq 0,\forall x \in \mathcal C) (2f(x)0,xC)

  • 基于 y ∈ C y \in \mathcal C yC,针对 f ( y ) f(y) f(y)关于某点 x x x进行泰勒展开
    • 其中 ξ \xi ξ表示 ( x , y ) (x,y) (x,y)范围内的一点,标准表示: ξ = x + λ ⋅ ( y − x ) ; λ ∈ ( 0 , 1 ) \xi = x + \lambda \cdot (y - x);\lambda \in (0,1) ξ=x+λ(yx);λ(0,1)
    • 不否认 ξ ∈ C \xi \in \mathcal C ξC
      f ( y ) = f ( x ) + 1 1 ! [ ∇ f ( x ) ] T ( y − x ) + 1 2 ! ( y − x ) T [ ∇ 2 f ( ξ ) ] ( y − x ) + O ( ⋅ ) f(y) = f(x) + \frac{1}{1!}[\nabla f(x)]^T (y - x) + \frac{1}{2!} (y -x)^T [\nabla^2 f(\xi)](y -x) + \mathcal O(\cdot) f(y)=f(x)+1!1[f(x)]T(yx)+2!1(yx)T[2f(ξ)](yx)+O()
  • 由于 ∇ 2 f ( ξ ) ≽ 0 \nabla^2 f(\xi) \succcurlyeq 0 2f(ξ)0,必然有:
    f ( y ) ≥ f ( x ) + [ ∇ f ( x ) ] T ( y − x ) f(y) \geq f(x) + [\nabla f(x)]^T (y-x) f(y)f(x)+[f(x)]T(yx)
  • 根据上述凸函数的一阶条件,自然得证: f ( ⋅ ) f(\cdot) f()是凸函数

证明:必要性
已知 f ( ⋅ ) f(\cdot) f()凸函数,要证: ∇ 2 f ( x ) ≽ 0 , ∀ x ∈ C \nabla^2 f(x) \succcurlyeq 0,\forall x \in \mathcal C 2f(x)0,xC

  • 从定义域 C \mathcal C C任取一点 x x x,观察: x x x开始,沿着 d d d方向移动了较小步长 α \alpha α位置的函数结果 f ( x + α ⋅ d ) f(x + \alpha \cdot d) f(x+αd),并针对该结果关于 x x x进行泰勒展开
    其中 x + α ⋅ d ∈ C x + \alpha \cdot d \in \mathcal C x+αdC
    f ( x + α ⋅ d ) = f ( x ) + 1 1 ! α ⋅ [ ∇ f ( x ) ] T d ⏟ 一阶条件 + 1 2 ! α 2 ⋅ d T [ ∇ 2 f ( x ) ] ⋅ d + O ( α 2 ⋅ ∣ ∣ d ∣ ∣ 2 ) f(x + \alpha \cdot d) = \underbrace{f(x) + \frac{1}{1!} \alpha \cdot [\nabla f(x)]^T d}_{一阶条件} + \frac{1}{2!} \alpha^2 \cdot d^T [\nabla^2 f(x)] \cdot d + \mathcal O(\alpha^2 \cdot ||d||^2) f(x+αd)=一阶条件 f(x)+1!1α[f(x)]Td+2!1α2dT[2f(x)]d+O(α2∣∣d2)
  • 根据凸函数的一阶条件,必然有:
    这依然依赖移动后的结果依然 ∈ C \in \mathcal C C
    f ( x + α ⋅ d ) ≥ f ( x ) + α ⋅ [ ∇ f ( x ) ] T d f(x + \alpha \cdot d) \geq f(x) + \alpha \cdot [\nabla f(x)]^T d f(x+αd)f(x)+α[f(x)]Td
    将该结果带入上式,有:
    1 2 ! α 2 ⋅ d T [ ∇ 2 f ( x ) ] ⋅ d + O ( α 2 ⋅ ∣ ∣ d ∣ ∣ 2 ) ≥ 0 \frac{1}{2!} \alpha^2 \cdot d^T [\nabla^2 f(x)] \cdot d + \mathcal O(\alpha^2 \cdot ||d||^2) \geq 0 2!1α2dT[2f(x)]d+O(α2∣∣d2)0
  • 将不等式两侧同时除以 α 2 \alpha^2 α2,不等式符号不发生变化:
    1 2 d T [ ∇ 2 f ( x ) ] ⋅ d + O ( α 2 ⋅ ∣ ∣ d ∣ ∣ 2 ) α 2 ≥ 0 \frac{1}{2} d^T [\nabla^2 f(x)] \cdot d + \frac{\mathcal O(\alpha^2 \cdot ||d||^2)}{\alpha^2} \geq 0 21dT[2f(x)]d+α2O(α2∣∣d2)0
    在此基础上,令 α ⇒ 0 \alpha \Rightarrow 0 α0,最终有:
    • 凸函数一阶条件证明中的情况相似,其分子趋近 0 0 0远远高于分母,因而有: lim ⁡ α ⇒ 0 O ( α 2 ⋅ ∣ ∣ d ∣ ∣ 2 ) α 2 = 0 \begin{aligned}\mathop{\lim}\limits_{\alpha \Rightarrow 0} \frac{\mathcal O(\alpha^2 \cdot ||d||^2)}{\alpha^2} = 0\end{aligned} α0limα2O(α2∣∣d2)=0
    • 系数 1 2 \begin{aligned}\frac{1}{2}\end{aligned} 21被忽略了~
      d T [ ∇ 2 f ( x ) ] ⋅ d ≥ 0 d^T [\nabla^2 f(x)] \cdot d \geq 0 dT[2f(x)]d0

这实际上就是半正定矩阵的定义。
从几何意义的角度观察,当 α ⇒ 0 \alpha \Rightarrow 0 α0时,方向 d d d任意取都不会影响 d T [ ∇ 2 f ( x ) ] ⋅ d ≥ 0 d^T [\nabla^2 f(x)] \cdot d \geq 0 dT[2f(x)]d0,这说明 [ ∇ 2 f ( x ) ] [\nabla^2 f(x)] [2f(x)]是半正定的。

强凸函数

强凸函数的定义

关于强凸函数的定义表示如下: f ( ⋅ ) f(\cdot) f()为定义在空间 I \mathcal I I上的函数,若存在 m > 0 m>0 m>0,使其对 I \mathcal I I上的任意两点 x 1 , x 2 x_1,x_2 x1,x2任意实数 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ(0,1)总有
λ ⋅ f ( x 1 ) + ( 1 − λ ) ⋅ f ( x 2 ) ≥ f [ θ ⋅ x 1 + ( 1 − θ ) ⋅ x 2 ] + m 2 ⋅ θ ( 1 − θ ) ⋅ ∣ ∣ x 1 − x 2 ∣ ∣ 2 \lambda\cdot f(x_1) + (1 - \lambda) \cdot f(x_2) \geq f[\theta \cdot x_1 + (1 - \theta) \cdot x_2] + \frac{m}{2} \cdot \theta(1 - \theta) \cdot ||x_1 -x _2||^2 λf(x1)+(1λ)f(x2)f[θx1+(1θ)x2]+2mθ(1θ)∣∣x1x22
相比于凸函数的定义,强凸函数明显多了一个部分: m 2 ⋅ θ ( 1 − θ ) ⋅ ∣ ∣ x 1 − x 2 ∣ ∣ 2 \begin{aligned}\frac{m}{2} \cdot \theta(1 - \theta) \cdot ||x_1 -x _2||^2\end{aligned} 2mθ(1θ)∣∣x1x22。并且这个部分一定是正数。这相比凸函数仅仅 ≥ 0 \geq 0 0的约束要更强。
也被称作 m m m-强凸,其与凸函数定义的本质区别是相比凸函数多了一个 > 0 >0 >0下界的保证。

强凸函数的判定条件

凸函数的判定条件相类似,关于强凸的判定条件同样没有直接对 f ( ⋅ ) f(\cdot) f()进行描述。对应条件表示如下:

  • 定义 G ( x ) ≜ f ( x ) − 1 2 m ⋅ ∣ ∣ x ∣ ∣ 2 \begin{aligned}\mathcal G(x) \triangleq f(x) - \frac{1}{2} m \cdot ||x||^2\end{aligned} G(x)f(x)21m∣∣x2,有:
    f ( ⋅ )  is m-Strong Convex  ⇔ G ( x )  is Convex f(\cdot) \text{ is m-Strong Convex } \Leftrightarrow \mathcal G(x) \text{ is Convex} f() is m-Strong Convex G(x) is Convex

强凸函数的一阶条件

关于强凸函数的一阶条件是在对应凸函数一阶条件的基础上,加入一个二次下界
f ( ⋅ ) f(\cdot) f()梯度满足利普希兹连续对应的二次上界引理不同:
∇ f ( ⋅ )  Lipschitz ⇔ f ( x 2 ) ≤ f ( x 1 ) + [ ∇ f ( x 1 ) ] T ( x 2 − x 1 ) + L 2 ∣ ∣ x 2 − x 1 ∣ ∣ 2 \nabla f(\cdot) \text{ Lipschitz} \Leftrightarrow f(x_2) \leq f(x_1) + [\nabla f(x_1)]^T (x_2 - x_1) + \frac{\mathcal L}{2}||x_2 - x_1||^2 f() Lipschitzf(x2)f(x1)+[f(x1)]T(x2x1)+2L∣∣x2x12
利普希兹连续强调的是限制梯度变化量的上界;而 m m m-强凸强调一个 > 0 >0 >0的二次下界。
f ( ⋅ )  is m-Strong Convex  ⇔ f ( x 2 ) ≥ f ( x 1 ) + [ ∇ f ( x 1 ) ] T ( x 2 − x 1 ) + m 2 ∣ ∣ x 2 − x 1 ∣ ∣ 2 f(\cdot) \text{ is m-Strong Convex } \Leftrightarrow f(x_2) \geq f(x_1) + [\nabla f(x_1)]^T (x_2-x_1) + \frac{m}{2}||x_2 - x_1||^2 f() is m-Strong Convex f(x2)f(x1)+[f(x1)]T(x2x1)+2m∣∣x2x12

强凸函数的梯度单调性

凸函数的梯度单调性基本类似,只不过下界由 0 0 0换成了:
证明过程略。
f ( ⋅ )  is m-Strong Convex  ⇔ [ ∇ f ( x ) − ∇ f ( y ) ] T ( x − y ) ≥ m ⋅ ∣ ∣ x − y ∣ ∣ 2 f(\cdot) \text{ is m-Strong Convex } \Leftrightarrow [\nabla f(x) - \nabla f(y)]^T (x - y) \geq m \cdot ||x - y||^2 f() is m-Strong Convex [f(x)f(y)]T(xy)m∣∣xy2

强突函数的二阶条件

f ( ⋅ ) f(\cdot) f()二阶可微的条件下,有:
其中 I \mathcal I I指单位矩阵。
f ( ⋅ )  is m-Strong Convex  ⇔ ∇ 2 f ( x ) ≽ m ⋅ I f(\cdot) \text{ is m-Strong Convex } \Leftrightarrow \nabla^2 f(x) \succcurlyeq m \cdot \mathcal I f() is m-Strong Convex 2f(x)mI

相关参考:
【优化算法】梯度下降法-基础补充-凸函数vs强凸函数vs严格凸函数(上)
【优化算法】梯度下降法-基础补充-凸函数vs强凸函数vs严格凸函数(下)
最优化理论与方法-第三讲-凸函数:定义与基本性质

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/73646.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

小白带你学习linux的MongoDB(三十四)

目录 一、概述 1、相关概念 2、特性 二、应用场景 三、安装 四、目录结构 五、默认数据库 1、admin: 2、local: 3、config: 六、数据库操作 1、库操作 2、文档操作 七、MongoDB数据库备份 1、备份命令 2、回数据库删除…

Android侧滑栏(一)可缩放可一起移动的侧滑栏

在实际的各类App开发中,经常会需要做一个左侧的侧滑栏,类似于QQ这种。 今天这篇文章总结下自己在开发中遇到的这类可以跟随移动且可以缩放的侧滑栏。 一、实现原理 使用 HorizontalScrollView 实现一个水平方向的可滑动的View,左布局为侧滑…

纷享销客稳居2022 H2 SFA SaaS 本土CRM厂商市场份额 TOP 1

近期,国际知名研究机构IDC公布了2022年下半年《中国客户关系管理(CRM)SaaS市场跟踪研究报告》,报告全面解析了中国CRM SaaS以及细分市场SFA SaaS的市场现状,并对全球各大厂商在中国SFA市场的份额占比进行了排名。连接型CRM开创者纷享销客在SF…

MyBatis-Plugin源码全面分析

三、MyBatis-Plugin 1. 基本开发方式 需求:在MyBatis执行之前打印一行醒目的日志,携带参数 实现Interceptor接口: Intercepts(Signature(type Executor.class,method "query",args {MappedStatement.class,Object.class, RowB…

600 V单管IGBT,可在电源应用中实现出色效率

基础半导体器件领域的高产能生产专家Nexperia (安世半导体)今日宣布,将凭借600 V器件系列进军绝缘栅双极晶体管(IGBT)市场,而30A NGW30T60M3DF将打响进军市场的第一炮。Nexperia在其庞大的产品组合中增加了IGBT,满足了市场对于高效高压开关器…

多个项目使用的node版本不一致?vscode dev container + docker 真香

一、接手的项目多了,什么node版本都有~ 遇到这种情况,多数情况会使用 nvm 进行 node 版本管理,具体使用方法可戳nvm的安装与使用。但若要并行开发两个不同环境下的项目,不停切换node版本,也难免有些繁琐。此时&#xf…

HCIP学习--BGP3

目录 前置内容 BGP下一跳的修改问题 BGP的属性 配置 PrefVal权重属性 负载分担 LocPrf 负载分担 NextHop AS-PATH Ogn 配置 MED 配置 BGP选路规则 BGP的社团属性 配置及解释 前置内容 HCIP学习--BGP1_板栗妖怪的博客-CSDN博客 HCIP学习--BGP2_板栗妖怪的博客…

【LVS-NAT配置】

配置 node1:128(客户端) node2:135(调度器) RS: node3:130 node4:132 node2添加网络适配器(仅主机模式) [rootnode2 ~]# nmtui[rootnode2 ~]#…

利用 Splashtop Enterprise 改善公司的网络安全

在我们日益数字化的世界中,对强有力的网络安全措施的需求从未像现在这样迫切。随着组织扩大其数字足迹并采用远程办公解决方案,他们面临着一系列不断变化的挑战。 威胁行为者不断寻找利用漏洞的新方法,这使得企业保持领先地位至关重要。俗话…

Spring Boot实现第一次启动时自动初始化数据库流程详解

随着互联网的发展项目中的业务功能越来越复杂,有一些基础服务我们不可避免的会去调用一些第三方的接口或者公司内其他项目中提供的服务,但是远程服务的健壮性和网络稳定性都是不可控因素。 在测试阶段可能没有什么异常情况,但上线后可能会出…

HCIP BGP小综合

BGP小综合 AS配置AS1AS2 中的小自治系统64512AS2 中的小自治系统64513AS3 测试 首先该实验分成三个AS,AS2里面有联邦,所以配置顺序 要先将IBGP通,然后配置AS1,AS3和联邦 AS配置 AS1 R1 # bgp 1router-id 1.1.1.1peer 12.1.1.2 as-number …

计算机设计大赛国赛一等奖项目分享——基于多端融合的化工安全生产监管可视化系统

文章目录 一、计算机设计大赛国赛一等奖二、项目背景三、项目简介四、系统架构五、系统功能结构六、项目特色(1)多端融合(2)数据可视化(3)计算机视觉(目标检测) 七、系统界面设计&am…

MySQL8安装和删除教程 保姆级(Windows)

下载 官网: mysql官网点击Downloads->MySQL Community(GPL) Downloads->MySQL Community Server(或者点击MySQL installer for Windows) Windows下有两种安装方式 在线安装 一般带有 web字样 这个需要联网离线安装 一般没有web字样 安装 下载好之后,版本号可以不一样&…

超好用的接口自动化框架,lemon-easytest内测版发布,赶紧用起来~

easytest easytest 是一个接口自动化框架。 功能特点: 支持 http 接口测试 支持 json,html,xml 格式的响应断言 支持数据库断言 支持用例标记筛选 支持用例失败重运行 支持多线程 安装 pip install lemon_easytest 快速使用 不需要写任何代码…

k8s常用资源管理 控制

目录 Pod(容器组):Pod是Kubernetes中最小的部署单元,可以包含一个或多个容器。Pod提供了一种逻辑上的封装,使得容器可以一起共享网络和存储资源 1、创建一个pod 2、pod管理 pod操作 目录 创建Pod会很慢 Pod&…

腾讯云轻量应用服务器搭建WordPress网站教程

腾讯云百科分享使用腾讯云轻量应用服务器搭建WordPress网站教程流程,WordPress 是全球最流行的开源的博客和内容管理网站的建站平台,具备使用简单、功能强大、灵活可扩展的特点,提供丰富的主题插件。腾讯云轻量应用服务器提供 WordPress 应用…

打破传统直播,最新数字化升级3DVR全景直播

导语: 近年来,随着科技的不断创新和发展,传媒领域也正经历着一场前所未有的变革。在这个数字化时代,直播已经不再仅仅是在屏幕上看到一些人的视频,而是将观众带入一个真实世界的全新体验。其中,3DVR全景直…

ARMday2

.text .global _start _start:mov r0,#0x1mov r1,#0x0sum:cmp r0,#0x64bhi stopaddls r1,r1,r0addls r0,r0,#0x1bls sumstop:b stop .end

Opencv将数据保存到xml、yaml / 从xml、yaml读取数据

Opencv将数据保存到xml、yaml / 从xml、yaml读取数据 Opencv提供了读写xml、yaml的类实现: 本文重点参考:https://blog.csdn.net/cd_yourheart/article/details/122705776?spm1001.2014.3001.5506,并将给出文件读写的具体使用实例。 1. 官…

STM32基于CubeIDE和HAL库 基础入门学习笔记:物联网项目开发流程和思路

文章目录: 第一部分:项目开始前的计划与准备 1.项目策划和开发规范 1.1 项目要求文档 1.2 技术实现文档 1.3 开发规范 2.创建项目工程与日志 第二部分:调通硬件电路与驱动程序 第三部分:编写最基础的应用程序 第四部分&…