优化|一阶方法:求解不具有凸性和lipschitz连续性的复合问题

在这里插入图片描述
论文解读者:陈康明,赵田田,李朋

编者按:​

对于大多数一阶算法,我们会在收敛性分析时假设函数是凸的,且梯度满足全局 Lipschitz 条件。而本文中,对于某一类特殊函数。我们不仅不要求函数是凸的,也不再要求梯度满足全局 Lipschitz 条件。

考虑复合优化问题
( P ) min ⁡ { Ψ ( x ) = f ( x ) + g ( x ) : x ∈ C ˉ } , \begin{equation}\nonumber (\mathcal{P})\quad \min \{\Psi(x)=f(x)+g(x): x\in\bar{C}\}, \end{equation} (P)min{Ψ(x)=f(x)+g(x):xCˉ},
其中 C ˉ \bar{C} Cˉ C C C的闭包, C C C R d \mathbb{R}^{d} Rd的非空开子集。对于大多数一阶算法,我们会在收敛性分析时假设 f f f g g g都是凸函数,且 g g g的梯度满足全局 Lipschitz 条件。而本文中,我们不仅不要求函数 f f f g g g是凸函数,也不再要求 g g g的梯度的满足全局 Lipschitz 条件,而是使用适应函数g几何形状的凸性条件代替。我们重点研究了一种基于 Bregman 距离而非欧式距离的近端梯度法,该方法涵盖了标准的近端梯度法,并且在一定的合理假设下,证明了该方法全局收敛到临界点。为了展示我们的成果的潜力,我们考虑了一类具有稀疏性约束的二次逆问题,这类问题在许多基础应用中经常出现。并且应用我们的方法推导出了该类问题的新的收敛方案,这是这类重要问题的第一个全局收敛的算法。

第一部分:预备知识​

1.1 Bregman 距离

首先我们给出 kernel generating distance 的定义:

定义1.1 (kernel generating distance). 让 C C C R d \mathbb{R}^d Rd的凸的非空开集,如果函数 h : R d → ( − ∞ , + ∞ ] h: \mathbb{R}^d \rightarrow(-\infty,+\infty] h:Rd(,+]满足下面的条件,那么它被称为 kernel generating distance :
(i) h h h是适当的,下半连续的凸函数, 并且 dom ⁡ h ⊂ C ˉ \operatorname{dom} h \subset \bar{C} domhCˉ, dom ⁡ ∂ h = C \operatorname{dom} \partial h= C domh=C
(ii) 在 dom ⁡ h ≡ C \operatorname{dom} h \equiv C domhC上, h h h C 1 C^1 C1的。

我们用 G ( C ) \mathcal{G}(C) G(C)表示这类 kernel generating distance。
给定 h ∈ G ( C ) h\in\mathcal{G}(C) hG(C),我们可以通过以下方式定义一个近似度量 D h : dom ⁡ h × int ⁡ dom ⁡ h → R + D_h:\operatorname{dom} h\times\operatorname{int} \operatorname{dom} h\rightarrow\mathbb{R}_{+} Dh:domh×intdomhR+:

D h ( x , y ) : = h ( x ) − [ h ( y ) + ⟨ ∇ h ( y ) , x − y ⟩ ] D_h(x, y):=h(x)-[h(y)+\langle\nabla h(y), x-y\rangle] Dh(x,y):=h(x)[h(y)+h(y),xy⟩]

这个近似度量 D h D_h Dh就被称为 Bregman 距离,它衡量了 x x x y y y的接近程度。

由于梯度不等式,对于所有的 x ∈ dom ⁡ h , y ∈ int ⁡ dom ⁡ h x\in\operatorname{dom} h, y\in\operatorname{int} \operatorname{dom} h xdomh,yintdomh h h h是凸的当且仅当 D h ( x , y ) ≥ 0 D_h(x, y)\geq 0 Dh(x,y)0。并且如果 h h h是严格凸的,当且仅当 x = y x=y x=y时,等号成立。值得注意的是,一般情况下 D h D_h Dh 不是对称的,除非 h = ∣ ⋅ ∣ 2 h=|\cdot|^2 h=2,这样得到的就是经典欧式距离的平方。

另外,当 h h h不是凸函数时, D h D_h Dh的结构形式也是有用的。它衡量了在给定点 x ∈ dom ⁡ h x\in\operatorname{dom} h xdomh h h h的值与其在 y ∈ int ⁡ dom ⁡ h y\in\operatorname{int} \operatorname{dom} h yintdomh附近的线性近似之间的差异或者说误差。在这种情况下,前面提到的 D h ( x , y ) ≥ 0 D_h(x, y)\geq 0 Dh(x,y)0 D h ( x , y ) = 0 D_h(x, y)= 0 Dh(x,y)=0当且仅当 x = y x=y x=y都不再成立。然而, D h D_h Dh仍然具有两个简单但显著的性质,这些性质可以从基本的代数运算中得出:

三点恒等式:对于任意 y , z ∈ int ⁡ dom ⁡ y, z \in \operatorname{int} \operatorname{dom} y,zintdom x ∈ dom ⁡ h x \in \operatorname{dom} h xdomh,我们有 D h ( x , z ) − D h ( x , y ) − D h ( y , z ) = ⟨ ∇ h ( y ) − ∇ h ( z ) , x − y ⟩ D_h(x, z)-D_h(x, y)-D_h(y, z)=\langle\nabla h(y)-\nabla h(z), x-y\rangle Dh(x,z)Dh(x,y)Dh(y,z)=h(y)h(z),xy

线性可加性:对于任意 α , β ∈ R \alpha, \beta \in \mathbb{R} α,βR,以及任意函数 h 1 h_1 h1 h 2 h_2 h2,我们有 D α h 1 + β h 2 ( x , y ) = α D h 1 ( x , y ) + β D h 2 ( x , y ) D_{\alpha h_1+\beta h_2}(x, y)=\alpha D_{h_1}(x, y)+\beta D_{h_2}(x, y) Dαh1+βh2(x,y)=αDh1(x,y)+βDh2(x,y)
对于所有 x , y ∈ dom ⁡ h 1 ∩ dom ⁡ h 2 x, y \in \operatorname{dom} h_1 \cap \operatorname{dom} h_2 x,ydomh1domh2,使得 h 1 h_1 h1 h 2 h_2 h2 y y y处可导。

1.2 L-smooth adaptable 条件我们想要选择合适的函数 h ∈ G ( C ) h\in\mathcal{G}(C) hG(C),并用对应的 Bregman 函数 D h D_h Dh来代替近似点梯度法中的欧氏距离平方项。注意,本文所考虑的函数 f f f g g g未必是凸函数。其中 g g g满足假设:

g : R d → ( − ∞ , + ∞ ] g:\mathbb{R}^{d}\to (-\infty,+\infty] g:Rd(,+]是适当的下半连续函数,定义域满足$\text{dom}h\subset\text{dom}g , 且 , 且 ,g 在 在 C$上连续可微。

基于上述 g g g有关假设, 我们可以给出 L-smooth adaptable 的定义如下:

定义1.2 函数对 ( g , h ) (g,h) (g,h) C C C上满足 L-smooth adaptable 条件,当且仅当存在 L > 0 L>0 L>0使得 L h + g Lh+g Lh+g L h − g Lh-g Lhg C C C上都是凸函数。

结合1.1节中 Bregman 函数的定义,容易得到它的一个等价定义:

定义1.2’ 函数对 ( g , h ) (g,h) (g,h) C C C上满足 L-smooth adaptable 条件,当且仅当存在 L > 0 L>0 L>0使得KaTeX parse error: {equation} can be used only in display mode.

上述定义可看作是 L-smooth 条件的推广。如果取 C = R d C=\mathbb{R}^{d} C=Rd, h = 1 2 ∥ ⋅ ∥ 2 h=\frac{1}{2}\|\cdot\|^{2} h=212, 则对应的不等式可写为
∣ D g ( x , y ) ∣ = ∣ g ( x ) − g ( y ) − < ∇ g ( y ) , x − y > ∣ ≤ L 2 ∥ x − y ∥ 2 , ∀ x , y ∈ R d , \begin{equation}\nonumber \left|D_g(x,y)\right|=|g(x)-g(y)-\left<\nabla{g}(y),x-y\right>|\leq \frac{L}{2}\|x-y\|^{2}, \quad \forall x,y\in\mathbb{R}^{d}, \end{equation} Dg(x,y)=g(x)g(y)g(y),xy2Lxy2,x,yRd,

相当于 g g g满足 L-smooth条件。

另外,第二节的证明只需要 L h − g Lh-g Lhg是凸函数这个条件。我们把它记作L-smad 条件

第二部分:BPG 算法

2.1 BPG 算法

根据第一节的分析,我们可以作出以下初步假设:

假设2.1 (1) h ∈ G ( C ) h\in\mathcal{G}(C) hG(C), 且 C ‾ = dom h ‾ \overline{C}=\overline{\text{dom}h} C=domh;

(2) f : R d → ( − ∞ , + ∞ ] f:\mathbb{R}^{d}\to (-\infty,+\infty] f:Rd(,+]是适当的下半连续函数,定义域满足 dom f ∩ C ≠ ∅ \text{dom}f\cap{C}\neq\emptyset domfC=;

(3) g : R d → ( − ∞ , + ∞ ] g:\mathbb{R}^{d}\to (-\infty,+\infty] g:Rd(,+]是适当的下半连续函数,定义域满足 dom h ⊂ dom g \text{dom}h\subset\text{dom}g domhdomg,
g g g C C C上连续可微;

(4) ( h , g ) (h,g) (h,g)满足 L-smad 条件;

(5) v ( P ) = inf ⁡ { Ψ ( x ) : x ∈ C ‾ } > − ∞ v(\mathcal{P})=\inf\{\Psi(x):x\in\overline{C}\}>-\infty v(P)=inf{Ψ(x):xC}>.

基于以上假设,我们可以利用函数 h h h,构造求解问题 P \mathcal{P} P的 BPG 算法如下:

不妨记 T λ ( x ) : = arg min ⁡ u ∈ R d { f ( u ) + < ∇ g ( x ) , u − x > + 1 λ D h ( u , x ) } T_{\lambda}(x):=\argmin\limits_{u\in\mathbb{R}^d}\left\{f(u)+\left<\nabla{g}(x),u-x\right>+\frac{1}{\lambda}D_h(u,x)\right\} Tλ(x):=uRdargmin{f(u)+g(x),ux+λ1Dh(u,x)}

为了保证算法中的 (3.4) 式能够顺利求解,我们需要添加如下假设:

假设2.2 对任意的 λ > 0 \lambda>0 λ>0,都有 lim ⁡ ∥ u ∥ → ∞ h ( u ) + λ f ( u ) ∥ u ∥ = + ∞ . \lim\limits_{\|u\|\to\infty}\frac{h(u)+\lambda{f}(u)}{\|u\|}=+\infty. ulimuh(u)+λf(u)=+∞.

假设2.3 对任意的 x ∈ C x\in{C} xC,都有 T λ ( x ) ⊂ C T_{\lambda}(x)\sub{C} Tλ(x)C.

这两条假设都是易于实现的 [ 1 ] ^{[1]} [1]. 可以证明,在假设2.1—2.3之下,对任意的 x ∈ intdom h x\in\text{intdom}h xintdomh x ∈ intdom h x\in\text{intdom}h xintdomh, T λ ( x ) T_{\lambda}(x) Tλ(x) C C C的非空紧子集。此时,我们认为求解 (3.4) 这一步确实是可行的。

2.2 充分下降性质

在假设2.1—2.3之下,可证明算法具有充分下降性质:

引理2.1 对于任意 x ∈ intdom h x\in\text{intdom}h xintdomh λ > 0 \lambda>0 λ>0以及 x + ∈ T λ ( x ) x^{+}\in{T}_{\lambda}(x) x+Tλ(x), 都有不等式 λ Ψ ( x + ) ≤ λ Ψ ( x ) − ( 1 − λ L ) D h ( x + , x ) . \begin{equation}\nonumber \lambda\Psi(x^{+})\leq\lambda\Psi(x)-(1-\lambda{L})D_h(x^{+},x). \end{equation} λΨ(x+)λΨ(x)(1λL)Dh(x+,x).

h h h的凸性可知 D h D_h Dh是非负函数。结合引理2.1,可得如下定理:

定理2.1 如果假设2.1—2.3成立, 0 < λ L < 1 0<\lambda{L}<1 0<λL<1, { x k } \{x^k\} {xk}是 BPG 算法生成的序列,则有以下结论:

(1) 序列 { Ψ ( x k ) } \{\Psi(x^k)\} {Ψ(xk)}单调不增;

(2) ∑ k = 0 + ∞ D h ( x k , x k − 1 ) < ∞ \sum_{k=0}^{+\infty}D_h(x^{k},x^{k-1})<\infty k=0+Dh(xk,xk1)<, 因此有 D h ( x k , x k − 1 ) → 0 ( k → ∞ ) D_h(x^{k},x^{k-1})\to0 (k\to\infty) Dh(xk,xk1)0(k).

(3) min ⁡ 1 ≤ k ≤ n D h ( x k , x k − 1 ) ≤ λ n ( Ψ ( x 0 ) − Ψ ∗ 1 − λ L ) \min_{1\leq{k}\leq{n}}D_h(x^k,x^{k-1})\leq\frac{\lambda}{n}(\frac{\Psi(x^{0})-\Psi_{*}}{1-\lambda{L}}) min1knDh(xk,xk1)nλ(1λLΨ(x0)Ψ),其中 Ψ ∗ = v ( P ) > − ∞ \Psi_{*}=v(\mathcal{P})>-\infty Ψ=v(P)>.

实际上我们不难看出,如果函数 h h h满足假设2.1—2.3,那么 h + σ 2 ∥ ⋅ ∥ 2 h + \frac{\sigma}{2}\|\cdot\|^{2} h+2σ2一定也满足假设,其中 σ > 0 \sigma>0 σ>0. 因此不妨设 h h h是强凸函数,对应的强凸系数为 σ \sigma σ. 此时定理2.1中的 (3) 可推出 min ⁡ 1 ≤ k ≤ n ∥ x k − x k − 1 ∥ 2 ≤ λ n Ψ ( x 0 ) − Ψ ∗ σ ( 1 − λ L ) \min_{1\leq{k}\leq{n}}\|x^k-x^{k-1}\|^{2}\leq\frac{\lambda}{n}\frac{\Psi(x^{0})-\Psi_{*}}{\sigma(1-\lambda{L})} min1knxkxk12nλσ(1λL)Ψ(x0)Ψ.

2.3 收敛速度

为了证明算法的全局收敛性,本节我们设 C = R d C=\mathbb{R}^d C=Rd, 并添加了如下假设:

假设2.4 (1) dom h = R d \text{dom}h=\mathbb{R}^d domh=Rd, 且 h h h R d \mathbb{R}^d Rd上是 σ − \sigma- σ强凸的;

(2) ∇ h \nabla{h} h ∇ g \nabla{g} g R d \mathbb{R}^d Rd上都是局部 Lipschitz 连续的。

在假设2.1—2.4之下,可证明算法生成的序列 { x k } \{x^k\} {xk}是极小化 Ψ \Psi Ψ的一个类梯度下降序列。其定义如下:

定义1.3 F : R d → ( − ∞ , + ∞ ] F:\mathbb{R}^d\to(-\infty,+\infty] F:Rd(,+]是适当的下半连续函数。我们称 { x k } \{x^k\} {xk}是极小化 F F F的一个类梯度下降序列,当且仅当以下三个条件成立:

(1) 存在 ρ 1 > 0 \rho_1>0 ρ1>0, 使得 ρ 1 ∥ x k − x k − 1 ∥ 2 ≤ F ( x k ) − F ( x k − 1 ) \rho_1\|x^k-x^{k-1}\|^2\leq{F}(x ^k)-F(x^{k-1}) ρ1xkxk12F(xk)F(xk1)对所有 k k k成立;

(2) 存在 ρ 2 > 0 \rho_2>0 ρ2>0,使得对任意的 k k k都存在 ω k + 1 ∈ ∂ F ( x k + 1 ) \omega^{k+1}\in\partial{F}(x^{k+1}) ωk+1F(xk+1) ,
满足 ∥ ρ k + 1 ∥ ≤ ρ 2 ∥ x k + 1 − x k ∥ \|\rho_{k+1}\|\leq\rho_2\|x^{k+1}-x^k\| ρk+1ρ2xk+1xk

(3) 对于 { x k } \{x^k\} {xk}的聚点 x ˉ \bar{x} xˉ,
不妨设 lim ⁡ k → ∞ , k ∈ K x k = x ˉ \lim\limits_{k\to\infty,k\in\mathcal{K}}x^k=\bar{x} k,kKlimxk=xˉ.
此时有 lim sup ⁡ k → ∞ , k ∈ K F ( x k ) ≤ F ( x ˉ ) \limsup_{k\to\infty,k\in\mathcal{K}}F(x^k)\leq{F}(\bar{x}) limsupk,kKF(xk)F(xˉ).

利用类梯度下降序列的性质,我们可以证明算法的全局收敛性。记 Ψ \Psi Ψ的稳定点集合为 crit Ψ = { x ∈ R d : 0 ∈ ∂ Ψ ( x ) = ∂ f ( x ) + ∇ g ( x ) } , \begin{equation}\nonumber \text{crit}\Psi=\{x\in\mathbb{R}^d:0\in\partial\Psi(x)=\partial{f}(x)+\nabla{g}(x)\}, \end{equation} critΨ={xRd:0Ψ(x)=f(x)+g(x)},

序列 { x k } \{x^k\} {xk}所有聚点构成的集合为 ω ( x 0 ) \omega(x^0) ω(x0). 对于满足定义1.3的序列 { x k } \{x^k\} {xk}和对应的函数 F F F, 可证明 ω ( x 0 ) \omega(x^0) ω(x0) crit F \text{crit}F critF的非空紧子集,且 F F F ω ( x 0 ) \omega(x^0) ω(x0)中每点的取值是相同的。进一步,我们可得到如下结论:

定理2.2 如果假设2.1—2.4成立,且 0 < λ L < 1 0<\lambda{L}<1 0<λL<1, 则有:

(1) { x k } \{x^k\} {xk}任意聚点都是 Ψ \Psi Ψ的稳定点;

(2) 如果 Ψ \Psi Ψ满足 KL 性质,那么 ∑ ∥ x k + 1 − x k ∥ < ∞ \sum\|x^{k+1}-x^{k}\|<\infty xk+1xk< { x k } \{x^k\} {xk}收敛到某一个稳定点。

第三部分:数值算例

3.1 问题模型 (SQIP)

为证明算法的有效性,作者用提出的算法近似求解一个二次方程问题,问题的目标是近似寻找一个 x ∈ R d x\in \mathbb{R}^{d} xRd满足下面的一系列方程
x T A i x ≈ b i ,   i = 1 , 2 , … , m \begin{equation}\nonumber x^{T}A_{i}x \approx b_{i},~i=1,2,\ldots,m \end{equation} xTAixbi, i=1,2,,m

其中 A i ∈ R d A_{i}\in \\R^{d} AiRd是对称矩阵, b i ∈ R b_{i}\in \\R biR是包含噪声的测量值。

通常,研究的系统是欠定的,因此一般利用正则项把原始信号的一些先验信息包含进模型。正则项通常用一个函数 f f f表示,这个函数可能是非凸、非光滑、扩展值函数 (为包含约束)。当用最小平方模型来描述测量误差,那么问题能够重新描述为
(QIP)   min ⁡ { Ψ ( x ) : = 1 4 ∑ i = 1 m ( x T A i x − b i ) 2 + θ f ( x ) :   x ∈ R d } \begin{equation}\nonumber \text{(QIP)}~~\min\Big\{\Psi(x):=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}+\theta f(x):~x\in \\R^{d}\Big\} \end{equation} (QIP)  min{Ψ(x):=41i=1m(xTAixbi)2+θf(x): xRd}
其中 θ > 0 \theta>0 θ>0是一个惩罚参数,主要对数据的真实性和正则项 f f f之间进行平衡。
定义非凸函数 g : R d → R g:\\R^{d}\rightarrow \\R g:RdR
g ( x ) = 1 4 ∑ i = 1 m ( x T A i x − b i ) 2 . g(x)=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}. g(x)=41i=1m(xTAixbi)2.
函数 g g g$在 R d \R^{d} Rd是连续可微的,但是它的梯度不是全局利普希茨连续的,因此不能够采用经典的近端梯度法求解问题(QIP)。

3.2 算法求解

在这一部分,基本空间是 C ≡ R d C\equiv \R^{d} CRd,非凸函数 g : R d → R g:\R^{d}\rightarrow \R g:RdR被定义为
g ( x ) = 1 4 ∑ i = 1 m ( x T A i x − b i ) 2 . g(x)=\frac{1}{4}\sum_{i=1}^{m}(x^{T}A_{i}x-b_{i})^{2}. g(x)=41i=1m(xTAixbi)2.
对于非凸模型,我们考虑下面两种情况:

(a) 凸 l 1 l_{1} l1范数正则项,即 f : R d → R f:\R^{d}\rightarrow \R f:RdR,其中 f ( x ) = ∥ x ∥ 1 f(x)=\|x\|_{1} f(x)=x1
(b)非凸 l 0 l_{0} l0球约束。 f : R d → R f:\R^{d}\rightarrow \R f:RdR,其中 f ( x ) = δ B 0 s ( x ) f(x)=\delta_{\mathbb{B}_{0}^{s}}(x) f(x)=δB0s(x) l 0 l_{0} l0球上的指示函数,正整数 s < d s<d s<d
B 0 s = { x : ∥ x ∥ 0 ≤ s } , \mathbb{B}_{0}^{s}=\{x: \|x\|_{0}\leq s\}, B0s={x:x0s},
∥ x ∥ 0 \|x\|_{0} x0 l 0 l_0 l0范数,表示向量 x x x的非零元素个数。

为了把我们的方法应用到问题(a)和(b)中,我们首先需要选择一个合适的函数 h ∈ G ( R d ) h\in\mathcal{G}(\\R^{d}) hG(Rd)使得对于 ( g , h ) (g,h) (g,h) L-smad \textbf{L-smad} L-smad成立。这里,我们采用的 h : R d → R h:\R^{d}\rightarrow \R h:RdR
h ( x ) = 1 4 ∥ x ∥ 2 4 + 1 2 ∥ x ∥ 2 2 h(x)=\frac{1}{4}\|x\|_{2}^{4}+\frac{1}{2}\|x\|_{2}^{2} h(x)=41x24+21x22

现在,我们证明 L-smad \textbf{L-smad} L-smad成立,即存在 L > 0 L>0 L>0使得 L h − g Lh-g Lhg R d \R^{d} Rd上为凸。

引理3.1 假设 g g g h h h是上面定义的函数,那么对任意 L L L满足 L ≥ ∑ i = 1 m 3 ∥ A i ∥ 2 + ∥ A i ∥ ∣ b i ∣ , L\geq \sum_{i=1}^{m}3\|A_{i}\|^{2}+\|A_{i}\||b_{i}|, Li=1m3∥Ai2+Ai∥∣bi,
函数 L h − g Lh-g Lhg R d \R^{d} Rd上为凸函数。

为了把 2.2 2.2 2.2节的结果应用到问题(a)和(b)中,我们观察到上面的函数 h h h R d \R^{d} Rd上是 1 − 1- 1强凸,很容易看出假设 2.1 − 2.4 2.1-2.4 2.12.4是成立的。另外, g g g是实多项式函数,因此是半代数函数。函数 ∥ x ∥ 0 \|x\|_{0} x0 ∥ x ∥ 1 \|x\|_{1} x1也是半代数函数([4] 附录5)。因此,由于半代数函数的和是半代数函数,可得模型(a)和(b)的目标函数 Ψ \Psi Ψ是半代数函数,因此提出的BPG算法能够应用到模型(QIP) (a)和(b),且能够产生一个全局收敛序列收敛到 Ψ \Psi Ψ的临界点。另外,对于模型(a)和(b),全局收敛策略具有一个简明的显式迭代步,接下来会详细进行介绍。

在BPG算法中,我们需要计算Bregman近似梯度映射:
T λ ( x ) = arg ⁡ min ⁡ { f ( u ) + ⟨ ∇ g ( x ) , u − x ⟩ + 1 λ D h ( u , x ) :   u ∈ R d }    ( λ > 0 ) . T_{\lambda}(x)=\arg\min\Big\{f(u)+\langle\nabla g(x),u-x\rangle+\frac{1}{\lambda}D_{h}(u,x):~u\in \R^{d}\Big\}~~(\lambda >0). Tλ(x)=argmin{f(u)+g(x),ux+λ1Dh(u,x): uRd}  (λ>0).

对于模型 (a)和(b),我们将给出这一迭代步能够产生一个显式的解析解。

在描述之前,我们首先介绍一些简便的符号和一些余下章节将用到的著名算子。令 λ > 0 \lambda>0 λ>0并固定任意 x ∈ R d x\in \R^{d} xRd 。定义
p ≡ p λ ( x ) = λ ∇ g ( x ) − ∇ h ( x )   (为了简便,通常省略 λ 和 x ) \begin{equation}\tag{3.1} p \equiv p_{\lambda}(x)=\lambda \nabla g(x)-\nabla h(x)~~\text{(为了简便,通常省略}\lambda\text{和}x) \end{equation} ppλ(x)=λg(x)h(x)  (为了简便,通常省略λx)(3.1)

对于 ( g , h ) (g,h) (g,h),它们梯度的直接计算结果是 p λ ( x ) p_{\lambda}(x) pλ(x)。现在,忽略掉表达式 T λ T_{\lambda} Tλ中的常数项,可得
T λ ( x ) = arg ⁡ min ⁡ { λ f ( u ) + ⟨ p λ ( x ) , u ⟩ + h ( u ) :   u ∈ R d } . \begin{equation}\tag{3.2} T_{\lambda}(x)=\arg\min\Big\{\lambda f(u)+\langle p_{\lambda}(x),u\rangle+h(u):~u\in \R^{d}\Big\}. \end{equation} Tλ(x)=argmin{λf(u)+pλ(x),u+h(u): uRd}.(3.2)

接下来,我们介绍两个非常著名的算子,它们会用于计算 T λ T_{\lambda} Tλ
具有参数 τ \tau τ的软阈值算子。对任意 y ∈ R d y\in \R^{d} yRd

S τ ( y ) = arg ⁡ min ⁡ x ∈ R d { τ ∥ x ∥ 1 + 1 2 ∥ x − y ∥ 2 } = max ⁡ { ∣ y ∣ − τ , 0 } sgn ( y ) , \begin{equation}\tag{3.3} S_{\tau}(y)=\arg\min_{x\in\R^{d}}\Big\{\tau\|x\|_{1}+\frac{1}{2}\|x-y\|^{2}\Big\}=\max\{|y|-\tau,0\}\text{sgn}(y), \end{equation} Sτ(y)=argxRdmin{τx1+21xy2}=max{yτ0}sgn(y),(3.3)

其中绝对值按照分量进行计算。具有参数 τ \tau τ的硬阈值算子。对任意 y ∈ R d y\in \R^{d} yRd
H τ ( y ) = arg ⁡ min ⁡ x ∈ R d { ∥ x − y ∥ 2 :   x ∈ B 0 τ } = { y i ,    i ≤ τ , 0 ,   否则, \begin{equation}\tag{3.4} H_{\tau}(y)=\arg\min_{x\in\R^{d}}\Big\{\|x-y\|^{2}:~x\in\mathbb{B}_{0}^{\tau}\Big\}= \begin{cases} y_{i},~~i\leq \tau,\\ 0,~~\text{否则,} \end{cases} \end{equation} Hτ(y)=argxRdmin{xy2: xB0τ}={yi,  iτ,0,  否则,(3.4)

对于问题(a)和(b),我们分别建立 T λ T_{\lambda} Tλ的显式表达式。

命题3.1 ( l 1 l_{1} l1范数正则化的Bregman近似公式) 令 f = ∥ ⋅ ∥ 1 f=\|\cdot\|_{1} f=1 且对
x ∈ R d x\in\R^{d} xRd,令
v ( x ) : = S λ θ ( p λ ( x ) ) v(x):=S_{\lambda\theta}(p_{\lambda}(x)) v(x):=Sλθ(pλ(x))。那么 x + = T λ ( x ) x^{+}=T_{\lambda}(x) x+=Tλ(x)
x + = − t ∗ v ( x ) = t ∗ S λ θ ( ∇ h ( x ) − λ ∇ g ( x ) ) , x^{+}=-t^{*}v(x)=t^{*}S_{\lambda\theta}(\nabla h(x)-\lambda\nabla g(x)), x+=tv(x)=tSλθ(h(x)λg(x)), 是显示公式,其中 t ∗ t^{*} t是下面方程的唯一正实根,且具有显式公式形式。
t 3 ∥ v ( x ) ∥ 2 2 + t − 1 = 0 t^{3}\|v(x)\|_{2}^{2}+t-1=0 t3v(x)22+t1=0

接下来,我们考虑 l 0 l_{0} l0范数约束的稀疏二次逆问题。首先,我们回顾下下面的结果[5,命题4.3,79页]。

引理3.2 如果 0 ≠ a ∈ R d 0\neq a \in \R^{d} 0=aRd和正整数 s < d s<d s<d,可得 max ⁡ { ⟨ a , z ⟩ :   ∥ z ∥ 2 = 1 ,   ∥ z ∥ 0 ≤ s } = ∥ H s ( a ) ∥ 2 , \max\{\langle a,z \rangle:~\|z\|_{2}=1,~\|z\|_{0}\leq s\}=\|\mathcal{H}_{s}(a)\|_{2}, max{⟨a,z: z2=1, z0s}=Hs(a)2,
其中最优解为 z ∗ = H s ( a ) / ∥ H s ( a ) ∥ 2 z^{*}=\mathcal{H}_{s}(a)/\|\mathcal{H}_{s}(a)\|_{2} z=Hs(a)/∥Hs(a)2

命题3.2 ( l 0 l_{0} l0范数正则化的Bregman近似公式) 令 f = δ B 0 s f=\delta_{\mathbb{B}_{0}^{s}} f=δB0s x ∈ R d x\in \R^{d} xRd。那么
x + = T λ ( x ) x^{+}=T_{\lambda}(x) x+=Tλ(x)
x + = − t ∗ ∥ H s ( p λ ( x ) ) ∥ 2 − 1 H s ( p λ ( x ) ) x^{+}=-\sqrt{t^{*}}\|\mathcal{H}_{s}(p_{\lambda}(x))\|_{2}^{-1}\mathcal{H}_{s}(p_{\lambda}(x)) x+=t Hs(pλ(x))21Hs(pλ(x))
其中 t ∗ ≡ η ∗ \sqrt{t^{*}}\equiv \eta^{*} t η是下面立方方程的唯一非负实根
η 3 + η − ∥ H s ( p λ ( x ) ) ∥ 2 = 0. \begin{equation}\tag{3.5} \eta^{3}+\eta-\|\mathcal{H}_{s}(p_{\lambda}(x))\|_{2}=0. \end{equation} η3+ηHs(pλ(x))2=0.(3.5)

参考文献:
[1] Bolte, J., Sabach, S., Teboulle, M., & Vaisbourd, Y. (2018). First order methods beyond convexity and Lipschitz gradient continuity with applications to quadratic inverse problems. SIAM Journal on Optimization, 28(3), 2131-2151.

[2] Bauschke, H. H., Bolte, J., & Teboulle, M. (2017). A descent lemma beyond Lipschitz gradient continuity: first-order methods revisited and applications. Mathematics of Operations Research, 42(2), 330-348.

[3] Geiping, J., & Moeller, M. (2018). Composite optimization by nonconvex majorization-minimization. SIAM Journal on Imaging Sciences, 11(4), 2494-2528.

[4] Bolte, Jérôme, Sabach, S. , & Teboulle, M. (2014). Proximal alternating linearized minimization for nonconvex and nonsmooth problems. Mathematical Programming, 146(1-2), 459-494.

[5] Luss, R. , & Teboulle, M. . (2012). Conditional gradient algorithms for rank-one matrix approximations with a sparsity constraint. Siam Review, 55(1), 65-98.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/35450.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一次源码编译安装PostgreSql失败

需要perl&#xff1b;之前博文已提到&#xff1b;之前有一种编程语言叫perl&#xff0c;此perl应该不是那个&#xff1b;可到其官网下载&#xff0c;Perl Download - www.perl.org 安装时添加到环境变量&#xff1b; 可能是一个东西&#xff1b;有编程语言和工具&#xff1b;大…

html实现多种风格的时间轴(附源码)

文章目录 1.设计来源1.1 对称风格时间轴1.2 横向风格时间轴1.3 回忆风格时间轴1.4 记事风格时间轴1.5 简易风格时间轴1.6 科技风格时间轴1.7 列表风格时间轴1.8 跑道风格时间轴1.9 人物风格时间轴1.10 容器风格时间轴1.11 沙滩风格时间轴1.12 双边风格时间轴1.13 图文风格时间轴…

CRM系统中AI如何进行销售线索评分?有什么好处(上)

每个公司的TOP销售都是精明的猎手。他们善于从大量潜在客户中挑出最可能购买的&#xff0c;把最好的时间、精力和资源给到高意向客户。意向度差一些的排在后面&#xff0c;在资源分配上也会降低。现在&#xff0c;您可以通过AI来进行线索评分&#xff0c;可以说CRM销售线索评分…

【Linux】 Linus世界,WIndows VS Linux

文章目录 前言WindowsLinux操作系统Windows VS Linux收费情况技术支持安全性开源 区别 前言 在电脑世界有两种十分常见的电脑操作系统——Linux与和Windows&#xff0c;相信对电脑有一定了解的人对它们一定并不陌生&#xff01;但是在我们的使用过程中&#xff0c;是否有什么事…

MySQL用户管理

目录 用户管理 用户 用户信息 创建用户 删除用户 修改用户密码 数据库的权限 给用户授权 回收权限 用户管理 如果我们只能使用root用户&#xff0c;这样存在安全隐患。这时&#xff0c;就需要使用MySQL的用户管理。 用户 用户信息 MySQL中的用户&#xff0c;都存储…

3 springboot更改tomcat的端口和启动时的banner

3.1 更改tomcat端口 点击resources下的application.properties。 然后&#xff0c;添加以下信息&#xff0c;即可把端口号更改为8081。 # 更改项目的端口号 server.port80813.2 更改启动时的banner 首先&#xff0c;进入网站&#xff1a;https://www.bootschool.net/ascii-art…

STL源码刨析 string实现

目录 一. string 类介绍 二. string 的简单实现 1. 类内成员变量 2. Member functions string ~string operator string(const string& str) 3. Capacity size capacity empty clear reserve resize 4.Modifiers push_back append operator insert era…

微服务:Springboot集成Hystrix实现熔断、降级、隔离

文章目录 前言知识积累Springboot集成Hystrix1、maven依赖引入2、application开启feign的hystrix支持&#xff08;客户端配置限流降级熔断&#xff09;3、入口类增加EnableFeignClients EnableHystrix 开启feign与hystrix4、feign调用增加降级方法服务端配置限流降级熔断(选择使…

MySQL基础篇第1章(数据库概述)

文章目录 1、为什么要使用数据库2、数据库与数据库管理系统2.1 数据库的相关概念2.2 数据库与数据库管理系统的关系2.3 常见的数据库管理系统排名2.4 常见的数据库介绍 3、MySQL介绍3.1 概述3.2 MySQL发展史重大事件3.3 关于MySQL 8.03.4 Oracle VS MySQL 4、RDBMS 与 非RDBMS4…

基于Python热门旅游景点数据分析系统设计与实现

博主介绍&#xff1a; ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ &#x1f345; 文末获取源码联系 &#x1f345; &#x1f447;&#x1f3fb; 精彩专…

管理执行系统-亿发MES智能制造系统赋能制造企业信息化,实现工业现代化

在制造技术领域&#xff0c;质量控制信息集成建设需要健全的管理体系&#xff0c;加强全过程管理。虽然管理执行系统 (MES) 背后的理论思维已经取得了重大进展&#xff0c;但在软件应用集成和分析能力方面仍有改进的空间。本文将探讨MES系统如何赋能制造企业信息化&#xff0c;…

Camera API1 使用说明

Camera API2 使用说明 目录 一、开启相机 1.1创建项目 1.2注册权限 1.3配置相机特性要求 1.4 获取摄像头的个数 1.5 根据 ID 获取 CameraInfo facing 1.6 开启相机 1.7 关闭相机 二、预览 2.1认识 Parameters 2.2 设置预览尺寸 2.3添加预览 Surface 2.4 开启和关…

指针的进阶(1)

指针的回顾 在C语言中&#xff0c;指针是一个变量&#xff0c;与其他数据不同的是&#xff0c;它的作用是用来存储其它变量的内存地址。指针可以指向不同类型的数据&#xff0c;包括整数、浮点数 、字符、数组等。通过使用指针&#xff0c;我们可以直接访问和修改存储在内存中…

Zabbix 的使用

Zabbix 的使用 一、添加 zabbix 客户端主机1.1 环境准备1.2 服务端和客户端都配置时间同步1.3 服务端和客户端都设置 hosts 解析1.4 设置 zabbix 的下载源&#xff0c;安装 zabbix-agent21.5 修改 agent2 配置文件1.6 启动 zabbix-agent21.7 在服务端验证 zabbix-agent2 的连通…

Android Studio实现内容丰富的安卓校园新闻浏览平台

如需源码可以添加q-------3290510686&#xff0c;也有演示视频演示具体功能&#xff0c;源码不免费&#xff0c;尊重创作&#xff0c;尊重劳动。 项目编号070 1.开发环境 android stuido jdk1.8 eclipse mysql tomcat 2.功能介绍 安卓端&#xff1a; 1.注册登录 2.查看新闻列表…

【爬虫】百度FengXiangBiao(完全爬虫卡住了,是爬虫+文本提取方式)

学习使用。爬虫有风险。使用需谨慎。切记切记。 参考链接&#xff1a;学习python爬虫—爬虫实践&#xff1a;爬取B站排行榜 都是排行榜反正 网页细节 按F12&#xff0c;打开控制台。前端就是这点好&#xff0c;非常直观。 找到排行的具体位置&#xff0c;如下图&#xff0c;这…

【如何成功加载 HuggingFace 数据集】不使用Colab,以ChnSentiCorp数据集为例

【如何成功加载 HuggingFace 数据集】不使用Colab&#xff0c;以ChnSentiCorp数据集为例 前置加载数据集尝试一&#xff1a;标准加载数据库代码尝试二&#xff1a;科学上网尝试三&#xff1a;把 Huggingface 的数据库下载到本地尝试3.5 创建 state.json彩蛋 前置 Huggingface …

找不到 配置管理器。sql server 2008 r2 在win10下

win10 打开sqlserver2008r2的SQL Server 配置管理器 &#xff0c;通过开始程序中找不到“SQL Server 配置管理器”。去自己电脑上此目录找&#xff0c;“C:\Windows\SysWOW64\SQLServerManager10.msc”&#xff0c;直接运行此文件就可以调出“SQL Server 配置管理器”。 在win1…

c语言内存

程序是保存在硬盘中的&#xff0c;要载入内存才能运行&#xff0c;CPU也被设计为只能从内存中读取数据和指令。 对于CPU来说&#xff0c;内存仅仅是一个存放指令和数据的地方&#xff0c;并不能在内存中完成计算功能&#xff0c; 如&#xff1a;计算abc,必须将a,b,c都读取到CPU…

CodeMirror 对 XML 文档熟悉及元素控制自定义

CodeMirror 是一个网络代码编辑器组件。它可以在网站中用于实现支持多种编辑功能的文本输入字段&#xff0c;并具有丰富的编程接口以允许进一步扩展。 本文为 xml 格式的代码提示约束格式规范的自定义示例内容。 先看效果&#xff0c;如下&#xff1a; 官方 Demo 的完整代码如…