Block Successive Upper Bound Minimization Method(BSUM)算法

BSUM优化方法学习

  • 先验知识
  • 参考资料1 A Unified Convergence Analysis of Block Successive Minimization Methods for Nonsmooth Optimization
  • SUCCESSIVE UPPER-BOUND MINIMIZATION (SUM) 连续上限最小化算法
  • THE BLOCK SUCCESSIVE UPPER-BOUND MINIMIZATION ALGORITHM 块连续上限最小化算法
  • 应用案例
  • 参考资料2 A Block Successive Upper Bound Minimization Method of Multipliers for Linearly Constrained Convex Optimization
    • 概述
    • 应用例子
    • 文献综述

先验知识

在这里插入图片描述

参考资料1 A Unified Convergence Analysis of Block Successive Minimization Methods for Nonsmooth Optimization

块坐标下降 (BCD) 方法广泛用于最小化多个块变量的连续函数 f。 在此方法的每次迭代中,都会优化单个变量块,而其余变量保持固定。 为了保证BCD方法的收敛性,每次迭代中待优化的子问题都需要准确地求解到其唯一的最优解。 不幸的是,这些要求对于许多实际场景来说往往限制太多。 在本文中,我们研究了一种替代的不精确 BCD 方法,该方法通过连续最小化 f 的一系列近似值来更新变量块,这些近似值要么是 f 的局部紧上限,要么是 f 的严格凸局部近似值。 我们专注于表征相当广泛的此类方法的收敛特性,特别是对于目标函数不可微或非凸的情况。 我们的结果统一并扩展了许多经典算法的现有收敛结果,例如BCD方法、凸函数差(DC)方法、期望最大化(EM)算法以及交替近端最小化算法。

Block Coordinate Descent, Block Successive Upper-bound Minimization, Successive Convex Ap-
proximation, Successive Inner Approximation在这里插入图片描述

SUCCESSIVE UPPER-BOUND MINIMIZATION (SUM) 连续上限最小化算法

为了深入了解一般的不精确 BCD 方法,让我们首先考虑一种简单的连续上限最小化 (SUM) 方法,其中所有变量都分组到一个块中。 尽管形式简单,SUM 算法却是 DC 编程 [33] 和 EM 算法 [4] 等许多重要算法的关键。 考虑以下优化问题

考虑以下优化问题
min ⁡ f ( x ) s.t. x ∈ X , \begin{array}{cc}\min&f(x)\\\\\text{s.t.}&x\in\mathcal{X},\end{array} mins.t.f(x)xX,

其中 X \mathcal{X} X 是闭凸集。 不失一般性,我们可以假设 dom f = X \text{dom} \mathcal{f} = \mathcal{X} domf=X。当目标函数 f ( ⋅ ) \mathcal{f}(·) f() 非凸和/或非光滑时,直接求解 (2) 可能并不容易。 SUM 算法通过优化一系列近似目标函数来规避这种困难。 更具体地说,从可行点 x 0 x^0 x0开始,算法根据以下更新规则生成序列 { x r } \{x^r\} {xr}
x r ∈ arg ⁡ min ⁡ x ∈ X u ( x , x r − 1 ) x^r\in\arg\min_{x\in\mathcal{X}}\quad u(x,x^{r-1}) xrargxXminu(x,xr1)

其中, x r − 1 x^{r-1} xr1 是由算法在第 r − 1 r-1 r1 次迭代生成的点,而 u ( x , x r − 1 ) u(x, x^{r-1}) u(x,xr1) 是第 r r r 次迭代中对 f ( x ) f(x) f(x) 的近似。通常需要选择近似函数 u ( ⋅ , ⋅ ) u(\cdot, \cdot) u(,),使得子问题(3)易于求解。此外,为了保证 SUM 算法的收敛性,需要满足 u ( ⋅ , ⋅ ) u(\cdot, \cdot) u(,) 的某些规律性条件(稍后将讨论)。在其它要求中, u ( x , x r − 1 ) u(x, x^{r-1}) u(x,xr1) 需要是 f ( x ) f(x) f(x) 的全局上界,因此得名该算法。SUM 算法的主要步骤如图 1 1 1 所示。

在这里插入图片描述

我们指出,所提出的 SUM 算法在许多方面与[21]中开发的内近似算法(IAA)相似,但有以下主要区别:
• IAA 算法近似目标函数和可行集。 相反,SUM算法仅近似目标函数。
• IAA 算法仅适用于具有光滑目标的问题,而SUM 算法也能够处理非光滑目标。

值得一提的是,现有的IAA算法的收敛结果相当弱。 特别是,[21,定理 1] 指出,如果整个序列收敛,那么算法应该收敛到一个驻点。 接下来,我们表明,只要近似函数 u ( ⋅ , ⋅ ) u(\cdot, \cdot) u(,)满足我们在下面概述的某些温和假设1,SUM 算法就可以提供更强的收敛保证。

Assumption 1 Let the approximation function u ( ⋅ , ⋅ ) u(\cdot,\cdot) u(,) satisfy the following
(A1)(A2)(A3)(A4)
u ( y , y ) = f ( y ) , ∀ y ∈ X u ( x , y ) ≥ f ( x ) , ∀ x , y ∈ X u ′ ( x , y ; d ) ∣ x = y = f ′ ( y ; d ) , ∀ d w i t h y + d ∈ X u ( x , y )  is continuous in  ( x , y ) \begin{aligned} &u(y,y)=f(y),\quad\forall y\in\mathcal{X} \\ &u(x,y)\geq f(x),\quad\forall x,y\in\mathcal{X} \\ &u^{\prime}(x,y;d)\bigg|_{x=y}=f^{\prime}(y;d),\quad\forall d \mathrm{with} y+d\in\mathcal{X} \\ &u(x,y)\text{ is continuous in }(x,y) \end{aligned} u(y,y)=f(y),yXu(x,y)f(x),x,yXu(x,y;d) x=y=f(y;d),dwithy+dXu(x,y) is continuous in (x,y)

The assumptions (Al) and (A2) imply that the approximate function u ( ⋅ , x r − 1 ) u(\cdot,x^{r-1}) u(,xr1) in (3) is a tight upper bound of the original function. The assumption (A3) guarantees that the first order behavior of u ( ⋅ , x r − 1 ) u(\cdot,x^{r-1}) u(,xr1) is the same as f ( ⋅ ) f(\cdot) f() locally (note that the directional derivative u ′ ( x , y ; d ) u^{\prime}(x,y;d) u(x,y;d) is only with respect to the variable x ) . x). x). Although directly checking (A3) may not be easy, the following proposition provides a sufficient condition under which (A3) holds true automatically.

假设(Al)和(A2)意味着在(3)中的近似函数 u ( ⋅ , x r − 1 ) u(\cdot, x^{r-1}) u(,xr1) 是原始函数的紧上界。假设(A3)保证了 u ( ⋅ , x r − 1 ) u(\cdot, x^{r-1}) u(,xr1) 的一阶导数为与局部的 f ( ⋅ ) f(\cdot) f() 相同(注意,方向导数 u ′ ( x , y ; d ) u'(x, y; d) u(x,y;d) 仅针对变量 x x x)。虽然直接验证(A3)可能并不容易,但以下命题提供了一个充分条件,在此条件下(A3)自动成立。


Proposition 1 Assume f ( x ) = f 0 ( x ) + f 1 ( x ) , w h e r e f(x)=f_0(x)+f_1(x),where f(x)=f0(x)+f1(x),where f 0 ( ⋅ ) f_0(\cdot) f0() is continuously differentiable and the directional derivative o f f 1 ( ⋅ ) off_{1}( \cdot ) off1() exists a t at at every point x ∈ X . x\in \mathcal{X} . xX. Consider u ( x , y ) = u 0 ( x , y ) + f 1 ( x ) u( x, y) = u_{0}( x, y) + f_{1}( x) u(x,y)=u0(x,y)+f1(x), where u 0 ( x , y ) u_{0}( x, y) u0(x,y) is a a a continuously differentiable function satisfying the following conditions

命题 1 假设 f ( x ) = f 0 ( x ) + f 1 ( x ) f(x) = f_0(x) + f_1(x) f(x)=f0(x)+f1(x),其中 f 0 ( ⋅ ) f_0(\cdot) f0() 是连续可微的,并且 f 1 ( ⋅ ) f_1(\cdot) f1() 的方向导数在每一点 x ∈ X x \in \mathcal{X} xX 都存在。考虑 u ( x , y ) = u 0 ( x , y ) + f 1 ( x ) u(x, y) = u_{0}(x, y) + f_{1}(x) u(x,y)=u0(x,y)+f1(x),其中 u 0 ( x , y ) u_{0}(x, y) u0(x,y) 是一个连续可微的函数,满足以下条件:
u 0 ( y , y ) = f 0 ( y ) , ∀ y ∈ X u 0 ( x , y ) ≥ f 0 ( x ) , ∀ x , y ∈ X . \begin{aligned}&u_{0}(y,y)=f_{0}(y),\quad\forall y\in\mathcal{X}\\&u_{0}(x,y)\geq f_{0}(x),\quad\forall x,y\in\mathcal{X}.\end{aligned} u0(y,y)=f0(y),yXu0(x,y)f0(x),x,yX.

Then, (A1), (A2) and (A3) hold for u ( ⋅ , ⋅ ) u(\cdot, \cdot) u(,).


Theorem 1 : Assume that Assumption 1 is satisfied. Then every limit point of the iterates generated by
the SUM algorithm is a stationary point of the problem (2).

定理 1 假设满足假设 1。那么,由 SUM 算法生成的迭代序列的每一个极限点都是问题(2)的稳定点。

(10)

P r o o f : Proof{:} Proof: Firstly, we observe the following series of inequalities

f ( x r + 1 ) ≤ ( i ) u ( x r + 1 , x r ) ≤ ( i i ) u ( x r , x r ) = f ( x r ) , ∀   r = 0 , 1 , 2 , … f(x^{r+1})\stackrel{(\mathrm{i})}{\leq}u(x^{r+1},x^r)\stackrel{(\mathrm{ii})}{\leq}u(x^r,x^r)=f(x^r),\quad\forall\:r=0,1,2,\ldots f(xr+1)(i)u(xr+1,xr)(ii)u(xr,xr)=f(xr),r=0,1,2,

where step (i) is due to (Al), step (ii) follows from the optimality of x t + 1 x^{t+1} xt+1 (cf. step 4 and 5 in Figll), and the last equality is due to (A2). A straightforward consequence of (10) is that the sequence of the objective function values are non-increasing, that is

f ( x 0 ) ≥ f ( x 1 ) ≥ f ( x 2 ) ≥ … f(x^0)\geq f(x^1)\geq f(x^2)\geq\ldots f(x0)f(x1)f(x2)

Assume that there exists a subsequence { x r j } \{x^{r_j}\} {xrj} converging to a limit point z . z. z. Then Assumptions (A1),
(A2) together with (11) imply that

u ( x r j + 1 , x r j + 1 ) = f ( x r j + 1 ) ≤ f ( x r j + 1 ) ≤ u ( x r j + 1 , x r j ) ≤ u ( x , x r j ) , ∀   x ∈ X u(x^{r_{j+1}},x^{r_{j+1}})=f(x^{r_{j+1}})\leq f(x^{r_{j}+1})\leq u(x^{r_{j}+1},x^{r_{j}})\leq u(x,x^{r_{j}}),\quad\forall\:x\in\mathcal{X} u(xrj+1,xrj+1)=f(xrj+1)f(xrj+1)u(xrj+1,xrj)u(x,xrj),xX
Letting j → ∞ j\to\infty j, we obtain

u ( z , z ) ≤ u ( x , z ) , ∀   x ∈ X , u(z,z)\leq u(x,z),\quad\forall\:x\in\mathcal{X}, u(z,z)u(x,z),xX,

(11)

which implies

u ′ ( x , z ; d ) ∣ x = z ≥ 0 , ∀   d ∈ R m   with   z + d ∈ X . \left.u'(x,z;d)\right|_{x=z}\geq0,\quad\forall\:d\in\mathbb{R}^m\:\text{with}\:z+d\in\mathcal{X}. u(x,z;d)x=z0,dRmwithz+dX.

Combining with (A3), we obtain

f ′ ( z ; d ) ≥ 0 , ∀   d ∈ R m   with   z + d ∈ X , f'(z;d)\geq0,\quad\forall\:d\in\mathbb{R}^m\:\text{with}\:z+d\in\mathcal{X}, f(z;d)0,dRmwithz+dX,

implying that z z z is a stationary point of f ( ⋅ ) . f(\cdot). f().

Corollary   1   Assume   that   the   level   set   X 0 = { x ∣ f ( x ) ≤ f ( x 0 ) } \textbf{Corollary 1 Assume that the level set }\mathcal{X} ^0= \{ x\mid f( x) \leq f( x^0) \} Corollary 1 Assume that the level set X0={xf(x)f(x0)} is compact and Assumption Z \mathbb{Z} Z holds.
Then, the sequence of iterates { x r } \{x^r\} {xr} generated by the SUM algorithm satisfy

lim ⁡ r → ∞ d ( x r , X ∗ ) = 0 , \lim\limits_{r\to\infty}\quad d(x^r,\mathcal{X}^*)=0, rlimd(xr,X)=0,

where X ∗ X^* X is the set of stationary points of (2).

THE BLOCK SUCCESSIVE UPPER-BOUND MINIMIZATION ALGORITHM 块连续上限最小化算法

在许多实际应用中,优化变量(复数)可以分解为独立的块(复数)。 当明智地利用这种块结构时,可以产生可分布式实现的低复杂度算法。 在本节中,我们介绍块连续上界最小化(BSUM)算法,该算法有效地考虑了这种块结构。

让我们假设可行集 X \mathcal{X} X n n n 个闭凸集的笛卡尔积: X = X 1 × … × X n \mathcal{X}=\mathcal{X}_1\times\ldots\times\mathcal{X}_n X=X1××Xn,其中 X i ⊆ R m i \mathcal{X}_i \subseteq \mathbb{R}^{m_i} XiRmi,且 ∑ i m i = m \sum_i m_i = m imi=m。相应地,优化变量 x ∈ R m x \in \mathbb{R}^m xRm 可以被分解为: x = ( x 1 , x 2 , … , x n ) x=(x_{1},x_{2},\ldots,x_{n}) x=(x1,x2,,xn),其中 x i ∈ X i x_i \in \mathcal{X}_{i} xiXi i = 1 , ⋯   , n i=1, \cdots, n i=1,,n。我们感兴趣的问题是
min ⁡ f ( x ) s . t . x ∈ X . \begin{array}{ll}\min&f(x)\\\\\mathrm{s.t.}&x\in\mathcal{X}.\end{array} mins.t.f(x)xX.

与 SUM 算法不同,BSUM 算法在每次迭代中仅更新单个变量块。 更准确地说,在第 r r r次迭代时,通过解决以下子问题来计算所选块(例如块 i i i
min ⁡ x i u i ( x i , x r − 1 ) s . t . x i ∈ X i , \begin{aligned}&\min_{x_{i}}\quad u_{i}(x_{i},x^{r-1})\\&\mathrm{s.t.}\quad x_{i}\in\mathcal{X}_{i},\end{aligned} ximinui(xi,xr1)s.t.xiXi,

其中 u i ( ⋅ , x r − 1 ) u_i(\cdot, x^{r-1}) ui(,xr1) 再次是对原始目标函数 f ( ⋅ ) f(\cdot) f() 在点 x r − 1 x^{r-1} xr1 的近似(实际上是全局上界)。图 2 总结了 BSUM 算法的主要步骤。注意,尽管块是按照简单的循环规则更新的,但算法及其收敛结果可以轻松扩展到(更通用的)本质上的循环更新规则。这一点将在第七节进一步阐述。
where u i ( ⋅ , x r − 1 ) u_i(\cdot,x^{r-1}) ui(,xr1) is again an approximation (in fact, a global upper-bound) of the original objective f ( ⋅ ) f(\cdot) f() at the point x r − 1 x^{r-1} xr1.Fig. 2 \color{red}{\boxed{2}} 2 summarizes the main steps of the BSUM algorithm. Note that although the blocks are updated following a simple cyclic rule, the algorithm and its convergence results can be easily extended to the (more general) essentially cyclic update rule as well. This point will be further elaborated in Section VII

现在我们准备研究 BSUM 算法的收敛行为。 为此,函数 u i ( ⋅ , ⋅ ) u_{i}( \cdot, \cdot) ui(,) 需要满足以下正则条件。

Assumption 2
(B1)(B2)(B3)(B4)
u i ( y i , y ) = f ( y ) , ∀ y ∈ X , ∀ i u i ( x i , y ) ≥ f ( y 1 , … , y i − 1 , x i , y i + 1 , … , y n ) , ∀ x i ∈ X i , ∀ y ∈ X , ∀ i u i ′ ( x i , y ; d i ) ∣ x i = y i = f ′ ( y ; d ) , ∀ d = ( 0 , … , d i , … , 0 ) s . t . y i + d i ∈ X i , ∀ i u i ( x i , y ) is continuous in  ( x i , y ) , ∀ i \begin{aligned}&u_{i}(y_{i},y)=f(y),\quad\forall y\in\mathcal{X},\forall i\\&u_{i}(x_{i},y)\geq f(y_{1},\ldots,y_{i-1},x_{i},y_{i+1},\ldots,y_{n}),\quad\forall x_{i}\in\mathcal{X}_{i},\forall y\in\mathcal{X},\forall i\\&u_{i}'(x_{i},y;d_{i})\bigg|_{x_{i}=y_{i}}=f'(y;d),\quad\forall d=(0,\ldots,d_{i},\ldots,0) \mathrm{s.t.} y_{i}+d_{i}\in\mathcal{X}_{i},\forall i\\&u_{i}(x_{i},y) \text{is continuous in }(x_{i},y),\quad\forall i\end{aligned} ui(yi,y)=f(y),yX,iui(xi,y)f(y1,,yi1,xi,yi+1,,yn),xiXi,yX,iui(xi,y;di) xi=yi=f(y;d),d=(0,,di,,0)s.t.yi+diXi,iui(xi,y)is continuous in (xi,y),i
与命题1类似,我们可以确定一个充分条件来保证(B3)。

Proposition 2 Assume f ( x ) = f 0 ( x ) + f 1 ( x ) , w h e r e f(x)=f_0(x)+f_1(x),where f(x)=f0(x)+f1(x),where f 0 ( ⋅ ) f_0(\cdot) f0() is continuously differentiable and the directional derivative of f 1 ( ⋅ ) f_1(\cdot) f1() exists at every point x ∈ X . Consider   u i ( x i , y ) = u 0 , i ( x i , y ) + f 1 ( x ) , w h e r e x\in \mathcal{X} . \textit{Consider }u_i( x_i, y) = u_{0, i}( x_i, y) + f_1( x) , where xX.Consider ui(xi,y)=u0,i(xi,y)+f1(x),where u 0 , i ( x i , y )   satisfres   the   following   assumptions u_{0, i}( x_i, y) \textit{ satisfres the following assumptions} u0,i(xi,y) satisfres the following assumptions

命题 2 假设 f ( x ) = f 0 ( x ) + f 1 ( x ) f(x)=f_0(x)+f_1(x) f(x)=f0(x)+f1(x),其中 f 0 ( ⋅ ) f_0(\cdot) f0() 是连续可微的,并且 f 1 ( ⋅ ) f_1(\cdot) f1() 的方向导数在每一点 x ∈ X x \in \mathcal{X} xX 都存在。考虑 u i ( x i , y ) = u 0 , i ( x i , y ) + f 1 ( x ) u_i(x_i, y) = u_{0, i}(x_i, y) + f_1(x) ui(xi,y)=u0,i(xi,y)+f1(x),其中 u 0 , i ( x i , y ) u_{0, i}(x_i, y) u0,i(xi,y) 满足以下假设:
u 0 , i ( x i , x ) = f 0 ( x ) , ∀ x ∈ X , ∀ i u 0 , i ( x i , y ) ≥ f 0 ( y 1 , … , y i − 1 , x i , y i + 1 , … , y n ) , ∀ x , y ∈ X ∀ i . \begin{aligned}&u_{0,i}(x_{i},x)=f_0(x),\quad\forall x\in\mathcal{X},\quad\forall i\\&u_{0,i}(x_{i},y)\geq f_0(y_1,\ldots,y_{i-1},x_i,y_{i+1},\ldots,y_n), \forall x,y\in\mathcal{X}\quad\forall i.\end{aligned} u0,i(xi,x)=f0(x),xX,iu0,i(xi,y)f0(y1,,yi1,xi,yi+1,,yn),x,yXi.

Then, (B1), (B2), and (B3) hold.

证明:证明与命题1的证明完全相同。

BSUM算法的收敛结果由两部分组成。 第一部分假设目标函数拟凸,保证了极限点的存在。 这与 [2] 中 BCD 方法的经典收敛证明的精神相同。 然而,如果我们知道迭代位于一个紧凑的集合中,那么就可以证明更强的结果。 事实上,在定理的第二部分中,收敛是通过放宽拟凸性假设同时施加水平集的紧性假设来获得的。

Theorem 2
(a) 假设函数 u i ( x i , y ) u_i(x_i, y) ui(xi,y) x i x_i xi 上是准凸的,并且假设 2 \boxed{2} 2 成立。此外,假设子问题 (13) 对于任意点 x r − 1 ∈ X x^{r-1} \in \mathcal{X} xr1X 有唯一解。那么,由 BSUM 算法生成的迭代序列的每个极限点 z z z 都是 (12) 的坐标最小值。此外,如果 f ( ⋅ ) f(\cdot) f() z z z 处是正则的,那么 z z z 是 (12) 的稳定点。

(b) 假设水平集 X 0 = { x ∣ f ( x ) ≤ f ( x 0 ) } \mathcal{X}^0 = \{x \mid f(x) \leq f(x^0)\} X0={xf(x)f(x0)} 是紧致的,并且假设 2 \boxed{2} 2 成立。此外,假设对于任意点 x r − 1 ∈ X x^{r-1} \in \mathcal{X} xr1X,至少 n − 1 n-1 n1 个块的子问题 (13) 有唯一解。如果 f ( ⋅ ) f(\cdot) f() 在稳定点集 X ∗ X^* X 中的每个点相对于坐标 x 1 , … , x n x_{1}, \ldots, x_{n} x1,,xn 都是正则的。那么,由 BSUM 算法生成的迭代序列收敛到稳定点集,即
lim ⁡ r → ∞ d ( x r , X ∗ ) = 0. \lim\limits_{r\to\infty}\quad d(x^r,\mathcal{X}^*)=0. rlimd(xr,X)=0.




应用案例

论文
Movable Frequency Diverse Array-Assisted Covert Communication With Multiple Wardens

Next, we define the non-convex function in (21a) as
y k , m , n ( x ) = cos ⁡ [ 2 π ( ( f m x − f n x n ) sin ⁡ θ w k − sin ⁡ θ b c + ( f m − f n ) r b − r w k c ) ] . ( 22 ) \left.y_{k,m,n}\left(x\right)=\cos\left[2\pi\left(\begin{array}{c}\left(f_mx-f_nx_n\right)\frac{\sin\theta_{w_k}-\sin\theta_b}{c}\\+\left(f_m-f_n\right)\frac{r_b-r_{w_k}}{c}\end{array}\right.\right)\right].\\(22) yk,m,n(x)=cos[2π((fmxfnxn)csinθwksinθb+(fmfn)crbrwk)].(22)

Following the BSUM method, the objective function (22)
is approximated by the upper-bound quadratic function
u k , m , n ( x ) u_{k,m,n} (x) uk,m,n(x), which is defined by
u k , m , n ( x ) = A k , m , n ( x − B k , m , n ) 2 + C k , m , n , u_{k,m,n}\left(x\right)=A_{k,m,n}(x-B_{k,m,n})^{2}+C_{k,m,n}, uk,m,n(x)=Ak,m,n(xBk,m,n)2+Ck,m,n,

where A k , m , n ∈ R , A k , m , n > 0 , B k , m , n ∈ R A_{k,m,n}\in\mathbb{R}, A_{k,m,n}>0, B_{k,m,n}\in\mathbb{R} Ak,m,nR,Ak,m,n>0,Bk,m,nR and C k , m , n ∈ R C_{k,m,n}\in \mathbb{R} Ck,m,nR are the parameters of the new quadratic function. For a given point x m s − 1 x_m^{s-1} xms1 in (22), the approximate function (23) should satisfy the following constraints:
{ u k , m , n ( x m s − 1 ; x n s − 1 ) = y k , m , n ( x m s − 1 ; x n s − 1 ) u k , m , n ′ ( x m s − 1 ; x n s − 1 ) = y k , m , n ′ ( x m s − 1 ; x n s − 1 ) u k , m , n ( B k , m , n ; x n s − 1 ) ∈ { 1 , − 1 } − 1 ≤ y k , m , n ( B k , m , n ; x n s − 1 ) ≤ 1 , \left.\left\{\begin{array}{l}u_{k,m,n}\left(x_m^{s-1};x_n^{s-1}\right)=y_{k,m,n}\left(x_m^{s-1};x_n^{s-1}\right)\\u_{k,m,n}^{'}\left(x_m^{s-1};x_n^{s-1}\right)=y_{k,m,n}^{'}\left(x_m^{s-1};x_n^{s-1}\right)\\u_{k,m,n}\left(B_{k,m,n};x_n^{s-1}\right)\in\{1,-1\}\\-1\leq y_{k,m,n}\left(B_{k,m,n};x_n^{s-1}\right)\leq1,\end{array}\right.\right. uk,m,n(xms1;xns1)=yk,m,n(xms1;xns1)uk,m,n(xms1;xns1)=yk,m,n(xms1;xns1)uk,m,n(Bk,m,n;xns1){1,1}1yk,m,n(Bk,m,n;xns1)1,






参考资料2 A Block Successive Upper Bound Minimization Method of Multipliers for Linearly Constrained Convex Optimization

概述

Consider the problem of minimizing a convex function f ( x ) f(x) f(x) subject to linear equality constraints:

minimize   f ( x ) : = g ( x 1 , ⋯   , x K ) + ∑ h k ( x k ) \begin{aligned}\text{minimize}\: f(x):=g\left(x_1,\cdots,x_K\right)+\sum h_k(x_k)\end{aligned} minimizef(x):=g(x1,,xK)+hk(xk)

(1.1)

subject to   E 1 x 1 + E 2 x 2 + ⋯ + E K x K = q , \begin{aligned}\text{subject to}\: E_1x_1+E_2x_2+\cdots+E_Kx_K=q,\end{aligned} subject toE1x1+E2x2++EKxK=q,

x k ∈ X k x_k\in X_k xkXk, k = 1 , 2 , . . . , K k= 1, 2, . . . , K k=1,2,...,K

where g ( ⋅ ) g(\cdot) g() is a smooth convex function; h k h_k hk is a nonsmooth convex function; x = ( x 1 T , . . . , x K T ) T ∈ ℜ n x=(x_1^T,...,x_K^T)^T\in\Re^n x=(x1T,...,xKT)Tn is a partition of the optimization variable x , x k ∈ ℜ n k ; X = ∏ k = 1 K X k x,x_k\in\Re^{n_k};X=\prod_{k=1}^KX_k x,xknk;X=k=1KXk is the feasible set for x ; q ∈ ℜ m x;q\in\Re^m x;qm is a vector. Let E : = ( E 1 , ⋯   , E K ) E:=(E_1,\cdots,E_K) E:=(E1,,EK) and h ( x ) : = ∑ k = 1 K h k ( x k ) . h(x):=\sum_k=1^Kh_k(x_k). h(x):=k=1Khk(xk). Many contemporary problems in signal processing, machine learning and smart grid systems can be formulated in the form (1.1) To motivate our work, we discuss several examples of the form (1.1) below.

在这里插入图片描述

应用例子

basis pursuit (BP) problem
在这里插入图片描述
在这里插入图片描述

the control of a smart grid system

在这里插入图片描述

在这里插入图片描述

cognitive radio network
(CRN)
在这里插入图片描述

文献综述

当线性耦合约束不存在时,求解(1.1)的一个众所周知的技术是使用所谓的块坐标下降(BCD)方法,在每次迭代中,单个变量块被优化,而其余块保持固定。更具体地,在迭代r,通过以下方式以高斯-赛德尔方式更新块:

在这里插入图片描述

由于每一步都涉及解决一个小规模的简单子问题,BCD方法对于解决大规模问题非常有效;参见例如,[11 -14]和其中的参考文献。BCD方法的现有分析[15-18]要求每个子问题(1.7)的极小值的唯一性,或f的拟凸性[19]。当问题(1.7)不容易求解时,一种流行的方法是求解问题(1.7)的近似版本,产生块坐标梯度下降(BCGD)算法(或存在非光滑函数h时的块坐标近似梯度算法)[13,20-22]。BCD型算法的全局收敛速度已被广泛研究。当目标函数是强凸时,BCD算法全局线性收敛[23]。当目标函数光滑且不是强凸时,Luo和Tseng证明了BCD方法及其许多变体仍然可以线性收敛,只要在解集周围满足一定的局部误差界条件[23-26]。这条分析线最近被扩展到允许目标中的某类非光滑函数[21,27 -29]。最近有一些工作描述了BCD型算法的全局次线性收敛速度[14,22,30,31]。特别地,参考文献[30]证明了对于一类非光滑凸问题,带有Gauss-Seidel更新规则的BCD算法在O(1 r)阶下是次线性收敛的.此外,在[1]中提出了一个统一的算法框架,称为BSUM(块连续上限最小化)及其收敛性分析,其中在每一步中,目标函数的局部紧上限被连续最小化以更新可变块。

当存在线性耦合约束时,众所周知,BCD型算法可能无法找到任何(局部)最优解[32]。解决这类问题的常用算法是所谓的交替方向乘子法(ADMM)[33-36]。在ADMM方法中,不是始终保持可行性,而是使用拉格朗日乘数y将约束Ex = q对偶化,并添加二次惩罚项。所得到的增广拉格朗日函数具有以下形式:
在这里插入图片描述
其中 ρ > 0 是常数,<·,·> 表示内积运算符。 ADMM 方法通过使用 BCD 类型过程更新原始块变量 x1,… , xn 来最小化 L(x; y)。后者通常会导致具有封闭形式解决方案的简单子问题。 这些原始更新之后是对偶变量 y 的梯度上升更新。

尽管 ADMM 算法早在 1976 年就由 Gabay、Mercier、Glowinski 和 Marrocco 提出[35,37],但由于其在机器学习和计算机视觉产生的现代大规模优化问题中的应用,它直到最近才变得流行起来[33] ,38-42]。 在实践中,该算法通常在计算上非常高效,并且比传统算法(例如双上升算法[43-45]或乘法器方法[46])收敛速度更快。 ADMM的收敛性是在目标可分离且只有两个块变量的条件下成立的,即g(x1,····,xK)=g1(x1)+····+gK(xK), K = 2 [35,37]。 对于诸如压缩感知引起的大规模问题,原始每块子问题的最优解可能不容易计算[47]。 在这些情况下,经典的 ADMM 可以修改为对每个子问题执行简单的近端梯度步骤 [34,40,47-50]。 当只有两个块变量时,最近的一些工作 [51, 52] 表明 ADMM 方法以 O(1/ r ) 的速率收敛(对于加速版本 [53] 则为 O( 1 / r2 ))。 此外,参考文献[53-55]表明,当目标函数是强凸且只有两个变量块时,ADMM 会线性收敛。 最近的一项研究 [56] 表明,在 K ≥ 3 的情况下,ADMM 的全局(线性)收敛,假设: a) 对于每个 k,Ek 是满列秩; b) 双步长足够小; c) 最优解集周围存在一定的误差界限; d) 目标是可分离的。 如果不满足这些条件并且当K≥3时,[57]表明ADMM通常确实可以发散。 最近的一些其他工作尝试针对 K ≥ 3 的情况修改原始 ADMM [58-60]。

不幸的是,BCD 和 ADMM 都不能用来解决问题(1.1)。 事实上,由于其多块结构以及目标和约束的变量耦合,该问题无法通过许多其他大数据方法来处理,包括SpaRSA [61],FPCBB [62],FISTA [63] ]、ALM [64]、HOGWILD [65]、FPA [66]。 本文的主要贡献是提出并分析了一种新颖的乘子分块连续上限最小化方法(BSUM-M)及其随机版本,可以有效地解决问题(1.1)。 BSUM-M算法集成了BSUM和ADMM算法,每次优化原始问题一个块变量的近似增广拉格朗日,然后使用梯度上升步骤更新对偶变量。 由此产生的算法是灵活的,因为我们可以选择合适的增强拉格朗日函数的近似值,从而可以方便地更新原始变量块(例如以封闭形式)。 在没有线性耦合约束的情况下,随机BSUM-M算法简化为随机BCD算法。 在本例中,我们表明,对于一系列没有强凸目标的问题,随机 BCD 算法实际上是线性收敛的(符合预期)。 据我们所知,这是第一个显示随机 BCD 算法在没有强凸性的情况下线性收敛速度的结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/920677.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[STM32]从零开始的STM32 HAL库环境搭建

一、前言 之前在搭建STM32的标准库环境时就告诉过大家&#xff0c;开发STM32的方式主要有三种。一种是最原始但是效率最高的寄存器开发&#xff0c;另一种是效率仅次于寄存器难度相对较低的标准库开发&#xff0c;最后一种是最为简单但是程序效率最低的HAL库开发。如果对于初学…

【论文笔记】Large Brain Model (LaBraM, ICLR 2024)

Code: https://github.com/935963004/LaBraM Data: 无 目录 AbstractIntroductionMethodNeural tokenizer training&#xff1a;Pre-training LaBraM&#xff1a; ResultsExperimental setup&#xff1a;Pre-training result&#xff1a;Comparison with SOTA&#xff1a;Pre-t…

AnythingLLM - 任何文档资源内容转换为任何LLM

更多AI开源软件&#xff1a; AI开源 - 小众AIhttps://www.aiinn.cn/sources 一个全栈应用程序&#xff0c;使您能够将任何文档、资源或内容转换为任何 LLM 都可以在聊天期间用作参考的上下文。此应用程序允许您选择要使用的 LLM 或矢量数据库&#xff0c;并支持多用户管理和权…

PDF内容提取,MinerU使用

准备环境 # python 3.10 python3 -m pip install huggingface_hub python3 -m pip install modelscope python3 -m pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com下载需要的模型 import json import osimport requests from huggingface_hub…

【阅读记录-章节3】Build a Large Language Model (From Scratch)

目录 3 Coding attention mechanisms3.1 The problem with modeling long sequences背景&#xff1a;注意力机制的动机 3.2 Capturing data dependencies with attention mechanismsRNN的局限性与改进Transformer架构的革命 3.3 Attending to different parts of the input wit…

Kubernetes配置管理ConfigMap、Secret

Your burden will become a gift, and your suffering will light your way. 应用部署的一个最佳实践是将应用所需的配置信息与程序分离,这样可以使应用程序被更好地复用,通过不同的配置也能实现更灵活的功能。将应用打包为容器镜像后,可以通过环境变量或者外挂文件的方式在…

141. Sprite标签(Canvas作为贴图)

上节课案例创建标签的方式&#xff0c;是把一张图片作为Sprite精灵模型的颜色贴图,本节给大家演示把Canvas画布作为Sprite精灵模型的颜色贴图&#xff0c;实现一个标签。 注意&#xff1a;本节课主要是技术方案讲解&#xff0c;默认你有Canvas基础&#xff0c;如果没有Canvas基…

「OpenCV交叉编译」ubuntu to arm64

Ubuntu x86_64 交叉编译OpenCV 为 arm64OpenCV4.5.5、cmake version 3.16.3交叉编译器 gcc-arm-10.2-2020.11-x86_64-aarch64-none-linux-gnu 可在arm或linaro官网下载所需版本&#xff0c;本文的交叉编译器可点击链接跳转下载 Downloads | GNU-A Downloads – Arm Developer L…

鸿蒙网络编程系列48-仓颉版UDP回声服务器示例

1. UDP回声服务器简介 回声服务器指的是这样一种服务器&#xff0c;它接受客户端的连接&#xff0c;并且把收到的数据原样返回给客户端&#xff0c;本系列的第2篇文章《鸿蒙网络编程系列2-UDP回声服务器的实现》中基于ArkTS语言在API 9的环境下实现了UDP回声服务器&#xff0c…

【WPF】Prism学习(七)

Prism Dependency Injection 1.注册类型&#xff08;Registering Types&#xff09; 1.1. Prism中的服务生命周期&#xff1a; Transient&#xff08;瞬态&#xff09;&#xff1a;每次请求服务或类型时&#xff0c;都会获得一个新的实例。Singleton&#xff08;单例&#xf…

springboot基于Hadoop的NBA球员大数据分析与可视化(1)(6)

摘 要 科学技术日新月异&#xff0c;人们的生活都发生了翻天覆地的变化&#xff0c;NBA球员大数据分析与可视化系统当然也不例外。过去的信息管理都使用传统的方式实行&#xff0c;既花费了时间&#xff0c;又浪费了精力。在信息如此发达的今天&#xff0c;可以通过网络这个媒…

Q3净利增长超预期,文心大模型调用量大增,百度未来如何分析?

首先&#xff0c;从百度发布的2024年第三季度财务报告来看&#xff0c;其净利润同比增长17%&#xff0c;超出了市场预期&#xff0c;显示出百度整体财务表现的强劲。这一增长不仅体现在总营收和百度核心营收上&#xff0c;更具体地反映在归属百度核心的净利润上&#xff0c;这标…

Vscode/Code-server无网环境安装通义灵码

Date: 2024-11-18 参考材料&#xff1a;https://help.aliyun.com/zh/lingma/user-guide/individual-edition-login-tongyi-lingma?spma2c4g.11186623.0.i0 1. 首先在vscode/code-server插件市场中安装通义插件&#xff0c;这步就不细说了。如果服务器没网&#xff0c;会问你要…

开源TTS语音克隆神器GPT-SoVITS_V2版本地整合包部署与远程使用生成音频

文章目录 前言1.GPT-SoVITS V2下载2.本地运行GPT-SoVITS V23.简单使用演示4.安装内网穿透工具4.1 创建远程连接公网地址 5. 固定远程访问公网地址 前言 本文主要介绍如何在Windows系统电脑使用整合包一键部署开源TTS语音克隆神器GPT-SoVITS&#xff0c;并结合cpolar内网穿透工…

实战 | C#中使用YoloV8和OpenCvSharp实现目标检测 (步骤 + 源码)

导 读 本文主要介绍在C#中使用YoloV8实现目标检测,并给详细步骤和代码。 详细步骤 【1】环境和依赖项。 需先安装VS2022最新版,.NetFramework8.0,然后新建项目,nuget安装 YoloSharp,YoloSharp介绍: https://github.com/dme-compunet/YoloSharp 最新版6.0.1,本文…

IDE配置tomcat

1.导航到 Tomcat 安装目录 E:\apache-tomcat-9.0.95-windows-x64\apache-tomcat-9.0.95 2.启动 Tomcat 服务&#xff1a;bin\startup.bat

python读取Oracle库并生成API返回Json格式

一、安装必要的库 首先&#xff0c;确保已经安装了以下库&#xff1a; 有网模式 pip install flask pip install gevent pi install cx_Oracle离线模式&#xff1a; 下载地址&#xff1a;https://pypi.org/simple/flask/ # a. Flask Werkzeug-1.0.1-py2.py3-none-any.whl J…

MAC借助终端上传jar包到云服务器

前提&#xff1a;保证工程本地已打包完成&#xff1a;图中路径即为项目的target目录下已准备好的jar包 第一步&#xff1a;打开终端&#xff08;先不要连接自己的服务器&#xff09;&#xff0c;输入下面的上传命令&#xff1a; scp /path/to/local/app.jar username192.168.1…

Python数据分析NumPy和pandas(四十、Python 中的建模库statsmodels 和 scikit-learn)

主要学习两个流行的建模工具包&#xff0c;statsmodels 和 scikit-learn。 一、pandas 与模型代码之间的接口 模型开发的常见工作流程是使用 pandas 进行数据加载和清理&#xff0c;然后再切换到建模库来构建模型本身。模型开发过程的一个重要部分在机器学习中称为特征工程&a…

实操案例|TinyVue树表+动态行合并

本文由孟智强同学原创。 背景 团队某个小项目切换 UI 框架&#xff0c;要将 Element 换成 TinyVue。期间遇到一个树表形式的业务表格&#xff0c;支持多级下钻&#xff0c;且第一列有合并行。当初用 Element 实现这个表格时费了一些周折&#xff0c;料想 TinyVue 上场应该也不…