优化|非强凸问题的一阶算法线性收敛条件(一)

在这里插入图片描述

原文信息(包括题目、发表期刊、原文链接等):Linear convergence of first order methods for non-strongly convex optimization

原文作者:I. Necoara, Yu. Nesterov, F. Glineur

论文解读者:陈宇文

编者按:

传统的一阶算法在强凸条件下是可以得到线性收敛速率的,但是非强凸条件下只有次线性收敛速率。近年来,最新的研究表明在某些特殊条件下,一阶算法的线性收敛速度仍然成立。本文将基于发表于Mathematical Programming上的Linear convergence of first order methods for non-strongly convex optimization一文[1]详细介绍有哪些非强凸条件可以使得一阶算法的收敛速率成立。

一、传统的一阶算法收敛速度

在对于一阶算法进行收敛性分析时,传统的一阶算法在强凸条件下是可以得到线性收敛速率的,但是非强凸条件下只有次线性收敛速率。对于一个在 X X X集合上的凸优化问题

最常见的一阶算法是梯度下降法(GM),

最常见的加速方法是动量加速法(FGM),

这两个算是优化算法领域最经典的算法,算法收敛速度取决于函数 f ( x ) f(x) f(x)光滑性强凸性

  1. f ( x ) f(x) f(x) L f L_f Lf光滑时,即

此时GM和FGM的收敛速率为次线性,依次为 O ( 1 / k ) O\left({1}/{k}\right) O(1/k) O ( 1 / k 2 ) O\left({1}/{k^2}\right) O(1/k2)

  1. f ( x ) f(x) f(x) L f L_f Lf光滑同时又满足 σ f \sigma_f σf强凸条件(我们称之为问题 S L f , σ f ( X ) \mathbf{S_{L_f,\sigma_f}(X)} SLf,σf(X)),即满足如下的(等价)强凸条件

此时GM和FGM的收敛速度可以被提升到线性收敛,

可以发现线性收敛速度取决于强凸条件 σ f \sigma_f σf参数(见公式(6))。那如果函数 f ( x ) f(x) f(x)要是不满足强凸条件((5)或者(7)-(8)),我们是否能根据某些更弱的条件推出一阶算法的线性收敛速率?

我们首先定义梯度映射 g ( x ) g(x) g(x)

这个可以看成是根据相邻两个周期的 x x x(基于投影梯度下降算法)做位移的近似。

根据强凸条件,我们可以得到如下的不等式

这将在接下来的分析中起着关键作用。

二、其他有用的非强凸条件

相较于强凸条件((5),(7)或者(8)),文中介绍了5种新的松弛条件。在之后的介绍中,我们都默认 f f f L f L_f Lf光滑的函数。

2.1 拟强凸模型

假设在强凸条件(7)中,我们取近似点 y = x ˉ ≡ [ x ] X ∗ y=\bar{x} \equiv [x]_{X^*} y=xˉ[x]X,则可以得到拟强凸模型 q S L f , κ f ( X ) \mathit{q}S_{L_f,\kappa_f}(X) qSLf,κf(X)

2.2 二次下估计模型

假设在强凸条件(7)中,我们取近似点 y = x , x = x ˉ ≡ [ x ] X ∗ y=x, x=\bar{x} \equiv [x]_{X^*} y=x,x=xˉ[x]X,则可以得到二次下估计模型 U L f , κ f ( X ) U_{L_f,\kappa_f}(X) ULf,κf(X)

此时条件数 μ f = κ f / L f ∈ ( 0 , 1 ] \mu_f = \kappa_f/L_f \in (0,1] μf=κf/Lf(0,1]

2.3 二次梯度增长模型

把公式(11)和(14)相加,则可以得到二次增长型条件 G L f , κ f ( X ) G_{L_f, \kappa_f}(X) GLf,κf(X):

2.4 二次增长函数模型

熟悉凸优化的同学应该知道一阶最优条件
⟨ ∇ f ( x ∗ ) , y − x ∗ ⟩ ≥ 0 , ∀ y ∈ X , x ∗ ∈ X ∗ . \langle \nabla f(x^*), y - x^* \rangle \ge 0, \forall y \in X, x^* \in X^*. f(x),yx0,yX,xX.
假设我们不考虑一阶部分在强凸条件(7)中的作用,同时公式(7)中带入 y = x , x = x ˉ ≡ [ x ] X ∗ y=x, x=\bar{x} \equiv [x]_{X^*} y=x,x=xˉ[x]X,则可以得到二次增长型条件 F L f , κ f ( X ) F_{L_f, \kappa_f}(X) FLf,κf(X):

2.5 各类条件的强弱关系

需要注意的是,如上的4种条件都不需要函数是凸的!!!这些关系的强弱程度在文中的定理4和图1中可见:


图1:各类条件之间的包含关系图

可以看出强凸条件(7)的条件最强,而二次函数增长条件(23)最弱。

对于投影梯度下降算法

假设 x + x^+ x+在最优解集合 X ∗ X^* X上面的结果 x ˉ + = [ x + ] X ∗ \bar{x}^+ = [x^+]_{X^*} xˉ+=[x+]X。如果能够证明每次迭代之后, x + x^+ x+相对于 X ∗ X^* X的距离要比 x x x更近,那么可以证明函数 f f f本身是二次增长型条件 F L f , κ f ( X ) F_{L_f, \kappa_f}(X) FLf,κf(X)

2.6 误差边界条件

除此之外,文中还介绍了基于梯度映射
g ( x ) = L f ( x − x + ) g(x) = L_f(x-x^+) g(x)=Lf(xx+)
有关的误差边界条件。可以知道在最优解 x ∗ x^* x g ( x ∗ ) = 0 g(x^*)=0 g(x)=0,当问题是无约束优化( X = R n X = \mathbb{R}^n X=Rn)时, g ( x ) = ∇ f ( x ) g(x) = \nabla f(x) g(x)=f(x)。对于梯度 L f L_f LfLipschitz连续时,我们有

公式(30)中取 y = x ˉ y=\bar{x} y=xˉ f ( x + ) ≥ f ∗ f(x^+) \ge f^* f(x+)f可以得到

文中进一步定义了全局误差边界条件 ε L f , κ f ( X ) \varepsilon_{L_f,\kappa_f}(X) εLf,κf(X)

此时条件数 μ f = κ f / L f ∈ ( 0 , 2 ] \mu_f = \kappa_f/L_f \in (0,2] μf=κf/Lf(0,2]。文中定理6和定理7证明了误差边界条件 ε L f , ⋅ ( X ) \varepsilon_{L_f,\cdot}(X) εLf,(X)和二次增长型条件 F L f , ⋅ ( X ) F_{L_f, \cdot}(X) FLf,(X)是相互包含的关系:

三、函数实例分析

对于上一节介绍的几种松弛强凸条件,文中也列举了几个相关的问题模型,问题的约束条件都是线性的,即可表示成多面体

的形式。对于多面体 P \mathcal{P} P,一定存在Hoffman常数 θ ( A , C ) > 0 \theta(A,C) > 0 θ(A,C)>0,满足如下不等式

上式可以理解为,现有点 x x x与最优集合 X ∗ X^* X的距离是被 x x x与多面体 P \mathcal{P} P的距离控制住的(详情可见文献[2])。对于 α = β = 2 \alpha=\beta=2 α=β=2的情形,Hoffman常数 θ ( A , C ) \theta(A,C) θ(A,C)满足

其中 r = rank [ A ⊤ , C ⊤ ] r = \text{rank}[A^\top,C^\top] r=rank[A,C]

文中考虑了三种模型,都是函数有非满秩的二次惩罚项:

3.1 数学模型

模型1:

其中, g g g是强凸且光滑的函数,且 A ∈ R m × n A \in \mathbb{R}^{m \times n} ARm×n。当 A A A列满秩时,(39)是强凸函数。当 A A A不是列满秩时,则有:

模型2:

当添加线性损失函数 c ⊤ x c^\top x cx但是无约束条件时,即

则有

模型3:

相较于(42),当有线性约束条件时,即

我们需要假设函数 f f f有一定的上界 M M M(有界性),才能满足

可以发现,这三种问题都要求存在二次型损失函数(不需要满秩)部分。

另外再回过头看定理10,如果考虑映射 A = I A = I A=I,那么公式(43)中的目标函数就是 σ g \sigma_g σg强凸的。因为(类)强凸性系数 σ g ≥ κ f \sigma_g \ge \kappa_f σgκf(定义在定理10中的 κ f \kappa_f κf),所以我们可以发现通过松弛条件(定理10)得到的线性收敛速率要弱于强凸条件(7)下得到的线性收敛速率。

3.2 应用实例

对于上述几类问题模型,文中也给出了几个应用实例,例如Lasso问题和经典的线性规划问题:

Lasso问题

f ( x ) = g ( A x ) + c ⊤ x f(x) = g(Ax) + c^\top x f(x)=g(Ax)+cx g g g是强凸且光滑的函数时,如果重新定义$\mathbb{x} = [x_+ - x_-] ,那么问题可以转化成经典的 Q P 问题,满足前面模型 3 ,即 ,那么问题可以转化成经典的QP问题,满足前面模型3,即 ,那么问题可以转化成经典的QP问题,满足前面模型3,即f \in F_{L_f, \kappa_f}(X)$。

线性规划

线性规划问题( K = R + N \mathcal{K} = \mathbb{R}_+^N K=R+N

的最优性KKT条件为

可以同时写成

其中

可以把上述寻找可行解问题转换成一个QP问题:

此时(71)满足模型1, f ( x ) = g ( A x ) , g ( x ) = ∣ ∣ x − d ∣ ∣ 2 f(x)=g(Ax), g(x)= ||x-d||^2 f(x)=g(Ax),g(x)=∣∣xd2

五、其他算法在非强凸条件下收敛性分析

对于第二部分中讨论的几种非强凸条件,文中证明了梯度下降算法(GM)是可以保证线性收敛的:

而对于动量加速法(FGM),文中只证明对于拟强凸模型 q S L f , κ f ( X ) \mathit{q}S_{L_f,\kappa_f}(X) qSLf,κf(X),可以获得加速线性收敛速度

除此之外,文中还分析了重启动梯度下降(restarted fast gradient descent)和非精确梯度下降(inexact gradient descent)相关的线性收敛性分析,感兴趣的同学可以阅读原文[1]。

小结

文章中提出了好几种相比于强凸条件的松弛,其中最值得注意还是二次增长型条件 F L f , κ f ( X ) F_{L_f, \kappa_f}(X) FLf,κf(X)和全局误差边界条件 ε L f , κ f ( X ) \varepsilon_{L_f,\kappa_f}(X) εLf,κf(X)。个人觉得这些松弛条件是一种相比于强凸条件不同的分析视角:强凸条件考虑的是函数 f ( x ) f(x) f(x)的全局特征( ∀ x , y ∈ X \forall x, y \in X x,yX),而这些松弛条件刻画了迭代变量 x x x与最优解集合 X ∗ X^* X之间的几何关系( ∀ x ∈ X , ∀ y ∈ X ∗ \forall x \in X, \textcolor{red}{\forall y \in X^*} xX,yX)。

另外对于线性约束条件(多面体 P \mathcal{P} P),一阶算法线性收敛速度与多面体的Hoffman常数 θ ( A , C ) \theta(A,C) θ(A,C)相关,而这又和矩阵 A , C A,C A,C的奇异值相关,这个也比较符合大家的直觉(约束条件越规则的几何形状,算法收敛速度越快)。

同时需要注意,(11), (14), (18)和(23)这些条件都不需要 f f f是凸函数,所以文中几类非强凸松弛条件对于非凸问题收敛性的研究也具有重要意义。

最近几年已经有很多关于非强凸但线性收敛的一阶算法研究,例如半正定规划转换为非凸问题后的局部线性收敛性质[3],一阶算法PDHG基于sharpness(公式(23)中的二次项变成一次项)的线性收敛性[4],也希望感兴趣的同学能在这个有趣的领域添砖加瓦。

[1] Necoara, I., Nesterov, Y. & Glineur, F. Linear convergence of first order methods for non-strongly convex optimization. Math. Program. 175, 69–107 (2019).
[2] Hoffman, A.J.: On approximate solutions of systems of linear inequalities. J. Res. Natl. Bur. Stand. 49(4), 263–265 (1952)
[3] Erdogdu, M.A., Ozdaglar, A., Parrilo, P.A. et al. Convergence rate of block-coordinate maximization Burer–Monteiro method for solving large SDPs. Math. Program. 195, 243–281 (2022).
[4] Applegate, D., Hinder, O., Lu, H. et al. Faster first-order primal-dual methods for linear programming using restarts and sharpness. Math. Program. 201, 133–184 (2023).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/398950.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW压电驱动迟滞补偿控制

LabVIEW压电驱动迟滞补偿控制 随着精密控制技术的迅速发展,压电陶瓷驱动器因其高精度和快速响应特性,在微纳精密定位系统中得到了广泛应用。然而,压电材料固有的迟滞非线性特性严重影响了其定位精度和重复性。开发了一种基于LabVIEWFPGA的压…

WSL里的Ubuntu 登录密码忘了怎么更改

环境: Win10 专业版 WSL2 如何 Ubuntu22.04 问题描述: WSL里的Ubuntu 登录密码忘了怎么更改 解决方案: 在WSL中的Ubuntu系统中,忘记了密码,可以通过以下步骤重置密码: 1.打开命令提示符或PowerShel…

HTTP的详细介绍

目录 一、HTTP 相关概念 二、HTTP请求访问的完整过程 1、 建立连接 2、 接收请求 3、 处理请求 3.1 常见的HTTP方法 3.2 GET和POST比较 4、访问资源 5、构建响应报文 6、发送响应报文 7、记录日志 三、HTTP安装组成 1、常见http 服务器程序 2、apache介绍和特点 …

Idea中使用git将多次提交记录合并成一次提交记录

一、查看Idea中的提交记录 查看Idea中的提交记录,我们希望将新增了bbb.txt、新增了ccc.txt、新增了ddd.txt,这三次提交记录合并成一次提交记录。 二、使用Interactively Rebase from Here进行合并 2.1、把鼠标放在新增了bbb.txt这次提交记录上并右键单击 把鼠标放…

文件上传漏洞--Upload-labs--Pass17--条件竞争

一、条件竞争原理(结合代码审计) 1、首先进行代码审计,查看源代码。 我们可知,将文件上传至服务器后,不会被立即删除,而是做短暂的停留,中间会有一小部分时间差,这部分时间差是代码…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 2月21日,星期三

每天一分钟,知晓天下事! 2024年2月21日 星期三 农历正月十二 1、 央行:5年期LPR下调25个基点至3.95%。100万元房贷30年少还5.2万元。 2、 民航局等四部门明确:到2025年,机场噪声污染防控标准体系基本建成。 3、 应急…

云数据库 Redis 性能深度评测(阿里云、华为云、腾讯云、百度智能云)

在当今的云服务市场中,阿里云、腾讯云、华为云和百度智能云都是领先的云服务提供商,他们都提供了全套的云数据库服务,其中 Redis属于RDS 之后第二被广泛应用的服务,本次测试旨在深入比较这四家云服务巨头在Redis云数据库性能方面的…

相机图像质量研究(25)常见问题总结:CMOS期间对成像的影响--过曝、欠曝

系列文章目录 相机图像质量研究(1)Camera成像流程介绍 相机图像质量研究(2)ISP专用平台调优介绍 相机图像质量研究(3)图像质量测试介绍 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距 相机图像质量研究(5)常见问题总结:光学结构对成…

欲速则不达,慢就是快!

引言 随着生活水平的提高,不少人的目标从原先的解决温饱转变为追求内心充实,但由于现在的时间过得越来越快以及其他外部因素,我们对很多东西的获取越来越没耐心,例如书店经常会看到《7天精通Java》、《3天掌握XXX》等等之类的书籍…

《最新出炉》系列初窥篇-Python+Playwright自动化测试-23-处理select下拉框-下篇

1.简介 上一篇中宏哥主要讲解和分享了一下,我们常见或者传统的select下拉框的操作,但是近几年又出现了了一种新的select下拉框,其和我们传统的select下拉框完全不一样,那么我们如何使用playwright对其进行定位操作了。宏哥今天就…

[word] 如何将word文本转换成表格? #知识分享#学习方法#媒体

如何将word文本转换成表格? 如何将word文本转换成表格?不管是Word入门新手还是老手,相信这个技巧会让你更加熟练Word,操作起来得心应手! 1.文本转换成表格 同样的要怎么把一堆凌乱的数据转换成表格呢?这里…

Java基础常用API(1)

文章目录 1:API 概述1.1 API概述和课程安排1.2 包和导包 2:Scanner2.1 Scanner基本使用2.2 练习(数据求和) 3:Random3.1 Random基本使用3.2 练习(猜数字游戏) 1:API 概述 1.1 API概述和课程安排 我们在讲解面向对象的时候&#…

NestJS入门6:日志中间件

前文参考: NestJS入门1 NestJS入门2:创建模块 NestJS入门3:不同请求方式前后端写法 NestJS入门4:MySQL typeorm 增删改查 NestJS入门5:加入Swagger 1. 安装 nest g middleware logger middleware​ ​ ​ 2. lo…

嵌入式linux开发之LAN8720A网络驱动

网络硬件组成 OSI模型和TCP/IP模型的对比 嵌入式网络硬件分为两部分:MAC 和 PHY。 MAC(Medium Access Control)和PHY(Physical Layer)是计算机网络领域中常见的术语,通常用于描述数据链路层(…

java数据结构与算法刷题-----LeetCode503. 下一个更大元素 II

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 解题思路:时间复杂度和空间复杂度都是O(n) 此题是739题的衍生题…

Python学习-流程图、分支与循环(branch and loop)

十、流程图 1、流程图(Flowchart) 流程图是一种用于表示算法或代码流程的框图组合,它以不同类型的框框代表不同种类的程序步骤,每两个步骤之间以箭头连接起来。 好处: 1)代码的指导文档 2)有助…

Mountain Environment - Dynamic Nature

包含超过470个环境预制件,要运行HD或URP,将包导入到HD或URP项目中,然后在“HD和URP支持”文件夹中的资源中导入支持包。它将替换着色器、预制件和网格,以便它们可以与RP一起使用。另请检查该文件夹中的自述文件。 此包是: 100%扫描资产的大型图书馆,经过精心优化、分类和…

读书笔记之《查理芒格的智慧》:如何建立跨学科的思维模型?

《查理芒格的智慧—投资的格栅理论》作者是[美] 罗伯特哈格斯特朗Robert G. Hagstrom, 原作名: Investing: The Last Liberal Art,于2015年出版。 罗伯特哈格斯特朗Robert G. Hagstrom:美盛投资顾问公司首席投资策略师、董事总经理。本科与硕…

vue 常用库

vue-cropper 一个优雅的图片裁剪插件 dayjs Day.js 是一个轻量的处理时间和日期的 JavaScript 库,和 Moment.js 的 API 设计保持完全一样 NutUI-Bingo 基于 NutUI 的抽奖组件库,助力营销活动和小游戏场景。

”戏说“ 交换机 与 路由器

一般意义上说 老哥 这文章发表 的 东一榔头 西一锤 呵呵, 想到哪里就啰嗦到哪里 。 交换机: 其实就是在通道交换 路由器: 不光是在通道交换还要在协议上交换 下图你看懂了吗? (仅仅数据交换-交换机 协议…