KKT基础知识

KKT条件定义

KKT条件(Karush–Kuhn–Tucker conditions)是最优化(特别是非线性规划)领域最重要的成果之一,是判断某点是极值点的必要条件。

最优化问题

要选择一组参数(变量),在满足一定的限制条件(约束)下,使设计指标(目标)达到最优值。

根据有无约束以及约束特征,可以将最优化问题分为以下三类,每类问题的求解方法也紧跟着列出。

最优化问题分类

无约束优化问题**:直接求导、最速下降法、共轭梯度法、牛顿法等;
等式约束优化问题:拉格朗日(Lagrange)乘数法;
不等式约束优化问题
:**KKT条件。

KKT条件理论部分

如果没有人提出KKT理论,对于不等式约束的优化问题,我们该怎么思考呢?下面是一个小例子:

m i n      f ( X )      s . t      g ( X ) ≤ 0 min \;\; f(X) \;\; s.t \;\; g(X) \leq 0 minf(X)s.tg(X)0

如果是最小化问题,即**minf(X)**,约束改写为**g(X)>=0**的形式(原因后文会解释)。

目前我们会求导也会等式约束下的拉格朗日乘数法

一步步来,先对f(X)函数求导吧(若X多维则是求梯度),即先不考虑g(X)<=0这个约束

先求导取得f(X)的极小值,然后将极小值那个点对应的x值带入g(x)看看满不满足小于0的这个约束

带入g(X)会出现3个情况

g(X)<0

那正好满足约束,X*就是我们要找的最优解

猛然发现,此时该约束完全不起作用啊(称为不起作用约束),毕竟我们计算X*时压根都没考虑它。

=0

也就是最优解X*正好也让约束取了等号

转化为含有等式约束的优化问题。拉格朗日乘数法

>0

显然此时的X*不满足约束,应舍弃

接下来只用考虑<0和=0的情况

如果<0则是约束不起作用,转化为无约束优化问题

=0则是用拉格朗日乘数法来求解

可以分类讨论但是数学家追求形式的大一统

既然都已经引进拉格朗日乘子λ了,那也得想办法使得在g(X*)<0情形下,也要与λ有点关系。

考虑到若g(X*)<0,此时该约束不起作用,而已经构造好的拉格朗日函数中又有λ,怎么办?

很简单,让拉格朗日函数中的λ=0即可!此时拉格朗日函数可不就简化为L(x, λ)=f(X)了嘛此时对L(x, λ)求导(等价于对f(X)求导)时既不用管约束,也没有λ干扰,简直完美。

总结一下就是

(1)若g(X*)=0,引入拉格朗日乘子λ,并要求λ≥0;
(2)若g(X*)<0,要求λ=0。

发现可以采用λg(X*)=0的形式统一了!!!牛逼啊!!!

KKT条件的数学公式

仅有一个不等式约束的KKT条件

式(1):对拉格朗日函数求梯度(若X一维就是求导),其中,下三角表示梯度;
式(2):核心公式,要么λ=0,要么g(X*)=0(此处要求两者不能同时为0);
式(3):拉格朗日乘子λ必须是正的(下一部分的图示法有证明);
式(4):原问题自己的约束。

可见,式(1)和(2)都是等式,可以帮助我们求最优X*λ,因为式(2)要分类讨论,所以可能存在多个X*λ;式(3)和(4)主要起验证作用,帮助我们排除掉一些不满足式(3)和(4)的X*λ

具体地,在应用KKT条件计算时,通常也是分类讨论后先求解X*和λ,再验证其是否满足式(3)和(4),从而排除一些解。

像上述仅含有一个约束的例子,只需要分两类,通常是以拉格朗日乘子λ是否为0进行分类:

(1) 当 λ=0 时,计算X的值,并验证g(X)≤0是否成立;
(2) 当 λ≠0 时,计算X和λ的值,并验证g(X)≤0和λ≥0是否成立。

含有多个多个等式约束和不等式约束的情况

此时的拉格朗日函数为:

其中,**{λi}指的是一系列的λ(有m个),同理{μj}**也是。由于是多个约束,因此引入求和号∑。

其对应的KKT条件为:

利用式(1)(2)(3)求最优X*和 λi,然后通过式(4)和(5)验证这些解是否可行,“可行”指的是这些解是否能让(4)和(5)的不等号成立,不成立则排除。注意,μj是可以取任意值的,不受限制。因为它们是等式约束的拉格朗日乘子,不是不等式的乘子。

由于该问题有m个不等式约束,每个约束对应的拉格朗日/KKT乘子λi都可以“=0”或“≠0”。因此,需要分类讨论的情况有2^m种。

分类详情如下:(1) 当λ1=0,λ2≠0,…,λm≠0时;(2) 当λ1=0,λ2=0,…,λm≠0时;。。。。。。

总结:

能解出最优解的一定是等式,故式(1)(2)(3)帮我们求最优解;
式(4)和式(5)是不等式,帮我们排除一些解,或者得到最优解的适用范围。

得到最优解的适用范围”这句话,其主要针对符号运算的情形

大家在写论文时,建立的数学模型多是用参数和变量表示的,不同情形下的最优解也是符号表达式,因此很难比较大小。
此时,只能通过式(4)和(5),来得到在什么条件(某符号表达式满足某条件)下,最优解X*和对应的f(X*)值为多少,即需要分类讨论

KKT补充条件

充分性和必要性说明

KKT条件是判断某点是极值点的必要条件不是充分条件。换句话说,最优解一定满足KKT条件,但KKT条件的解不一定是最优解

对于凸规划,KKT条件就是充要条件了,只要满足KKT条件,则一定是极值点,且得到的一定还是全局最优解

凸规划指的是:目标函数为凸函数,不等式约束函数也为凸函数,等式约束函数是仿射的(理解成是线性的也行)。这牵扯到另一个领域了,本文不再展开陈述。

补充:凸规划/凸优化只研究凸函数的最小化问题,并且认为凹函数的最大化问题是与它等价的。毕竟凹函数只需加个负号就是凸函数了,所以在研究问题中,就不再提凹函数了。

Min/Max与“≤0”和“≥0”的规定

(1)如果目标为最小化(Min)问题,那么不等式约束需要整理成“≤0”的形式;
(2)如果目标为最大化(Max)问题,那么不等式约束需要整理成“≥0”的形式;

以仅含有一个不等式约束的情形为例,最小化最大化的优化问题要整理成如下形式

该形式可以死记硬背,但时间一长,大家可能会忘记记混了,下面,采用图示法逐步展示为什么会有这个要求,该分析过程也展现了KTT条件的几何思想

上图画出了3条f(X)函数的等值线(图中虚线),以及右下角为可行域S(即约束条件规定的区域)和g(X)=0的曲线,最优解为X*。基于此,具体分析如下:

(1)f(X)函数值下降方向为左上方
目标是最小化问题,若下降方向为右下方,则最优解(图中X*)一定不是在g(X)=0上,而是在可行域S内部;

由于KKT条件中第一条就需要计算f(X)和g(X)函数的梯度,所以,这里补充一个基础知识:梯度方向垂直于函数等值线,指向函数值增长的方向。

基于此,我们尝试画出f(X)和g(X)函数的梯度方向:

(2)画出f(X)的梯度方向(下图红色方向):
梯度方向是函数值增长的方向,因此指向右下方;负梯度方向是函数值下降的方向,指向左上方;
(3)画出g(X)的梯度方向(下图蓝色方向):
由于曲线是g(X)=0,右下方是g(X)<0,是在下降,因此,g(X)函数值增长的方向就是左上方了。

由上述分析和上图可知,在最优解X*处,f(X*)和g(X*)的梯度方向共线且方向相反。向量共线且方向相反在数学上的写法就是:

负梯度向量是另一个梯度向量的λ倍。移项后发现,这不就是KKT条件的第一个等式嘛!

同时可知,λ的值只能取正值,因为g(X)的梯度方向f(X)负梯度方向相同。这也是KKT条件要求 λ≥0 的原因。

基于以上分析可知:最小化问题的约束条件应该整理成“≤0”的形式,且λ≥0。

同理,最大化的分析不再展开,仅给出分析图

补充一点,请问大家,对于最大化问题,如果可行域也非要写成g(X)≤0的形式,能行吗?先别忙着否定,我们分析一下。

此时g(X*)的梯度方向就不再是右下方了(不是上图了),而是f(X*)与g(X*)的梯度方向相同,有:

此时如上图,要么KKT条件第一项改为“作差”,要么λ<0。无论哪一个,其实都是徒增烦恼。不如上来就规定约束写成g(X)≥0来的方便。

多约束条件情形

仅是把梯度的共线变为梯度的线性组合

假设有起作用约束g1(X)和起作用约束g2(X)共同影响目标函数f(X)的梯度,又是怎么样的图形呢?

我们分别画出g1(X)函数在X处的梯度,如图中蓝色向量,其垂直于曲线g1(X)=0;同理,画出g2(X)函数在X*处的梯度,是另一个蓝色向量

至于f(X)函数的梯度,图中画出负梯度方向(函数值下降的方向),这样画的好处是可以直观地看出三个梯度向量间的关系:

函数的负梯度可以表示成g1函数和g2函数梯度的线性组合。则有如下公式:可以用向量表示

简单移项后,又发现了我们的老朋友:KKT条件的第一个等式。从图中也可以看出,梯度向量之间的夹角为锐角,因此也有λ1≥0,λ2≥0的要求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/716128.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

个人云服务器已经被安全合规等卡脖子 建议不要买 买了必定后悔 安全是个大问题 没有能力维护

我的想法 自己买一个云服务器&#xff0c;先自己边做边学习&#xff0c;向往硅谷精神&#xff0c;财富与自由。如果能赚钱&#xff0c;就开个公司。这次到期就放弃了。 我前前后后6年花6000多元买云服务器。业余花了无数的精力&#xff0c;从2018到现在 &#xff0c;也没有折…

【代码随想录——动态规划——第三周】

1.目标和 这里设置背包的最大长度为2100即可&#xff0c;因为题目中有说数组之和小于1000.但考虑到我们需要实行jnums[i]所以保守起见我们设置的数应该稍大于2000即可&#xff0c;这里我们设置为2100。 1.1 我的解法&#xff08;粗糙了&#xff09; func findTargetSumWays(n…

VMware安装Debian,Debian分区,虚拟机使用NAT模式联网,Linux设置静态IP

官网 https://www.debian.org/download stable是稳定版 win下amd64就行&#xff0c;macOs装arm架构的 安装Debian虚拟机 教程里没有的只管往下点就完了 哪个都行 选镜像 选安装位置 别超过宿主机内核就行 看你需求 NAT模式 虚拟 看你需求 其他的也检查一下 图形安装 选中文 继…

MoneyPrinterPlus:AI自动短视频生成工具,详细使用教程

MoneyPrinterPlus是一款使用AI大模型技术,一键批量生成各类短视频,自动批量混剪短视频,自动把视频发布到抖音,快手,小红书,视频号上的轻松赚钱工具。 之前有出过一期基本的介绍&#xff0c;但是后台收到有些小伙伴说&#xff0c;不知道如何使用。 今天我将会手把手的详细介绍…

1.动手学习深度学习课程安排及深度学习数学基础

视频资源B站&#xff1a;动手学习深度学习——李沐 目录 目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导 目标 介绍深度学习景点和最新模型 LeNet AlexNet VGG ResNet LSTM BERT… 机器学习基础 损失函数&#xff0c;目标函数&a…

抖音矩阵系统搭建,AI剪辑短视频,一键管理矩阵账号

目录 前言&#xff1a; 一、抖音矩阵系统有哪些功能&#xff1f; 1.AI智能文案 2.多平台账号授权 3.多种剪辑模式 4. 矩阵一键发布&#xff0c;智能发布 5.抖音爆店码功能 6.私信实时互动 7.去水印及外链 二、抖音矩阵系统可以解决哪些问题&#xff1f; 总结&#xff…

如何将接口返回/n替换为react.js中的换行符

将每个/n替换为ReactJS中的一个<br>标记。cpa_ability为后端返回的字段名

[js] 数字分开显示

<div id"number-container" class"number-container"></div>const number 123.45; // 要拆分的数字&#xff08;包括小数&#xff09; const numberContainer document.getElementById(number-container);// 将数字转换为字符串&#xff0c;…

IT架构思想---架构抽象

引言 架构的抽象思维这个概念很难解释&#xff0c;希望不会翻车&#xff0c;因为太抽象了.....&#xff0c;只能尽所能了。&#xff08;为了方便说明文章中的架构均指IT架构&#xff09; 抽象的定义 抽象是从众多的事物中抽取出共同的、本质性特征&#xff0c;而舍弃…

【二维差分】2132. 用邮票贴满网格图

本文涉及知识点 二维差分 LeetCode2132. 用邮票贴满网格图 给你一个 m x n 的二进制矩阵 grid &#xff0c;每个格子要么为 0 &#xff08;空&#xff09;要么为 1 &#xff08;被占据&#xff09;。 给你邮票的尺寸为 stampHeight x stampWidth 。我们想将邮票贴进二进制矩…

租房项目之并发缺失数据问题

前奏&#xff1a;本项目是一个基于django的租房信息获取项目。本次博客牵扯到两个版本&#xff0c;集中式分布以及分布式部署&#xff08;两个版本的ui不同&#xff0c;集中式用的是老版ui&#xff0c;分布式使用的是新版ui&#xff09;&#xff1b; 项目链接&#xff1a;http…

【C++提高编程-09】----C++ STL之常用排序算法

&#x1f3a9; 欢迎来到技术探索的奇幻世界&#x1f468;‍&#x1f4bb; &#x1f4dc; 个人主页&#xff1a;一伦明悦-CSDN博客 ✍&#x1f3fb; 作者简介&#xff1a; C软件开发、Python机器学习爱好者 &#x1f5e3;️ 互动与支持&#xff1a;&#x1f4ac;评论 &…

04 翼型和机翼、尾翼几何选择

04 翼型和机翼、尾翼几何选择 4 -1 引言4-2 翼型的选择4-2-1 翼型的几何4-2-2 翼型的升力和阻力4-2-3 翼型选择与设计4-2-4 设计升力系数4-2-5 失速4-2-6 翼型厚度比4-2-7 关于翼型其他方面的考虑 4-3 机翼几何外形4-3-1 展弦比4-2-3 机翼后掠角4-3-3 机翼稍根比4-3-4 机翼扭转…

echarts学习:使用dataset管理数据

前言 在我们公司的组件库中有许多echarts图表相关的组件&#xff0c;这些组件在使用时&#xff0c;只需将图表数据以特定的格式传入组件中&#xff0c;十分方便。因此当我得知echarts 可以使用dataset集中管理数据时&#xff0c;我就决定自己一定要搞懂它&#xff0c;于是在最…

第2章 Rust初体验6/8:Option枚举及其变体:能避免空指针异常问题:猜骰子冷热游戏

讲动人的故事,写懂人的代码 2.6 故事4: 一直让玩家不断猜 我们全班要一起用三种语言来写第4个故事啦。这可能是我们所有故事中最复杂的一个了。不过别担心,贾克强已经把这个故事的需求都用投影仪展示出来了。 程序会提示玩家猜两个骰子的点数之和。如果玩家第一次输入点数之…

C#反射机制介绍

文章目录 简介一、什么是反射二、反射的用途三、反射用到的命名空间及主要类四、Type类五、Assembly类六、使用反射实现上面的程序七、反射的优缺点 简介 这篇文章介绍了C#的反射机制&#xff0c;文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值&a…

DAY5-力扣刷题

1.两两交换链表中的节点 24. 两两交换链表中的节点 - 力扣&#xff08;LeetCode&#xff09; 给你一个链表&#xff0c;两两交换其中相邻的节点&#xff0c;并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题&#xff08;即&#xff0c;只能进行节点交换…

Kubernetes新手必看:快速生成YAML清单的终极指南!

在这篇文章中&#xff0c;你将学习到几种快速创建Kubernetes YAML清单的方法&#xff0c;这些方法可以帮助你在Kubernetes中测试和部署应用程序。这些技巧同样适用于Kubernetes认证考试。 在使用Kubernetes时&#xff0c;我们经常需要搜索Kubernetes YAML文件以便部署测试Pod、…

编写一个简单的Mybatis插件

1.编写一个类&#xff0c;实现Intercepter这个接口 2.完成这个类的方法&#xff0c;并通过注解Intercepts来告诉Mybatis这个插件拦截哪个类和哪个方法 3.在Mybatis的全局配置文件里注册这个插件&#xff0c;让插件生效 4.玩一个实际功能的插件

家庭智能助手:Kompas AI引领家居智能化新纪元

一、引言 在数字化浪潮的推动下&#xff0c;现代家庭生活正迅速向智能化转型。从简单的自动化设备到复杂的智能家居系统&#xff0c;智能技术正悄无声息地改变我们的日常生活。Kompas AI作为一款前沿的家庭智能助手&#xff0c;不仅预示着家庭生活的未来趋势&#xff0c;更以其…