《机器学习数学基础》补充资料:向量范数

《机器学习数学基础》第1章1.5.3节介绍了向量范数的基本定义。

本文在上述基础上,介绍向量范数的有关性质。

注意: 以下均在欧几里得空间讨论,即欧氏范数。

1. 性质

  • 实(或复)向量 x \pmb{x} x ,范数 ∥ x ∥ \begin{Vmatrix}\pmb{x}\end{Vmatrix} x 满足:

    • ∥ x ∥ ≥ 0 \begin{Vmatrix}\pmb{x}\end{Vmatrix}\ge0 x 0
    • ∥ x ∥ = 0 ⇔ x = 0 \begin{Vmatrix}\pmb{x}\end{Vmatrix}=0 \Leftrightarrow \pmb{x}=\pmb{0} x =0x=0
    • ∥ c x ∥ = ∣ c ∣ ∥ x ∥ \begin{Vmatrix}c\pmb{x}\end{Vmatrix}=|c|\begin{Vmatrix}\pmb{x}\end{Vmatrix} cx =c x c c c 是标量
  • x , y ∈ C n \pmb{x,y}\in\mathbb{C}^n x,yCn ,根据施瓦茨不等式: ∣ x ∗ y ∣ ≤ ∥ x ∥ ∥ y ∥ |\pmb{x}^*\pmb{y}|\le\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix} xy x y

    n = 1 n=1 n=1 ,则上式退化为 ∣ x ‾ y ∣ ≤ ∣ x ∣ ∣ y ∣ |\overline{x}y|\le|x||y| xyx∣∣y ,其中 x , y ∈ C x,y\in\mathbb{C} x,yC 。因为 ∣ x ‾ ∣ = ∣ x ∣ |\overline{x}|=|x| x=x ,所以 ∣ x ‾ y ∣ ≤ ∣ x ‾ ∣ ∣ y ∣ |\overline{x}y|\le|\overline{x}||y| xyx∣∣y

  • 三角不等式: x + y ≤ ∥ x ∥ + ∥ y ∥ \pmb{x}+\pmb{y}\le \begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix} x+y x + y

    证明

    ∥ x + y ∥ 2 = ( x + y ) ∗ ( x + y ) = x ∗ x + x ∗ y + y ∗ x + y ∗ y = ∥ x ∥ 2 + x ∗ y + y ∗ x + ∥ y ∥ 2 \begin{split}\begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 &= (\pmb{x}+\pmb{y})^*(\pmb{x}+\pmb{y})\\ &= \pmb{x}^*\pmb{x}+\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}+\pmb{y}^*\pmb{y}\\&=\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2\end{split} x+y 2=(x+y)(x+y)=xx+xy+yx+yy= x 2+xy+yx+ y 2

    根据复数的性质和施瓦茨不等式:

    x ∗ y + y ∗ x = x ∗ y + x ∗ y ‾ = 2 R e ( x ∗ y ) ≤ 2 ∣ x ∗ y ∣ ≤ 2 ∥ x ∥ ∥ y ∥ \pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}=\pmb{x}^*\pmb{y}+\overline{\pmb{x}^*\pmb{y}}=2Re(\pmb{x}^*\pmb{y})\le 2|\pmb{x}^*\pmb{y}|\le2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix} xy+yx=xy+xy=2Re(xy)2∣xy2 x y

    由上述结果,可得:

    ∥ x + y ∥ 2 ≤ ∥ x ∥ 2 + 2 ∥ x ∥ ∥ y ∥ + ∥ y ∥ 2 = ( ∥ x ∥ + ∥ y ∥ ) 2 \begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 \le \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2=(\begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix})^2 x+y 2 x 2+2 x y + y 2=( x + y )2

    证毕。

2. 极小范数

m × n m\times n m×n 的矩阵 A \pmb{A} A ,列空间 C ( A ) = { A x ∣ x ∈ R n } C(\pmb{A})=\{\pmb{Ax}|\pmb{x}\in\mathbb{R}^n\} C(A)={AxxRn} C ( A ) C(\pmb{A}) C(A) R m \mathbb{R}^m Rm 的一个子空间),对任一 b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) bC(A) ,线性方程组 A x = b \pmb{Ax}=\pmb{b} Ax=b 有解。在解集合中,有一个特解,在 A \pmb{A} A 的行空间,即 A T \pmb{A}^T AT 的列空间 C ( A T ) C(\pmb{A}^T) C(AT) ,并且具有最小的 l 2 l_2 l2 范数,称为极小范数解(minimum norm solution) [ 1 ] ^{[1]} [1],记作 x + \pmb{x}^+ x+ ,即: x + ∈ C ( A T ) \pmb{x}^+\in C(\pmb{A}^T) x+C(AT) 使得 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b

2.1 定理一

b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) bC(A) ,则存在唯一的 y ∈ C ( A T ) \pmb{y}\in C(\pmb{A}^T) yC(AT) 使得 A y = b \pmb{Ay}=\pmb{b} Ay=b

证明

设特解 x ∈ R n \pmb{x}\in \mathbb{R}^n xRn 使得 A x = b \pmb{Ax}=\pmb{b} Ax=b

R n \mathbb{R}^n Rn 中, A \pmb{A} A 的列空间 C ( A T ) C(\pmb{A}^T) C(AT) 是零空间 N ( A ) N(\pmb{A}) N(A) 的正交补(参考:矩阵基本子空间 [ 2 ] ^{[2]} [2])。则 x \pmb{x} x 可以分解为 x = y + z \pmb{x}=\pmb{y}+\pmb{z} x=y+z ,其中 y ∈ C ( A T ) , z ∈ N ( A ) \pmb{y}\in C(\pmb{A}^T), \pmb{z}\in N(\pmb{A}) yC(AT),zN(A) ,得:

A x = A ( y + z ) = A y + A z = b \pmb{Ax}=\pmb{A}(\pmb{y}+\pmb{z})=\pmb{Ay}+\pmb{Az}=\pmb{b} Ax=A(y+z)=Ay+Az=b

这说明 y \pmb{y} y 也是一个特解。

y , y ′ ∈ C ( A T ) \pmb{y},\pmb{y}'\in C(\pmb{A}^T) y,yC(AT) 使得 A y = b , A y ′ = b \pmb{Ay}=\pmb{b},\pmb{Ay}'=\pmb{b} Ay=b,Ay=b 。两式子相减: A ( y − y ′ ) = 0 \pmb{A}(\pmb{y}-\pmb{y}')=\pmb{0} A(yy)=0

所以 y − y ′ ∈ N ( A ) \pmb{y}-\pmb{y}'\in N(\pmb{A}) yyN(A)

又因为 y − y ′ ∈ C ( A T ) \pmb{y}-\pmb{y}'\in C(\pmb{A}^T) yyC(AT)

合并以上结果,得:

y − y ′ ∈ N ( A ) ∩ C ( A T ) = { 0 } \pmb{y}-\pmb{y}'\in N(\pmb{A})\cap C(\pmb{A}^T)=\{\pmb{0}\} yyN(A)C(AT)={0}

y = y ′ \pmb{y}=\pmb{y}' y=y y \pmb{y} y 唯一。

证毕。

2.2 定理二

b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) bC(A) y ∈ { x ∣ A x = b } \pmb{y}\in \{\pmb{x}|\pmb{Ax}=\pmb{b}\} y{xAx=b} 具有最小 l 2 l_2 l2 范数,则 y ∈ C ( A T ) \pmb{y}\in C(\pmb{A}^T) yC(AT)

证明

由定理一,任意特解可以表示为 x = y + z \pmb{x}=\pmb{y}+\pmb{z} x=y+z ,且 y \pmb{y} y 唯一存在。因为 y ⊥ z \pmb{y}\bot\pmb{z} yz ,则:

∥ x ∥ 2 = ∥ y ∥ 2 + ∥ z ∥ 2 ≥ ∥ y ∥ 2 \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2+\begin{Vmatrix}\pmb{z}\end{Vmatrix}^2\ge\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2 x 2= y 2+ z 2 y 2

z = 0 \pmb{z}=\pmb{0} z=0 时,上式等号成立。

证毕。

2.3 定理三

rank A = m \text{rank} \pmb{A}=m rankA=m ,即 A \pmb{A} A 的列向量线性无关,则 A x = b \pmb{Ax}=\pmb{b} Ax=b 必有解,且极小范数解为:

x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)1b

证明

因为 rank A = m \text{rank} \pmb{A}=m rankA=m ,则 dim ⁡ C ( A ) = m \dim C(\pmb{A})=m dimC(A)=m ,列空间 C ( A ) C(\pmb{A}) C(A) 充满 R m \mathbb{R}^m Rm ,所以任一 b ∈ R m \pmb{b}\in\mathbb{R}^m bRm 使 A x = b \pmb{Ax}=\pmb{b} Ax=b 有解。

推导方法1

因为 A \pmb{A} A 的列向量线性无关,所以 x + ∈ C ( A T ) \pmb{x}^+\in C(\pmb{A}^T) x+C(AT) 可唯一表示为列向量的线性组合,即存在唯一的 c \pmb{c} c 使得 x + = A T c \pmb{x}^+=\pmb{A}^T\pmb{c} x+=ATc 。代入 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b ,得:

A A T c = b \pmb{AA}^T\pmb{c}=\pmb{b} AATc=b

因为 rank ( A A T ) = rank ( A ) = m \text{rank}(\pmb{AA}^T)=\text{rank}(\pmb{A})=m rank(AAT)=rank(A)=m ,所以 A A T \pmb{AA}^T AAT 可逆 [ 5 ] ^{[5]} [5]

故: c = ( A A T ) − 1 b \pmb{c}=(\pmb{AA}^T)^{-1}\pmb{b} c=(AAT)1b

解得: x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)1b

推导方法2,使用拉格朗日乘数法 [ 4 ] ^{[4]} [4]

m i n i m i z e ∥ x ∥ s u b j e c t t o A x = b \begin{split}minimize \quad &\begin{Vmatrix}\pmb{x}\end{Vmatrix}\\subject\quad to \quad& \pmb{Ax}=\pmb{b}\end{split} minimizesubjectto x Ax=b

最小化 ∥ x ∥ \begin{Vmatrix}\pmb{x}\end{Vmatrix} x ,等价于最小化 ∥ x ∥ 2 = x T x \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\pmb{x}^T\pmb{x} x 2=xTx

拉格朗日函数: L ( x , λ ) = x T x + λ T ( A x − b ) L(\pmb{x},\pmb{\lambda})=\pmb{x}^T\pmb{x}+\pmb{\lambda}^T(\pmb{Ax}-\pmb{b}) L(x,λ)=xTx+λT(Axb)

其中 λ \pmb{\lambda} λ m m m 维拉格朗日乘数向量。计算:

∂ L ∂ x = 2 x + A T λ ∂ L ∂ λ = A x − b \begin{split}\frac{\partial L}{\partial\pmb{x}}&=2\pmb{x}+\pmb{A}^T\pmb{\lambda}\\\frac{\partial L}{\partial\pmb{\lambda}}&=\pmb{Ax}-\pmb{b}\end{split} xLλL=2x+ATλ=Axb

令上述两式等于零,得到最优化条件式。得: x + = − 1 2 A T λ \pmb{x}^+=-\frac{1}{2}\pmb{A}^T\pmb{\lambda} x+=21ATλ ,代入 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b ,得:

− 1 2 A A T λ = b -\frac{1}{2}\pmb{AA}^T\pmb{\lambda}=\pmb{b} 21AATλ=b

解得: λ = − 2 ( A A T ) − 1 b \pmb{\lambda}=-2(\pmb{AA}^T)^{-1}\pmb{b} λ=2(AAT)1b

所以: x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)1b

2.4 计算方法

计算 x + \pmb{x}^+ x+ ,可以使用QR分解 [ 5 ] ^{[5]} [5]

A T = Q R \pmb{A}^T=\pmb{QR} AT=QR ,其中 Q \pmb{Q} Q n × m n\times m n×m 矩阵,且 Q T Q = I m \pmb{Q}^T\pmb{Q}=\pmb{I}_m QTQ=Im R \pmb{R} R m m m 阶上三角矩阵。

x + = A T ( A A T ) − 1 b = Q R ( R T Q T Q R ) − 1 b = Q R ( R T R ) − 1 b = Q R R − 1 ( R T ) − 1 b = Q ( R T ) − 1 b \begin{split}\pmb{x}^+ &= \pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}\\ &= \pmb{QR}(\pmb{R}^T\pmb{Q}^T\pmb{QR})^{-1}\pmb{b}\\&=\pmb{QR}(\pmb{R}^T\pmb{R})^{-1}\pmb{b}\\&=\pmb{QRR}^{-1}(\pmb{R}^T)^{-1}\pmb{b}\\&=\pmb{Q}(\pmb{R}^T)^{-1}\pmb{b}\end{split} x+=AT(AAT)1b=QR(RTQTQR)1b=QR(RTR)1b=QRR1(RT)1b=Q(RT)1b

最佳值:

∥ x ∥ 2 = ( A T ( A A T ) − 1 b ) T ( A T ( A A T ) − 1 b ) = b T ( A A T ) − 1 b = b T ( R T R ) − 1 b \begin{split}\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2 &= (\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b})^T(\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b})\\&=\pmb{b}^T(\pmb{AA}^T)^{-1}\pmb{b}\\&=\pmb{b}^T(\pmb{R}^T\pmb{R})^{-1}\pmb{b}\end{split} x 2=(AT(AAT)1b)T(AT(AAT)1b)=bT(AAT)1b=bT(RTR)1b

注意:

  • 在上述计算中,使用了矩阵求导等相关计算,请参阅《机器学习数学基础》第4章“向量分析”有关内容,书中的附录中也附有各种计算公式。
  • 定理三,仅限于 A \pmb{A} A 的列向量线性无关。若列向量线性相关,即 r a n k A ≤ m rank\pmb{A}\le m rankAm ,则 A A T \pmb{AA}^T AAT 不可逆。此时仍有极小范数解,表示为 x + = A + b \pmb{x}^+=\pmb{A}^+\pmb{b} x+=A+b ,其中 A + \pmb{A}^+ A+ 称为 A \pmb{A} A 的伪逆矩阵(或广义逆矩阵) [ 6 ] ^{[6]} [6]

参考文献

[1]. 极小范数解[DB/OL]. https://ccjou.wordpress.com/2014/05/21/極小範數解/

[2]. 矩阵基本子空间[DB/OL]. https://lqlab.readthedocs.io/en/latest/math4ML/linearalgebra/basetheory.html

[4]. Lagrange multiplier[DB/OL]. https://en.wikipedia.org/wiki/Lagrange_multiplier

[5]. 齐伟. 机器学习数学基础[M]. 北京:电子工业出版社, 2023年1月第3次印刷

[6]. 广义逆矩阵[DB/OL]. https://zh.wikipedia.org/wiki/广义逆矩阵

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/981346.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unity NGUI新手向几个问题记录

1.点Button没反应 制作Button组件时,不光要挂载Button脚本,还有挂载BoxCollider BoxCollider 接收事件 2.Button点击事件的增加与删除 使用.onClick.add增加事件,使用.onClick.Remove,.onClick.RemoveAt,onClick.RemoveRang,onClick.Clear移…

servlet tomcat

在spring-mvc demo程序运行到DispatcherServlet的mvc处理 一文中,我们实践了浏览器输入一个请求,然后到SpringMvc的DispatcherServlet处理的整个流程. 设计上这些都是tomcat servlet的处理 那么究竟这是怎么到DispatcherServlet处理的,本文将…

UniApp 中封装 HTTP 请求与 Token 管理(附Demo)

目录 1. 基本知识2. Demo3. 拓展 1. 基本知识 从实战代码中学习,上述实战代码来源:芋道源码/yudao-mall-uniapp 该代码中,通过自定义 request 函数对 HTTP 请求进行了统一管理,并且结合了 Token 认证机制 请求封装原理&#xff…

【音视频】ffmpeg命令分类查询

一、ffmpeg命令分类查询 -version:显示版本 ffmpeg -version-buildconf:显示编译配置,这里指的是你编译好的ffmpeg的选项 ffmpeg -buildconf-formats:显示可用格式(muxersdemuxers),复用器和解复用器&am…

基于Windows11的DockerDesktop安装和布署方法简介

基于Windows11的DockerDesktop安装和布署方法简介 一、下载安装Docker docker 下载地址 https://www.docker.com/ Download Docker Desktop 选择Download for Winodws AMD64下载Docker Desktop Installer.exe 双点击 Docker Desktop Installer.exe 进行安装 测试Docker安装是…

C++发展

目录 ​编辑C 的发展总结:​编辑 1. C 的早期发展(1979-1985) 2. C 标准化过程(1985-1998) 3. C 标准演化(2003-2011) 4. C11(2011年) 5. C14(2014年&a…

爬虫Incapsula reese84加密案例:Etihad航空

声明: 该文章为学习使用,严禁用于商业用途和非法用途,违者后果自负,由此产生的一切后果均与作者无关 一、找出需要加密的参数 1.js运行 atob(‘aHR0cHM6Ly93d3cuZXRpaGFkLmNvbS96aC1jbi8=’) 拿到网址,F12打开调试工具,随便搜索航班,切换到network搜索一个时间点可以找…

【分享】网间数据摆渡系统,如何打破传输瓶颈,实现安全流转?

在数字化浪潮中,企业对数据安全愈发重视,网络隔离成为保护核心数据的重要手段。内外网隔离、办公网与研发网隔离等措施,虽为数据筑牢了防线,却也给数据传输带来了诸多难题。传统的数据传输方式在安全性、效率、管理等方面暴露出明…

uploadlabs经验总结

目录 一、基础上传漏洞(太过简单目前环境不可能存在) 1、抓包然后改后缀进行绕过 2、抓包然后改上传文件类型进行绕过 3、改后缀大小写绕过,以及收尾加空格,加::$DATA,加点等等 4、黑名单不完整绕过,复习后缀绕过&…

数据结构:二叉树的链式结构及相关算法详解

目录 一.链式结构的实现 1.二叉树结点基本结构,初始化与销毁: 二.链式结构二叉树的几种遍历算法 1.几种算法的简单区分: 2.前序遍历: 3.中序遍历: 4.后序遍历: 5.层序遍历(广度优先遍历B…

VSCode 移除EmmyLua插件的红色波浪线提示

VSCode 中安装插件EmmyLua,然后打开lua文件的时候,如果lua代码引用了C#脚本的变量,经常出现 “undefined global variable: UnityEngineEmmyLua(undefined-global)” 的红色波浪线提示,这个提示看着比较烦人,我们可以通…

MWC 2025 | 紫光展锐联合移远通信推出全面支持R16特性的5G模组RG620UA-EU

2025年世界移动通信大会(MWC 2025)期间,紫光展锐联合移远通信,正式发布了全面支持5G R16特性的模组RG620UA-EU,以强大的灵活性和便捷性赋能产业。 展锐芯加持,关键性能优异 RG620UA-EU模组基于紫光展锐V62…

springboot425-基于SpringBoot的BUG管理系统(源码+数据库+纯前后端分离+部署讲解等)

💕💕作者: 爱笑学姐 💕💕个人简介:十年Java,Python美女程序员一枚,精通计算机专业前后端各类框架。 💕💕各类成品Java毕设 。javaweb,ssm&#xf…

机器人“照镜子”:开启智能新时代

机器人也爱 “照镜子”? 在科技飞速发展的今天,机器人的身影越来越频繁地出现在我们的生活和工作中。它们承担着各种各样的任务,从工业生产线上的精密操作,到家庭中的清洁服务,再到危险环境下的救援工作。然而&#xf…

让 LabVIEW 程序更稳定

LabVIEW 开发的系统,尤其是工业级应用,往往需要长时间稳定运行,容不得崩溃、卡顿或数据丢失。然而,许多系统在实际运行中会遭遇内存泄漏、通信中断、界面卡顿等问题,导致生产中断甚至设备损坏。如何设计一个既稳定又易…

基于CURL命令封装的JAVA通用HTTP工具

文章目录 一、简要概述二、封装过程1. 引入依赖2. 定义脚本执行类 三、单元测试四、其他资源 一、简要概述 在Linux中curl是一个利用URL规则在命令行下工作的文件传输工具,可以说是一款很强大的http命令行工具。它支持文件的上传和下载,是综合传输工具&…

npm ERR! code 128 npm ERR! An unknown git error occurred

【问题描述】 【问题解决】 管理员运行cmd(右键window --> 选择终端管理员) 执行命令 git config --global url.“https://”.insteadOf ssh://git cd 到项目目录 重新执行npm install 个人原因,这里执行npm install --registryhttps:…

汽车视频智能包装创作解决方案,让旅途记忆一键升级为影视级大片

在智能汽车时代,行车记录已不再是简单的影像留存,而是承载情感与创意的载体。美摄科技依托20余年视音频领域技术积累,推出汽车视频智能包装创作解决方案,以AI驱动影像处理与艺术创作,重新定义车载视频体验,…

Qt中txt文件输出为PDF格式

main.cpp PdfReportGenerator pdfReportGenerator;// 加载中文字体if (QFontDatabase::addApplicationFont(":/new/prefix1/simsun.ttf") -1) {QMessageBox::warning(nullptr, "警告", "无法加载中文字体");}// 解析日志文件QVector<LogEntr…

nlp进阶

1 Rnn RNN(Recurrent Neural Network),中文称作循环神经网络,它一般以序列数据为输入,通过网络内部的结构段计有效捕捉序列之间的关系特征,一般也是以序列形式进行输出. 单层网络结构 在循环 rnn处理的过程 rnn类别 n - n n - 1 使用sigmoid 或者softmax处理 应用在分类中…