《机器学习数学基础》第1章1.5.3节介绍了向量范数的基本定义。
本文在上述基础上,介绍向量范数的有关性质。
注意: 以下均在欧几里得空间讨论,即欧氏范数。

1. 性质
-
实(或复)向量 x \pmb{x} x ,范数 ∥ x ∥ \begin{Vmatrix}\pmb{x}\end{Vmatrix} x 满足:
- ∥ x ∥ ≥ 0 \begin{Vmatrix}\pmb{x}\end{Vmatrix}\ge0 x ≥0
- ∥ x ∥ = 0 ⇔ x = 0 \begin{Vmatrix}\pmb{x}\end{Vmatrix}=0 \Leftrightarrow \pmb{x}=\pmb{0} x =0⇔x=0
- ∥ c x ∥ = ∣ c ∣ ∥ x ∥ \begin{Vmatrix}c\pmb{x}\end{Vmatrix}=|c|\begin{Vmatrix}\pmb{x}\end{Vmatrix} cx =∣c∣ x , c c c 是标量
-
设 x , y ∈ C n \pmb{x,y}\in\mathbb{C}^n x,y∈Cn ,根据施瓦茨不等式: ∣ x ∗ y ∣ ≤ ∥ x ∥ ∥ y ∥ |\pmb{x}^*\pmb{y}|\le\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix} ∣x∗y∣≤ x y 。
若 n = 1 n=1 n=1 ,则上式退化为 ∣ x ‾ y ∣ ≤ ∣ x ∣ ∣ y ∣ |\overline{x}y|\le|x||y| ∣xy∣≤∣x∣∣y∣ ,其中 x , y ∈ C x,y\in\mathbb{C} x,y∈C 。因为 ∣ x ‾ ∣ = ∣ x ∣ |\overline{x}|=|x| ∣x∣=∣x∣ ,所以 ∣ x ‾ y ∣ ≤ ∣ x ‾ ∣ ∣ y ∣ |\overline{x}y|\le|\overline{x}||y| ∣xy∣≤∣x∣∣y∣
-
三角不等式: x + y ≤ ∥ x ∥ + ∥ y ∥ \pmb{x}+\pmb{y}\le \begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix} x+y≤ x + y
证明
∥ x + y ∥ 2 = ( x + y ) ∗ ( x + y ) = x ∗ x + x ∗ y + y ∗ x + y ∗ y = ∥ x ∥ 2 + x ∗ y + y ∗ x + ∥ y ∥ 2 \begin{split}\begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 &= (\pmb{x}+\pmb{y})^*(\pmb{x}+\pmb{y})\\ &= \pmb{x}^*\pmb{x}+\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}+\pmb{y}^*\pmb{y}\\&=\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2\end{split} x+y 2=(x+y)∗(x+y)=x∗x+x∗y+y∗x+y∗y= x 2+x∗y+y∗x+ y 2
根据复数的性质和施瓦茨不等式:
x ∗ y + y ∗ x = x ∗ y + x ∗ y ‾ = 2 R e ( x ∗ y ) ≤ 2 ∣ x ∗ y ∣ ≤ 2 ∥ x ∥ ∥ y ∥ \pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}=\pmb{x}^*\pmb{y}+\overline{\pmb{x}^*\pmb{y}}=2Re(\pmb{x}^*\pmb{y})\le 2|\pmb{x}^*\pmb{y}|\le2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix} x∗y+y∗x=x∗y+x∗y=2Re(x∗y)≤2∣x∗y∣≤2 x y
由上述结果,可得:
∥ x + y ∥ 2 ≤ ∥ x ∥ 2 + 2 ∥ x ∥ ∥ y ∥ + ∥ y ∥ 2 = ( ∥ x ∥ + ∥ y ∥ ) 2 \begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 \le \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2=(\begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix})^2 x+y 2≤ x 2+2 x y + y 2=( x + y )2
证毕。
2. 极小范数
m × n m\times n m×n 的矩阵 A \pmb{A} A ,列空间 C ( A ) = { A x ∣ x ∈ R n } C(\pmb{A})=\{\pmb{Ax}|\pmb{x}\in\mathbb{R}^n\} C(A)={Ax∣x∈Rn} ( C ( A ) C(\pmb{A}) C(A) 是 R m \mathbb{R}^m Rm 的一个子空间),对任一 b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) b∈C(A) ,线性方程组 A x = b \pmb{Ax}=\pmb{b} Ax=b 有解。在解集合中,有一个特解,在 A \pmb{A} A 的行空间,即 A T \pmb{A}^T AT 的列空间 C ( A T ) C(\pmb{A}^T) C(AT) ,并且具有最小的 l 2 l_2 l2 范数,称为极小范数解(minimum norm solution) [ 1 ] ^{[1]} [1],记作 x + \pmb{x}^+ x+ ,即: x + ∈ C ( A T ) \pmb{x}^+\in C(\pmb{A}^T) x+∈C(AT) 使得 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b
2.1 定理一
若 b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) b∈C(A) ,则存在唯一的 y ∈ C ( A T ) \pmb{y}\in C(\pmb{A}^T) y∈C(AT) 使得 A y = b \pmb{Ay}=\pmb{b} Ay=b 。
证明
设特解 x ∈ R n \pmb{x}\in \mathbb{R}^n x∈Rn 使得 A x = b \pmb{Ax}=\pmb{b} Ax=b 。
在 R n \mathbb{R}^n Rn 中, A \pmb{A} A 的列空间 C ( A T ) C(\pmb{A}^T) C(AT) 是零空间 N ( A ) N(\pmb{A}) N(A) 的正交补(参考:矩阵基本子空间 [ 2 ] ^{[2]} [2])。则 x \pmb{x} x 可以分解为 x = y + z \pmb{x}=\pmb{y}+\pmb{z} x=y+z ,其中 y ∈ C ( A T ) , z ∈ N ( A ) \pmb{y}\in C(\pmb{A}^T), \pmb{z}\in N(\pmb{A}) y∈C(AT),z∈N(A) ,得:
A x = A ( y + z ) = A y + A z = b \pmb{Ax}=\pmb{A}(\pmb{y}+\pmb{z})=\pmb{Ay}+\pmb{Az}=\pmb{b} Ax=A(y+z)=Ay+Az=b
这说明 y \pmb{y} y 也是一个特解。
设 y , y ′ ∈ C ( A T ) \pmb{y},\pmb{y}'\in C(\pmb{A}^T) y,y′∈C(AT) 使得 A y = b , A y ′ = b \pmb{Ay}=\pmb{b},\pmb{Ay}'=\pmb{b} Ay=b,Ay′=b 。两式子相减: A ( y − y ′ ) = 0 \pmb{A}(\pmb{y}-\pmb{y}')=\pmb{0} A(y−y′)=0
所以 y − y ′ ∈ N ( A ) \pmb{y}-\pmb{y}'\in N(\pmb{A}) y−y′∈N(A) 。
又因为 y − y ′ ∈ C ( A T ) \pmb{y}-\pmb{y}'\in C(\pmb{A}^T) y−y′∈C(AT) ,
合并以上结果,得:
y − y ′ ∈ N ( A ) ∩ C ( A T ) = { 0 } \pmb{y}-\pmb{y}'\in N(\pmb{A})\cap C(\pmb{A}^T)=\{\pmb{0}\} y−y′∈N(A)∩C(AT)={0}
即 y = y ′ \pmb{y}=\pmb{y}' y=y′ 。 y \pmb{y} y 唯一。
证毕。
2.2 定理二
若 b ∈ C ( A ) \pmb{b}\in C(\pmb{A}) b∈C(A) 且 y ∈ { x ∣ A x = b } \pmb{y}\in \{\pmb{x}|\pmb{Ax}=\pmb{b}\} y∈{x∣Ax=b} 具有最小 l 2 l_2 l2 范数,则 y ∈ C ( A T ) \pmb{y}\in C(\pmb{A}^T) y∈C(AT) 。
证明
由定理一,任意特解可以表示为 x = y + z \pmb{x}=\pmb{y}+\pmb{z} x=y+z ,且 y \pmb{y} y 唯一存在。因为 y ⊥ z \pmb{y}\bot\pmb{z} y⊥z ,则:
∥ x ∥ 2 = ∥ y ∥ 2 + ∥ z ∥ 2 ≥ ∥ y ∥ 2 \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2+\begin{Vmatrix}\pmb{z}\end{Vmatrix}^2\ge\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2 x 2= y 2+ z 2≥ y 2
当 z = 0 \pmb{z}=\pmb{0} z=0 时,上式等号成立。
证毕。
2.3 定理三
若 rank A = m \text{rank} \pmb{A}=m rankA=m ,即 A \pmb{A} A 的列向量线性无关,则 A x = b \pmb{Ax}=\pmb{b} Ax=b 必有解,且极小范数解为:
x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)−1b
证明
因为 rank A = m \text{rank} \pmb{A}=m rankA=m ,则 dim C ( A ) = m \dim C(\pmb{A})=m dimC(A)=m ,列空间 C ( A ) C(\pmb{A}) C(A) 充满 R m \mathbb{R}^m Rm ,所以任一 b ∈ R m \pmb{b}\in\mathbb{R}^m b∈Rm 使 A x = b \pmb{Ax}=\pmb{b} Ax=b 有解。
推导方法1
因为 A \pmb{A} A 的列向量线性无关,所以 x + ∈ C ( A T ) \pmb{x}^+\in C(\pmb{A}^T) x+∈C(AT) 可唯一表示为列向量的线性组合,即存在唯一的 c \pmb{c} c 使得 x + = A T c \pmb{x}^+=\pmb{A}^T\pmb{c} x+=ATc 。代入 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b ,得:
A A T c = b \pmb{AA}^T\pmb{c}=\pmb{b} AATc=b
因为 rank ( A A T ) = rank ( A ) = m \text{rank}(\pmb{AA}^T)=\text{rank}(\pmb{A})=m rank(AAT)=rank(A)=m ,所以 A A T \pmb{AA}^T AAT 可逆 [ 5 ] ^{[5]} [5]。
故: c = ( A A T ) − 1 b \pmb{c}=(\pmb{AA}^T)^{-1}\pmb{b} c=(AAT)−1b
解得: x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)−1b
推导方法2,使用拉格朗日乘数法 [ 4 ] ^{[4]} [4]
m i n i m i z e ∥ x ∥ s u b j e c t t o A x = b \begin{split}minimize \quad &\begin{Vmatrix}\pmb{x}\end{Vmatrix}\\subject\quad to \quad& \pmb{Ax}=\pmb{b}\end{split} minimizesubjectto x Ax=b
最小化 ∥ x ∥ \begin{Vmatrix}\pmb{x}\end{Vmatrix} x ,等价于最小化 ∥ x ∥ 2 = x T x \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\pmb{x}^T\pmb{x} x 2=xTx
拉格朗日函数: L ( x , λ ) = x T x + λ T ( A x − b ) L(\pmb{x},\pmb{\lambda})=\pmb{x}^T\pmb{x}+\pmb{\lambda}^T(\pmb{Ax}-\pmb{b}) L(x,λ)=xTx+λT(Ax−b)
其中 λ \pmb{\lambda} λ 是 m m m 维拉格朗日乘数向量。计算:
∂ L ∂ x = 2 x + A T λ ∂ L ∂ λ = A x − b \begin{split}\frac{\partial L}{\partial\pmb{x}}&=2\pmb{x}+\pmb{A}^T\pmb{\lambda}\\\frac{\partial L}{\partial\pmb{\lambda}}&=\pmb{Ax}-\pmb{b}\end{split} ∂x∂L∂λ∂L=2x+ATλ=Ax−b
令上述两式等于零,得到最优化条件式。得: x + = − 1 2 A T λ \pmb{x}^+=-\frac{1}{2}\pmb{A}^T\pmb{\lambda} x+=−21ATλ ,代入 A x + = b \pmb{Ax}^+=\pmb{b} Ax+=b ,得:
− 1 2 A A T λ = b -\frac{1}{2}\pmb{AA}^T\pmb{\lambda}=\pmb{b} −21AATλ=b
解得: λ = − 2 ( A A T ) − 1 b \pmb{\lambda}=-2(\pmb{AA}^T)^{-1}\pmb{b} λ=−2(AAT)−1b
所以: x + = A T ( A A T ) − 1 b \pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b} x+=AT(AAT)−1b
2.4 计算方法
计算 x + \pmb{x}^+ x+ ,可以使用QR分解 [ 5 ] ^{[5]} [5] 。
设 A T = Q R \pmb{A}^T=\pmb{QR} AT=QR ,其中 Q \pmb{Q} Q 是 n × m n\times m n×m 矩阵,且 Q T Q = I m \pmb{Q}^T\pmb{Q}=\pmb{I}_m QTQ=Im , R \pmb{R} R 是 m m m 阶上三角矩阵。
x + = A T ( A A T ) − 1 b = Q R ( R T Q T Q R ) − 1 b = Q R ( R T R ) − 1 b = Q R R − 1 ( R T ) − 1 b = Q ( R T ) − 1 b \begin{split}\pmb{x}^+ &= \pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}\\ &= \pmb{QR}(\pmb{R}^T\pmb{Q}^T\pmb{QR})^{-1}\pmb{b}\\&=\pmb{QR}(\pmb{R}^T\pmb{R})^{-1}\pmb{b}\\&=\pmb{QRR}^{-1}(\pmb{R}^T)^{-1}\pmb{b}\\&=\pmb{Q}(\pmb{R}^T)^{-1}\pmb{b}\end{split} x+=AT(AAT)−1b=QR(RTQTQR)−1b=QR(RTR)−1b=QRR−1(RT)−1b=Q(RT)−1b
最佳值:
∥ x ∥ 2 = ( A T ( A A T ) − 1 b ) T ( A T ( A A T ) − 1 b ) = b T ( A A T ) − 1 b = b T ( R T R ) − 1 b \begin{split}\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2 &= (\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b})^T(\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b})\\&=\pmb{b}^T(\pmb{AA}^T)^{-1}\pmb{b}\\&=\pmb{b}^T(\pmb{R}^T\pmb{R})^{-1}\pmb{b}\end{split} x 2=(AT(AAT)−1b)T(AT(AAT)−1b)=bT(AAT)−1b=bT(RTR)−1b
注意:
- 在上述计算中,使用了矩阵求导等相关计算,请参阅《机器学习数学基础》第4章“向量分析”有关内容,书中的附录中也附有各种计算公式。
- 定理三,仅限于 A \pmb{A} A 的列向量线性无关。若列向量线性相关,即 r a n k A ≤ m rank\pmb{A}\le m rankA≤m ,则 A A T \pmb{AA}^T AAT 不可逆。此时仍有极小范数解,表示为 x + = A + b \pmb{x}^+=\pmb{A}^+\pmb{b} x+=A+b ,其中 A + \pmb{A}^+ A+ 称为 A \pmb{A} A 的伪逆矩阵(或广义逆矩阵) [ 6 ] ^{[6]} [6]。
参考文献
[1]. 极小范数解[DB/OL]. https://ccjou.wordpress.com/2014/05/21/極小範數解/
[2]. 矩阵基本子空间[DB/OL]. https://lqlab.readthedocs.io/en/latest/math4ML/linearalgebra/basetheory.html
[4]. Lagrange multiplier[DB/OL]. https://en.wikipedia.org/wiki/Lagrange_multiplier
[5]. 齐伟. 机器学习数学基础[M]. 北京:电子工业出版社, 2023年1月第3次印刷
[6]. 广义逆矩阵[DB/OL]. https://zh.wikipedia.org/wiki/广义逆矩阵