2.2. 矩阵范数¶

2.2.1. 概念与内涵¶

Definition 2.5 (矩阵范数)

若对于 \({\bm A}\in {\mathbb C}^{m\times n}\) , 定义实值函数 \(\|{\bm A}\|\) , 满足以下条件

非负性: \(\|{\bm A}\| \geq 0\) , 当且仅当 \({\bm A} = {\bm 0}\) 时, 等号成立;
齐次性: \(\|k \bm A \| = |k|\|\bm A\|\) , ( \(k\in {\mathbb C}\)
三角不等式: \(\|{\bm A} + {\bm B}\| \leq \|{\bm A}\| + \|{\bm B}\|\) , ( \({\bm{B} \in {\mathbb C}^{m\times n}}\) )
相容性: \(\|{\bm A}{\bm B}\| \leq \|A\|\|B\|\) ( \({\bm B} \in {\bm C}^{n\times l}\) )

若满足1, 2, 3 则称 \(\|{\bm A}\|\) 为矩阵 \({\bm A}\) 的 广义矩阵范数 . 若满足1, 2, 3, 4 则称 \(\|{\bm A}\|\) 为矩阵 \({\bm A}\) 的 矩阵范数 .

提示

范数是实数, 为什么不定义复数呢?
注意与内积的定义比较
注意与向量范数的定义比较

2.2.2. 矩阵范数与向量范数的相容性¶

设有 \({\mathbb C}^{m\times n}\) 上的矩阵范数 \(\|\cdot\|_M\) 和 \({\mathbb C}^m\) 与 \({\mathbb C}^n\) 上的同类向量范数 \(\|\cdot\|_{V}\) , 若

\[\|{\bm A}{\bm x}\|_V \leq \|{\bm A}\|_M \|{\bm x}\|_V , ( \forall {\bm A}\in {\mathbb C}^{m\times n}, \forall {\bm x}\in {\mathbb C}^n ) \]

则称矩阵范数 \(\|\cdot\|_M\) 与向量范数 \(\|\cdot\|_{V}\) 相容 .

2.2.3. 常见矩阵范数¶

Definition 2.6 (Frobenius矩阵范数)

设有 \({\bm A} = (a_{ij})_{m\times n} \in {\mathbb C}^{m\times n}\) ,则

\[\|{\bm A}\|_F = \left( \sum_{i=1}^m\sum_{j=1}^n |a_{ij}|^2 \right)^{1/2} = ({\rm{tr}}({\bm A}^H {\bm A}))^{1/2} \]

是 \({\mathbb C}^{m\times n}\) 上的矩阵范数, 且与向量范数 \(\|\cdot\|_2\) 相容. 也称为 Frobenius 范数 , 或简称 F-范数 .

定理: 给矩阵左乘或右乘一个酉矩阵其F-范数不变, 即设 \({\bm A}\in {\mathbb C}^{m\times n}\) , 且 \({\bm P}\in {\mathbb C}^{m\times m}\) , \({\bm Q}\in {\mathbb C}^{n\times n}\) 为酉矩阵, 则

\[\|{\bm P}{\bm A}\|_F = \|{\bm A}\|_F = \|{\bm A}{\bm Q}\|_F \]

从属范数¶

矩阵范数与向量范数密切相关, 一一对应.

Definition 2.7 (从属范数)

设有 \({\mathbb C}^m, {\mathbb C}^n\) 上的同类向量范数 \(\|\cdot\|\) , \({\bm A}\in {\mathbb C}^{m\times n}\) , 则函数

\[\|{\bm A}\| = \mathop {\max }\limits_{\|{\bm x}\|=1} \|{\bm A}{\bm x}\| \]

是 \({\mathbb C}^{m\times n}\) 上的矩阵范数, 且与向量范数 \(\|\cdot\|\) 相容. 由上式给出的矩阵范数称为 由向量导出的矩阵范数 , 简称 从属范数 (Subordinate Norm).

据此可以定义以下常见矩阵范数:

∞-范数 或 行和范数 : \(\|{\bm A}\|_{\infty} = \mathop {\max }\limits_i \sum_{j=1}^n|a_{ij}|\)
1-范数 或 列和范数 : \(\|{\bm A}\|_1 = \mathop {\max }\limits_j \sum_{i=1}^m|a_{ij}|\)
2-范数 或 谱范数 : \(\|{\bm A}\|_2 = \sqrt{\lambda_1} = \sqrt{{\rm max}\lambda({\bm A}^H {\bm A} )} = {\rm max}\sigma_i\) , ( \(\lambda_1\) 为 \({\bm A}^H{\bm A}\) 的最大特征值 )

提示

设 \({\bm A}\in {\mathbb C}_r^{m\times n} , r>0\) , 则 \({\bm A}^H{\bm A}\) 为正定阵, 其特征值均为非负实数, 奇异值 \(\sigma_i = \sqrt{\lambda_i}\) , \((i = 1, 2, \cdots, n)\)

注解

谱范数正则（Spectral Norm Regularization）的理解

谱范数正则（Spectral Norm Regularization，简称为SNR）最早来自于2017年5月日本国立信息研究所Yoshida的一篇论文[2]，他们后续又于2018年2月再再arXiv发了一篇SNR用于Gan的论文[3]，以阐明SNR的有效性。因为当SGD（统计梯度下降）的批次（Batch size）一大的时候，其泛化性能却会降低，SNR能有效地解决这一问题。

SNR的讨论是从网络的泛化（（Generalizability））开始的。对于Deep Learning而言，泛化是一个重要的性能指标，直觉上它与扰动（Perturbation）的影响有关。我们可以这样理解：局部最小点附近如果是平坦（flatness）的话，那么其泛化的性能将较好，反之，若是不平坦（sharpness）的话，稍微一点变动，将产生较大变化，则其泛化性能就不好。因此，我们可以从网络对抗扰动的性能入手来提升网络的泛化能力。