2.2. 矩阵范数

2.2.1. 概念与内涵

Definition 2.5 (矩阵范数)

若对于 \({\bm A}\in {\mathbb C}^{m\times n}\) , 定义实值函数 \(\|{\bm A}\|\) , 满足以下条件

  1. 非负性: \(\|{\bm A}\| \geq 0\) , 当且仅当 \({\bm A} = {\bm 0}\) 时, 等号成立;

  2. 齐次性: \(\|k \bm A \| = |k|\|\bm A\|\) , ( \(k\in {\mathbb C}\)

  3. 三角不等式: \(\|{\bm A} + {\bm B}\| \leq \|{\bm A}\| + \|{\bm B}\|\) , ( \({\bm{B} \in {\mathbb C}^{m\times n}}\) )

  4. 相容性: \(\|{\bm A}{\bm B}\| \leq \|A\|\|B\|\) ( \({\bm B} \in {\bm C}^{n\times l}\) )

若满足1, 2, 3 则称 \(\|{\bm A}\|\) 为矩阵 \({\bm A}\)广义矩阵范数 . 若满足1, 2, 3, 4 则称 \(\|{\bm A}\|\) 为矩阵 \({\bm A}\)矩阵范数 .

提示

  • 范数是实数, 为什么不定义复数呢?

  • 注意与内积的定义比较

  • 注意与向量范数的定义比较

2.2.2. 矩阵范数与向量范数的相容性

设有 \({\mathbb C}^{m\times n}\) 上的矩阵范数 \(\|\cdot\|_M\)\({\mathbb C}^m\)\({\mathbb C}^n\) 上的同类向量范数 \(\|\cdot\|_{V}\) , 若

\[\|{\bm A}{\bm x}\|_V \leq \|{\bm A}\|_M \|{\bm x}\|_V , ( \forall {\bm A}\in {\mathbb C}^{m\times n}, \forall {\bm x}\in {\mathbb C}^n ) \]

则称矩阵范数 \(\|\cdot\|_M\) 与向量范数 \(\|\cdot\|_{V}\) 相容 .

2.2.3. 常见矩阵范数

Definition 2.6 (Frobenius矩阵范数)

设有 \({\bm A} = (a_{ij})_{m\times n} \in {\mathbb C}^{m\times n}\) ,则

\[\|{\bm A}\|_F = \left( \sum_{i=1}^m\sum_{j=1}^n |a_{ij}|^2 \right)^{1/2} = ({\rm{tr}}({\bm A}^H {\bm A}))^{1/2} \]

\({\mathbb C}^{m\times n}\) 上的矩阵范数, 且与向量范数 \(\|\cdot\|_2\) 相容. 也称为 Frobenius 范数 , 或简称 F-范数 .

定理: 给矩阵左乘或右乘一个酉矩阵其F-范数不变, 即设 \({\bm A}\in {\mathbb C}^{m\times n}\) , 且 \({\bm P}\in {\mathbb C}^{m\times m}\) , \({\bm Q}\in {\mathbb C}^{n\times n}\) 为酉矩阵, 则

\[\|{\bm P}{\bm A}\|_F = \|{\bm A}\|_F = \|{\bm A}{\bm Q}\|_F \]

从属范数

矩阵范数与向量范数密切相关, 一一对应.

Definition 2.7 (从属范数)

设有 \({\mathbb C}^m, {\mathbb C}^n\) 上的同类向量范数 \(\|\cdot\|\) , \({\bm A}\in {\mathbb C}^{m\times n}\) , 则函数

\[\|{\bm A}\| = \mathop {\max }\limits_{\|{\bm x}\|=1} \|{\bm A}{\bm x}\| \]

\({\mathbb C}^{m\times n}\) 上的矩阵范数, 且与向量范数 \(\|\cdot\|\) 相容. 由上式给出的矩阵范数称为 由向量导出的矩阵范数 , 简称 从属范数 (Subordinate Norm).

据此可以定义以下常见矩阵范数:

  • ∞-范数行和范数 : \(\|{\bm A}\|_{\infty} = \mathop {\max }\limits_i \sum_{j=1}^n|a_{ij}|\)

  • 1-范数列和范数 : \(\|{\bm A}\|_1 = \mathop {\max }\limits_j \sum_{i=1}^m|a_{ij}|\)

  • 2-范数谱范数 : \(\|{\bm A}\|_2 = \sqrt{\lambda_1} = \sqrt{{\rm max}\lambda({\bm A}^H {\bm A} )} = {\rm max}\sigma_i\) , ( \(\lambda_1\)\({\bm A}^H{\bm A}\) 的最大特征值 )

提示

\({\bm A}\in {\mathbb C}_r^{m\times n} , r>0\) , 则 \({\bm A}^H{\bm A}\) 为正定阵, 其特征值均为非负实数, 奇异值 \(\sigma_i = \sqrt{\lambda_i}\) , \((i = 1, 2, \cdots, n)\)

注解

谱范数正则(Spectral Norm Regularization)的理解

谱范数正则(Spectral Norm Regularization,简称为SNR)最早来自于2017年5月日本国立信息研究所Yoshida的一篇论文[2],他们后续又于2018年2月再再arXiv发了一篇SNR用于Gan的论文[3],以阐明SNR的有效性。因为当SGD(统计梯度下降)的批次(Batch size)一大的时候,其泛化性能却会降低,SNR能有效地解决这一问题。

SNR的讨论是从网络的泛化((Generalizability))开始的。对于Deep Learning而言,泛化是一个重要的性能指标,直觉上它与扰动(Perturbation)的影响有关。我们可以这样理解:局部最小点附近如果是平坦(flatness)的话,那么其泛化的性能将较好,反之,若是不平坦(sharpness)的话,稍微一点变动,将产生较大变化,则其泛化性能就不好。因此,我们可以从网络对抗扰动的性能入手来提升网络的泛化能力。