3.2. 基于熵的损失函数

3.2.1. 什么是熵

熵通常用来衡量信息量, 为香浓信息量的期望

离散变量的熵

(3.32)\[H(p) = {\rm E}_p [{\rm log}_2 \frac{1}{p}] = \sum_{i}p_i{\rm log}_2\frac{1}{p_i} = -\sum_{i}p_i{\rm log}_2{p_i} \]

3.2.2. 交叉熵损失函数

离散变量的交叉熵

(3.33)\[H(p,q) = {\rm E}_p [{\rm log}_2 \frac{1}{q}] = \sum_{i}p_i{\rm log}_2\frac{1}{q_i} = -\sum_{i}p_i{\rm log}_2{q_i} \]

3.2.3. 相对熵损失函数

相对熵(relative entropy)又称KL散度(Kullback–Leibler divergence), 用于衡量两个分布的距离

离散变量的相对熵

(3.34)\[D_{KL}(p||q) = \sum_i p_i{\rm log}_2\frac{p_i}{q_i} = H(p,q)-H(p) \]

3.2.4. 二值交叉熵损失函数

(3.35)\[\begin{aligned} L(p,q) &= -\sum_{i∈\{1,2\}}p_i{\rm log}_2{q_i}\\ &= -p_1{\rm log}_2q_1 - p_2{\rm log}_2q_2\\ &= -p_1{\rm log}_2q_1 - (1-p_1){\rm log}_2(1-q_1) \end{aligned} \]