3.2. 基于熵的损失函数

3.2.1. 什么是熵

熵通常用来衡量信息量, 为香浓信息量的期望

离散变量的熵

(3.32)H(p)=Ep[log21p]=ipilog21pi=ipilog2piH(p) = {\rm E}_p [{\rm log}_2 \frac{1}{p}] = \sum_{i}p_i{\rm log}_2\frac{1}{p_i} = -\sum_{i}p_i{\rm log}_2{p_i}

3.2.2. 交叉熵损失函数

离散变量的交叉熵

(3.33)H(p,q)=Ep[log21q]=ipilog21qi=ipilog2qiH(p,q) = {\rm E}_p [{\rm log}_2 \frac{1}{q}] = \sum_{i}p_i{\rm log}_2\frac{1}{q_i} = -\sum_{i}p_i{\rm log}_2{q_i}

3.2.3. 相对熵损失函数

相对熵(relative entropy)又称KL散度(Kullback–Leibler divergence), 用于衡量两个分布的距离

离散变量的相对熵

(3.34)DKL(pq)=ipilog2piqi=H(p,q)H(p)D_{KL}(p||q) = \sum_i p_i{\rm log}_2\frac{p_i}{q_i} = H(p,q)-H(p)

3.2.4. 二值交叉熵损失函数

(3.35)L(p,q)=i{1,2}pilog2qi=p1log2q1p2log2q2=p1log2q1(1p1)log2(1q1)\begin{aligned} L(p,q) &= -\sum_{i∈\{1,2\}}p_i{\rm log}_2{q_i}\\ &= -p_1{\rm log}_2q_1 - p_2{\rm log}_2q_2\\ &= -p_1{\rm log}_2q_1 - (1-p_1){\rm log}_2(1-q_1) \end{aligned}