From Cross Entropy to Metric Learning: A Brief Introduction and Some Discussion

信息熵

信息熵是定义信息量的一种测度,如同热力学中定义一样[1]:熵越大混乱程度越大,信息熵越大信息量越大。因此信息熵在直观上需要满足以下两点要求:

  • 越不可能($p(x)$越小)发生的事件($x$)信息量越大,确定事件($p(x)$很大)的信息量很小;
  • 独立事件的信息量可叠加;

满足以上要求的测度定义方式并不唯一,但是数学严谨化之后满足性质的熵几乎是唯一的1。于是有如下定理:

Theorem 1(离散信息熵表述唯一性定理[2]). 任何具有上述性质的离散的熵,其函数形式必为(Shannon熵 或von Neumann熵)和(Shannon熵 或Hartley 熵)的线性组合。

因此在此定义:
Definition 1 (Shannon熵). 若$p(x_i)$表随机事件$X$观测为$x_i$的概率,则Shannon熵:
\begin{equation}
H(X) = -\sum_{i=1}^np(x_i)\log_ap(x_i).
\end{equation}
这里如果$a=e$则$H(X)$的单位为奈培(NP),如果$a=2$则$H(X)$的单位为比特(bit),实际的不同只会让相差一个常系数,并不影响其实际意义。

1. 在数学上需要严格满足以下三点:1. 不变性:相空间的熵在保测度正则变换下不变,量子熵在unitary变换下不变;2. 可加性或者泛可加性(subadditive);3. 连续延拓后需要是凸函数;

相对熵:KL Divergence

相对熵又称KL散度(Kullback-Leibler Divergence),是衡量两个事件或者分布之间相似度的度量。当然这个度量也不唯一,但是那是另外一个话题。

Definition 2 (KL散度). 对于随机事件$X$和$Y$,其概率分布分别为$p(x),q(x)$,则KL散度:
\begin{equation}\label{equ:KL}
D_{KL}(X||Y) = \sum_{i=1}^np(x_i)\log_a\dfrac{p(x_i)}{q(x_i)}. \tag{1}
\end{equation}

值得注意的是\ref{equ:KL}式不满足对称性($D_{KL}(X||Y) \neq D_{KL}(Y||X)$)和三角不等式,这一点在JS散度中得到了改善。

交叉熵:Cross Entropy

考查\ref{equ:KL}式:
\begin{equation}
D_{KL}(X||Y) = -H(X)-\sum_{i=1}^np(x_i)\log_aq(x_i).
\end{equation}
注意到在实际使用中往往用$p(x)$来表示样本的真实分布,那么$H(X)$的值往往是不变的,因而直接考察后一项即可。

Definition 3 (交叉熵). 对于随机事件$X$和$Y$,其概率分布分别为$p(x),q(x)$,则交叉熵:
\begin{equation}
H(X,Y) = -\sum_{i=1}^np(x_i)\log_aq(x_i).
\end{equation}

交叉熵的MLE(最大似然估计)解释

现在有一个真实分布为$p(x)$的随机变量$X$,我们对它进行了$N$次独立同分布实验,对于每个可能的结果$x_i(i=1,\cdots,n)$观察到的次数为$N(x_i)$,显然$\sum_{i=1}^nN(x_i)=N$,那么它的似然值就可以写成:
\begin{equation}
L=\prod_{i=1}^np(x_i)^{N(x_i)}.
\end{equation}

考察其对数似然值:
\begin{equation}\label{equ:lnl}
\ln L=\sum_{i=1}^nN(x_i)\ln p(x_i).\tag{2}
\end{equation}

\ref{equ:lnl}式有两个缺点,其一它是个负数,其二它的数值跟样本数有关,样本越多数值越小。因此除以总的样本数归一化,再取相反数,然后改用频率表示:
\begin{equation}
-\frac{\ln L}{N}=-\sum_{i=1}^n\frac{N(x_i)}{N}\ln p(x_i) = -\sum_{i=1}^n q(x_i)\ln p(x_i) =H(Y,X),
\end{equation}
显然$\frac{N(x_i)}{N}$即是观测到的概率$q(x_i)$。

下面在给定$q(x)$的情况下考察$-\dfrac{\ln L}{N}$的最小值时$p(x)$的取值,考虑拉格朗日乘子法,考察拉式量:
\begin{equation}
W=-\sum_{i=1}^n q(x_i)\ln p(x_i) + \lambda(\sum_{i=1}^np(x_i)-1).
\end{equation}
求偏导可得:

\begin{equation}
-\frac{q(x)}{p(x)}+\lambda=0,
\end{equation}
即是$\forall i, p(x_i),q(x_i)$成比例,再由概率归一化条件知:
\begin{equation}
p(x)=q(x).
\end{equation}

因此可以看出,交叉熵最小实质上就是似然值最大。

Reference

[1]: Witten, E. . “A Mini-Introduction To Information Theory.”, 10.1007/s40766-020-00004-5. 2018.
[2]: Aczel, Janos. et al. “Why the Shannon and Hartley entropies are ‘natural’”, 131—146/Advances in applied probability. 1974.