相對熵

KL散度（Kullback-Leibler divergence，簡稱KLD）^[1]，在訊息系統中稱為相對熵（relative entropy），在連續時間序列中稱為隨機性（randomness），在統計模型推斷中稱為訊息增益（information gain）。也稱訊息散度（information divergence）。

KL散度是兩個概率分佈P和Q差別的非對稱性的度量。 KL散度是用來度量使用基於Q的分佈來編碼服從P的分佈的樣本所需的額外的平均位元數。典型情況下，P表示數據的真實分佈，Q表示數據的理論分佈、估計的模型分佈、或P的近似分佈。^[1]

定義

對於離散隨機變數，其概率分佈P 和 Q的KL散度可按下式定義為

D_{\mathrm {KL} }(P\|Q)=-\sum _{i}P(i)\ln {\frac {Q(i)}{P(i)}}.\!

等價於

D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\ln {\frac {P(i)}{Q(i)}}.\!

即按概率P求得的P和Q的對數商的平均值。KL散度僅當概率P和Q各自總和均為1，且對於任何i皆滿足 $Q(i)>0$ 及 $P(i)>0$ 時，才有定義。式中出現 $0\ln 0$ 的情況，其值按0處理。

對於連續隨機變量，其概率分佈P和Q的KL散度可按積分方式定義為 ^[2]

D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\ln {\frac {p(x)}{q(x)}}\,{\rm {d}}x,\!

其中p和q分別表示分佈P和Q的密度。

更一般的，若P和Q為集合X的概率測度，且P關於Q絕對連續，則從P到Q的KL散度定義為

D_{\mathrm {KL} }(P\|Q)=\int _{X}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P,\!

其中，假定右側的表達形式存在，則 ${\frac {{\rm {d}}Q}{{\rm {d}}P}}$ 為Q關於P的R–N導數。

相應的，若P關於Q絕對連續，則

D_{\mathrm {KL} }(P\|Q)=\int _{X}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P=\int _{X}{\frac {{\rm {d}}P}{{\rm {d}}Q}}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q,

即為P關於Q的相對熵。

特性

相對熵的值為非負數：

D_{\mathrm {KL} }(P\|Q)\geq 0,\,

由吉布斯不等式可知，若且唯若 $P=Q$ 時 $D_{KL}(P\|Q)$ 為零。

儘管從直覺上KL散度是個度量或距離函數, 但是它實際上並不是一個真正的度量或距離。因為KL散度不具有對稱性：從分佈P到Q的距離通常並不等於從Q到P的距離。

D_{\mathrm {KL} }(P\|Q)\neq D_{\mathrm {KL} }(Q\|P)

KL散度和其它量的關係

自資訊和KL散度

I(m)=D_{\mathrm {KL} }(\delta _{im}\|\{p_{i}\}),

相互資訊和KL散度

{\begin{aligned}I(X;Y)&=D_{\mathrm {KL} }(P(X,Y)\|P(X)P(Y))\\&=\mathbb {E} _{X}\{D_{\mathrm {KL} }(P(Y|X)\|P(Y))\}\\&=\mathbb {E} _{Y}\{D_{\mathrm {KL} }(P(X|Y)\|P(X))\}\end{aligned}}

資訊熵和KL散度

{\begin{aligned}H(X)&=\mathrm {(i)} \,\mathbb {E} _{x}\{I(x)\}\\&=\mathrm {(ii)} \log N-D_{\mathrm {KL} }(P(X)\|P_{U}(X))\end{aligned}}

條件熵和KL散度

{\begin{aligned}H(X|Y)&=\log N-D_{\mathrm {KL} }(P(X,Y)\|P_{U}(X)P(Y))\\&=\mathrm {(i)} \,\,\log N-D_{\mathrm {KL} }(P(X,Y)\|P(X)P(Y))-D_{\mathrm {KL} }(P(X)\|P_{U}(X))\\&=H(X)-I(X;Y)\\&=\mathrm {(ii)} \,\log N-\mathbb {E} _{Y}\{D_{\mathrm {KL} }(P(X|Y)\|P_{U}(X))\}\end{aligned}}

交叉熵和KL散度

\mathrm {H} (p,q)=\mathrm {E} _{p}[-\log q]=\mathrm {H} (p)+D_{\mathrm {KL} }(p\|q).\!

參見

參考文獻

^ ^1.0 ^1.1 Kullback, S.; Leibler, R. A. On Information and Sufficiency. The Annals of Mathematical Statistics. 1951-03, 22 (1) [2022-08-15]. ISSN 0003-4851. doi:10.1214/aoms/1177729694. （原始內容存檔於2022-08-18）.
^ C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.

[:0-1] 1.0 ^1.1 Kullback, S.; Leibler, R. A. On Information and Sufficiency. The Annals of Mathematical Statistics. 1951-03, 22 (1) [2022-08-15]. ISSN 0003-4851. doi:10.1214/aoms/1177729694. （原始內容存檔於2022-08-18）.

[2] C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.

[1]

[2]