KL散度Kullback-Leibler divergence,簡稱KLD[1],在訊息系統中稱為相對熵(relative entropy),在連續時間序列中稱為隨機性(randomness),在統計模型推斷中稱為訊息增益(information gain)。也稱訊息散度(information divergence)。

KL散度是兩個概率分佈P和Q差別的非對稱性的度量。 KL散度是用來度量使用基於Q的分佈來編碼服從P的分佈的樣本所需的額外的平均位元數。典型情況下,P表示數據的真實分佈,Q表示數據的理論分佈、估計的模型分佈、或P的近似分佈。[1]

定義

編輯

對於離散隨機變數,其概率分佈PQ的KL散度可按下式定義為

 

等價於

 

即按概率P求得的PQ對數商的平均值。KL散度僅當概率PQ各自總和均為1,且對於任何i皆滿足  時,才有定義。式中出現 的情況,其值按0處理。

對於連續隨機變量,其概率分佈PQ的KL散度可按積分方式定義為 [2]

 

其中pq分別表示分佈PQ的密度。

更一般的,若PQ為集合X的概率測度,且P關於Q絕對連續,則從PQ的KL散度定義為

 

其中,假定右側的表達形式存在,則 Q關於PR–N導數

相應的,若P關於Q絕對連續,則

 

即為P關於Q的相對熵。

特性

編輯

相對熵的值為非負數:

 

吉布斯不等式可知,若且唯若  為零。

儘管從直覺上KL散度是個度量或距離函數, 但是它實際上並不是一個真正的度量或距離。因為KL散度不具有對稱性:從分佈PQ的距離通常並不等於從QP的距離。

 


KL散度和其它量的關係

編輯

自資訊和KL散度

 


相互資訊和KL散度

 


資訊熵和KL散度

 


條件熵和KL散度

 


交叉熵和KL散度

 

參見

編輯

參考文獻

編輯
  1. ^ 1.0 1.1 Kullback, S.; Leibler, R. A. On Information and Sufficiency. The Annals of Mathematical Statistics. 1951-03, 22 (1) [2022-08-15]. ISSN 0003-4851. doi:10.1214/aoms/1177729694. (原始內容存檔於2022-08-18). 
  2. ^ C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.