[ML] 機器學習基礎指標:Maximum Likelihood Estimation、Softmax、Entropy、KL Divergence
對數似然(Log Likelihood)與最大似然估計(Maximum Likelihood Estimation, MLE):
在給定一組獨立同分佈的樣本 和模型參數 的情況下,似然函數 是樣本在參數 下的聯合機率密度函數(或聯合機率質量函數),而對數似然函數 是似然函數 取對數后的結果。
對數似然函數的作用是簡化最大似然估計(MLE)的計算,因為對數可以將乘法轉換為加法,從而在計算上更為方便。通過對似然函數取對數,我們可以將樣本的機率估計轉換為對各個樣本的對數機率的求和。
Image Not Showing
Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →
將機率的乘法轉換為對數的加法,可以更方便地進行參數估計和優化MLE的目標即是找到使得 達到最大值的參數 。
Softmax:
Softmax函數將一個實數向量轉換為一個機率分佈,用於多類別分類問題。對於向量 ,第 個元素的Softmax為:
- Sigmoid函數將一個實數映射到(0,1)區間,用於二元分類問題。Sigmoid可視為softmax的特例,並用公式推導簡化過程
Shannon熵(Shannon Entropy)與交叉熵(Cross-Entropy):
Kullback-Leibler Divergence (KL Divergence):
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
source: 2022.02。J. Rafid Siddiqui。Why Is Cross Entropy Equal to KL-Divergence?KL Divergence是衡量兩個分佈之間差異的另一種方法,定義為目標分佈和模型預測分佈的交叉熵(Cross-Entropy, )與目標分佈熵(Shannon Entropy,)之間的差異程度:
在ML/DL領域中,KL Divergence 也可以理解為模型學習到的編碼方式/機率分布和真實的編碼方式/機率分布有落差時,偏誤的程度(編碼誤差)
將上述的交叉熵和Shannon熵公式代入 KL 散度的定義中,我們得到:
這裡,第一項是交叉熵 ,第二項是目標分佈 的熵 。
簡化後,我們得到:
KL 散度即表示這種近似(預測分布)相比於最優(即使用真實分佈 )所多出來的信息量(即loss)或 誤差程度。
換句話說,KL 散度是衡量使用一個非最佳分佈 來表示數據時相對於使用最佳分佈 所產生的信息損失。這個信息損失就是交叉熵和真實分佈的熵之間的差異。
- 以圖片壓縮的觀點來比喻
- 假設我們想要壓縮一張圖片的檔案大小,同時盡量保留圖像的細節和品質。我們可以將這個過程比喻為使用一個壓縮後的圖片機率分佈 來近似原始圖片機率分佈 。
- 我們希望找到一種壓縮演算法(編碼器),用較短而有效的編碼來表示這些像素點,即用更簡潔的方式來儲存圖像。减小文件大小同时盡量保留圖片重要细節。
- 當編碼器效率越好時,這時原始圖片與壓縮圖片的分布(資訊)就會近似、交叉熵與KL就會盡可能小、平均編碼長度會小
Reference