tags: SBD

Entropy

熵(ㄕㄤ)(亂度)

你可以想成,熵就是一個機率的函數

例子

一個正面機率是p的銅板(反面機率是1-p),其熵定義為

H = -p*log(p ) - (1-p)*log((1-p))

我們考慮所有可能的銅板機率(0%~100%),其熵的曲線畫於下圖

可以發現,在機率是50%的時候, 也就是一個公平的銅板賭局
其熵是最高的,達到entropy = 1。
這不意外,因為公正的銅板最難預測。
反而越離開50%的機率,entropy開始逐漸遞減,也就越好預測。

訊息量、資訊熵(Information Entropy)

事件一旦發生了所帶來的訊息量大
出現機率小的事件訊息量大,因此事件出現的機率越小訊息量越大

說明

第一个例子

口袋里有一个蓝色的,一个红色的,一个绿色的,一个橘色的。取出一个硬币之后,每次问一个问题,然后做出判断,目标是,问最少的问题,得到正确答案。其中一个最好的策略如下:

每一个硬币有 1/4 的概率被选中,回答问题的期望是 2.
1/4 * 2 + 1/4 * 2 + 1/4 * 2 + 1/4 * 2 = 2

第二个例子

袋子中 1/8 的硬币是绿色的,1/8 的是橘色的,1/4 是红色的,1/2 是蓝色的,这时最优的策略如下:

1/2×1+1/4×2+1/8×3+1/8×3=1.75

第三个例子

假设袋子中全部是蓝色的硬币,那么,这时候,需要 0 个问题就可以猜到硬币,即 log21=0. 需要注意的是,只有当知道袋子中全部是蓝色的硬币的时候才会需要的问题是 0 个

小結

总结上面的例子,假设一种硬币出现的概率是 p, 那么,猜中该硬币的所需要的问题数是 (log2)1/p
期望 = ∑ipi×(log2)1/pi

cross entropy

觀測預測的機率分佈與實際機率分布的誤差範圍

  • 犯錯了錯誤的entropy
  • Cross Entropy 算法
  • 交叉熵将比在真实分布上一定比计算出的熵具有更大的值
  • cross entropy 一定會比entropy 大
  • 這個差就叫做KL散度(Kullback-Leibler Divergence)
  • 目標就是讓KL越小越好

資訊含量

对于第二个例子,如果仍然使用第一个例子中的策略


1/8×2+1/8×2+1/4×2+1/2×2=2 . 因此,在例子二中使用例子一的策略是一个比较差的策略。其中 2 是这个方案中的 cross entropy

  • 最低的 cross entropy 的策略就是最優化策略

實作

  • 有256個顏色
  • 所以是entropy 最高是8
  • 預測是我固定的那張圖
  • 實際是要拿來比對的圖
  • 公式:

    b = 2

補充

中央極限定理(Central limit theorem)

大量相互獨立、同分佈的隨機變量 (無論其分佈形式),其均值的分布以常態分布為極限

Bags of words model (BoW)

動差估計(method of moments)