Entropy

熵(ㄕㄤ)(亂度)

你可以想成，熵就是一個機率的函數

一個正面機率是p的銅板(反面機率是1-p)，其熵定義為

H = -p*log(p ) - (1-p)*log((1-p))

我們考慮所有可能的銅板機率(0%~100%)，其熵的曲線畫於下圖

可以發現，在機率是50%的時候, 也就是一個公平的銅板賭局
其熵是最高的，達到entropy = 1。
這不意外，因為公正的銅板最難預測。
反而越離開50%的機率，entropy開始逐漸遞減，也就越好預測。

事件一旦發生了所帶來的訊息量大
出現機率小的事件訊息量大，因此事件出現的機率越小訊息量越大

口袋里有一个蓝色的，一个红色的，一个绿色的，一个橘色的。取出一个硬币之后，每次问一个问题，然后做出判断，目标是，问最少的问题，得到正确答案。其中一个最好的策略如下:

每一个硬币有 1/4 的概率被选中，回答问题的期望是 2.
1/4 * 2 + 1/4 * 2 + 1/4 * 2 + 1/4 * 2 = 2

袋子中 1/8 的硬币是绿色的，1/8 的是橘色的，1/4 是红色的，1/2 是蓝色的，这时最优的策略如下:

1/2×1+1/4×2+1/8×3+1/8×3=1.75

假设袋子中全部是蓝色的硬币，那么，这时候，需要 0 个问题就可以猜到硬币，即 log21=0. 需要注意的是，只有当知道袋子中全部是蓝色的硬币的时候才会需要的问题是 0 个

总结上面的例子，假设一种硬币出现的概率是 p, 那么，猜中该硬币的所需要的问题数是 (log2)1/p
期望 = ∑ipi×(log2)1/pi

觀測預測的機率分佈與實際機率分布的誤差範圍

資訊含量

对于第二个例子，如果仍然使用第一个例子中的策略

1/8×2+1/8×2+1/4×2+1/2×2=2 . 因此，在例子二中使用例子一的策略是一个比较差的策略。其中 2 是这个方案中的 cross entropy

大量相互獨立、同分佈的隨機變量 (無論其分佈形式)，其均值的分布以常態分布為極限