---
# System prepended metadata

title: Entropy
tags: [SBD]

---

###### tags: `SBD`
# Entropy
## 熵(ㄕㄤ)(亂度)
你可以想成，熵就是一個機率的函數
### 例子
一個正面機率是p的銅板(反面機率是1-p)，其熵定義為

![](https://i.imgur.com/A0IeN0u.png)

H = -p*log(p ) - (1-p)*log((1-p))

我們考慮所有可能的銅板機率(0%~100%)，其熵的曲線畫於下圖
![](https://i.imgur.com/IzqXabc.png)

可以發現，在機率是50%的時候, 也就是一個公平的銅板賭局
其熵是最高的，達到entropy = 1。
這不意外，因為公正的銅板最難預測。
反而越離開50%的機率，entropy開始逐漸遞減，也就越好預測。

### 訊息量、資訊熵(Information Entropy)
事件一旦發生了所帶來的訊息量大
出現機率小的事件訊息量大，因此事件出現的機率越小訊息量越大

[說明](http://shuokay.com/2017/06/23/cross-entropy/)
#### 第一个例子
口袋里有一个蓝色的，一个红色的，一个绿色的，一个橘色的。取出一个硬币之后，每次问一个问题，然后做出判断，目标是，问最少的问题，得到正确答案。其中一个最好的策略如下:

![](https://i.imgur.com/sx9iuVh.png)

每一个硬币有 1/4 的概率被选中，回答问题的期望是 2.
1/4 * 2 + 1/4 * 2 + 1/4 * 2 + 1/4 * 2  = 2

#### 第二个例子
袋子中 1/8 的硬币是绿色的，1/8 的是橘色的，1/4 是红色的，1/2 是蓝色的，这时最优的策略如下:

![](https://i.imgur.com/fa6rt0V.png)

 1/2×1+1/4×2+1/8×3+1/8×3=1.75

#### 第三个例子
假设袋子中全部是蓝色的硬币，那么，这时候，需要 0 个问题就可以猜到硬币，即 log21=0. 需要注意的是，只有当知道袋子中全部是蓝色的硬币的时候才会需要的问题是 0 个

##### 小結
总结上面的例子，假设一种硬币出现的概率是 p, 那么，猜中该硬币的所需要的问题数是 (log2)1/p
期望 =   ∑ipi×(log2)1/pi

# cross entropy
==觀測預測的機率分佈與實際機率分布的誤差範圍==
- 犯錯了錯誤的entropy
- Cross Entropy 算法
![](https://i.imgur.com/sEdUOZC.png)
- 交叉熵将比在真实分布上一定比计算出的熵具有更大的值
- cross entropy 一定會比entropy 大
![](https://i.imgur.com/8fbqGPh.png)
- 這個差就叫做==KL散度(Kullback-Leibler Divergence)==
- 目標就是讓KL越小越好

資訊含量

对于第二个例子，如果仍然使用第一个例子中的策略

![](https://i.imgur.com/BsURbbz.png)
1/8×2+1/8×2+1/4×2+1/2×2=2 . 因此，在例子二中使用例子一的策略是一个比较差的策略。其中 2 是这个方案中的 cross entropy
- 最低的 cross entropy 的策略就是最優化策略

![](https://i.imgur.com/zwVW35N.png)


## 實作
- 有256個顏色
- 所以是entropy 最高是8
- 預測是我固定的那張圖
- 實際是要拿來比對的圖
- 公式: 
![](https://i.imgur.com/A0IeN0u.png)
b = 2


[補充](https://r23456999.medium.com/%E4%BD%95%E8%AC%82-cross-entropy-%E4%BA%A4%E5%8F%89%E7%86%B5-b6d4cef9189d)
# 中央極限定理(Central limit theorem)
==大量相互獨立、同分佈的隨機變量 (無論其分佈形式)，其均值的分布以常態分布為極限==

# Bags of words model (BoW)
# 動差估計（method of moments）