###### tags: `SBD` # Entropy ## 熵(ㄕㄤ)(亂度) 你可以想成,熵就是一個機率的函數 ### 例子 一個正面機率是p的銅板(反面機率是1-p),其熵定義為  H = -p*log(p ) - (1-p)*log((1-p)) 我們考慮所有可能的銅板機率(0%~100%),其熵的曲線畫於下圖  可以發現,在機率是50%的時候, 也就是一個公平的銅板賭局 其熵是最高的,達到entropy = 1。 這不意外,因為公正的銅板最難預測。 反而越離開50%的機率,entropy開始逐漸遞減,也就越好預測。 ### 訊息量、資訊熵(Information Entropy) 事件一旦發生了所帶來的訊息量大 出現機率小的事件訊息量大,因此事件出現的機率越小訊息量越大 [說明](http://shuokay.com/2017/06/23/cross-entropy/) #### 第一个例子 口袋里有一个蓝色的,一个红色的,一个绿色的,一个橘色的。取出一个硬币之后,每次问一个问题,然后做出判断,目标是,问最少的问题,得到正确答案。其中一个最好的策略如下:  每一个硬币有 1/4 的概率被选中,回答问题的期望是 2. 1/4 * 2 + 1/4 * 2 + 1/4 * 2 + 1/4 * 2 = 2 #### 第二个例子 袋子中 1/8 的硬币是绿色的,1/8 的是橘色的,1/4 是红色的,1/2 是蓝色的,这时最优的策略如下:  1/2×1+1/4×2+1/8×3+1/8×3=1.75 #### 第三个例子 假设袋子中全部是蓝色的硬币,那么,这时候,需要 0 个问题就可以猜到硬币,即 log21=0. 需要注意的是,只有当知道袋子中全部是蓝色的硬币的时候才会需要的问题是 0 个 ##### 小結 总结上面的例子,假设一种硬币出现的概率是 p, 那么,猜中该硬币的所需要的问题数是 (log2)1/p 期望 = ∑ipi×(log2)1/pi # cross entropy ==觀測預測的機率分佈與實際機率分布的誤差範圍== - 犯錯了錯誤的entropy - Cross Entropy 算法  - 交叉熵将比在真实分布上一定比计算出的熵具有更大的值 - cross entropy 一定會比entropy 大  - 這個差就叫做==KL散度(Kullback-Leibler Divergence)== - 目標就是讓KL越小越好 資訊含量 对于第二个例子,如果仍然使用第一个例子中的策略  1/8×2+1/8×2+1/4×2+1/2×2=2 . 因此,在例子二中使用例子一的策略是一个比较差的策略。其中 2 是这个方案中的 cross entropy - 最低的 cross entropy 的策略就是最優化策略  ## 實作 - 有256個顏色 - 所以是entropy 最高是8 - 預測是我固定的那張圖 - 實際是要拿來比對的圖 - 公式:  b = 2 [補充](https://r23456999.medium.com/%E4%BD%95%E8%AC%82-cross-entropy-%E4%BA%A4%E5%8F%89%E7%86%B5-b6d4cef9189d) # 中央極限定理(Central limit theorem) ==大量相互獨立、同分佈的隨機變量 (無論其分佈形式),其均值的分布以常態分布為極限== # Bags of words model (BoW) # 動差估計(method of moments)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up