中央極限定理
central limit theorem
機率分配
抽樣分配
常態分配(Normal distribution)以
假設
想求得分配須先求得參數。常態分配的加減還是常態分配,而加減則反映在參數上。所以,我們要求得兩隨機樣本相加的參數。
常態分配參數只有兩個,一個平均數,一個變異數。所以以下分別列出求得的結果。
所以,
依此類推,
所以,
依此類推,
常態分配的特性在相加過程中維持常態分配,參數則可能有所改變,但維持母體平均數和母體變異數的線性組合。換言之,常態分配的加減維持穩定的分配特性。
常態分配的母體平均數值和母體變異數值維持固定且相互不影響,甚至三階動差和四階動差各自為0和3的固定常數,這在分析過程中是非常方便的簡化假設,讓數學推導過程中更加輕鬆。
中央極限定理是愈多隨機樣本的相加會趨近常態分配。
現在隨機樣本來自常態分配,常態分配相加還是常態分配。
所以來自常態分配的愈多隨機樣本相加還是常態分配,不是中央極限定理特性,而是常態分配自己的特性。
來自常態分配的隨機樣本自身帶有常態分配,而參數如1.1和1.2的計算過程得到。所以隨著隨機樣本的個數
根據驗證中央極限定理的方法介紹文,五種驗證方法都能夠得到愈多的隨機樣本服從常態分配。
相關的驗證過程可觀看Youtube影片的第四部份。
Learn More →
[TOC] Probability distribution simulator 在大數據分析和人工智慧建模的過程中,機率分配模擬器扮演著非常重要的角色。如果沒有數據模擬,分析人員或建模研究人員都在「瞎子摸象」。他們的分析和建模都將建立在「自我主觀認定」的前提,依循數學、機率或統計模型的分析方法得到特定的結果。然而,錯誤的假設(或前提)雖然經過正確的分析流程,其結果為「偽」^[1]。那麼,正確的前提該如何尋找呢?通常我們得先對數據的來源進行解析,包含敘述統計、適合度檢定找機率分配、是否有隨機性、是否有序列相關等。 而後三者需要對各種的機率分配先行模擬找出檢定用的臨界值。過去統計套裝軟體已經將使用者訓練成只看「P值」進行判斷即可。P值的基礎就是機率分配的累積機率對應之臨界值。電腦模擬數據的機率分配就可直接得到臨界值。當然,你也可以讓電腦幫你換算成P值。無論你使用臨界值或P值都可以得到相同的檢定結果。 讓我們回到正題的機率分配模擬上。目前在網文或Excel、程式語言的教學上都脫離不了常態分配(有的稱為正態分配),並且使用指令生成常態分配,你或許可以看到一個隨機變數的常態分配圖,但兩個隨機變數的聯合常態分配圖呢?一個底面積應該為圓的二維常態分配圖,你見過嗎?這個底面積就是判斷隨機生成數字是否來自特定的分配,也是檢測亂數生成器和公式是否正確的方法。
Mar 4, 2022date: 2022-02-28 12:30 [TOC] 中央極限定理是統計學的重要定理。區間估計、假設檢定、迴歸分析等皆由此為基礎。在統計學的教科書上千篇一律皆寫「樣本數超過30,有中央極限定理特性」,使用者僅需將統計量的期望值和變異數找出後,套用Z Score的公式就能使用其趨近標準常態分配特性,完成臨界值的對應會是機率值的轉換。然而,真的樣本數超過30,就能應用中央極限定理嗎?而且適用所有的分配? 1. 為什麼我們要提到所有的分配? 因為在數據分析時,沒有人知道特定欄位的數據是來自哪種分配,你假設常態分配是個假的設定。當你使用假設數據來自常態分配,並且沒有驗證過,就變成是你的自我認定。由於你不是在做理論推導,而是實證的數據分析,一個錯誤的假設只會得到錯誤的結果,再被決策者視為判斷的依據,做出錯誤的決策。日積月累下,小錯誤積累出大問題,最終不是組織自行吸收,選擇破產或倒閉,不然就成為社會的「外部性」成本,一國國民、一國未來後代、全球各國買單。很多人會認為這好像沒什麼,即使走錯路也能走回正確的道路上。同樣地,你不知道研究或應用的基礎錯誤後,真如同地球是圓的一樣,還會繞回原點。 或者另一種思考的可能來自他們認為「能夠找出結果,總比無法分析還得來好」。這導致他們寧可持續使用錯誤的假設得到錯誤的結果,再由過去的經驗去調整,提高得到正確結果的可能。但在創新的時代與技術進步的發展過程中,你是要創造出新的事物,縱然保有部分舊的狀態,你就是無法衡量新的事物所延伸出來的未來成功或失敗的道路在哪。因為經驗告訴你,不能做創新。經驗無法衡量創新。
Mar 3, 2022or
By clicking below, you agree to our terms of service.
New to HackMD? Sign up