[TOC]
Probability distribution simulator
在大數據分析和人工智慧建模的過程中,機率分配模擬器扮演著非常重要的角色。如果沒有數據模擬,分析人員或建模研究人員都在「瞎子摸象」。他們的分析和建模都將建立在「自我主觀認定」的前提,依循數學、機率或統計模型的分析方法得到特定的結果。然而,錯誤的假設(或前提)雖然經過正確的分析流程,其結果為「偽」^[1]。那麼,正確的前提該如何尋找呢?通常我們得先對數據的來源進行解析,包含敘述統計、適合度檢定找機率分配、是否有隨機性、是否有序列相關等。
而後三者需要對各種的機率分配先行模擬找出檢定用的臨界值。過去統計套裝軟體已經將使用者訓練成只看「P值」進行判斷即可。P值的基礎就是機率分配的累積機率對應之臨界值。電腦模擬數據的機率分配就可直接得到臨界值。當然,你也可以讓電腦幫你換算成P值。無論你使用臨界值或P值都可以得到相同的檢定結果。
讓我們回到正題的機率分配模擬上。目前在網文或Excel、程式語言的教學上都脫離不了常態分配(有的稱為正態分配),並且使用指令生成常態分配,你或許可以看到一個隨機變數的常態分配圖,但兩個隨機變數的聯合常態分配圖呢?一個底面積應該為圓的二維常態分配圖,你見過嗎?這個底面積就是判斷隨機生成數字是否來自特定的分配,也是檢測亂數生成器和公式是否正確的方法。