meiyulee

@meiyulee

曾是一名在大學教書12年的教師,從2013年開始發表一系列大數據和人工智慧分析的基礎研究。現下離開制式化的教育體制,提供想學習大數據分析、人工智慧分析及財經相關的知識和應用。

Joined on Feb 28, 2022

  • [TOC] Probability distribution simulator 在大數據分析和人工智慧建模的過程中,機率分配模擬器扮演著非常重要的角色。如果沒有數據模擬,分析人員或建模研究人員都在「瞎子摸象」。他們的分析和建模都將建立在「自我主觀認定」的前提,依循數學、機率或統計模型的分析方法得到特定的結果。然而,錯誤的假設(或前提)雖然經過正確的分析流程,其結果為「偽」^[1]。那麼,正確的前提該如何尋找呢?通常我們得先對數據的來源進行解析,包含敘述統計、適合度檢定找機率分配、是否有隨機性、是否有序列相關等。 而後三者需要對各種的機率分配先行模擬找出檢定用的臨界值。過去統計套裝軟體已經將使用者訓練成只看「P值」進行判斷即可。P值的基礎就是機率分配的累積機率對應之臨界值。電腦模擬數據的機率分配就可直接得到臨界值。當然,你也可以讓電腦幫你換算成P值。無論你使用臨界值或P值都可以得到相同的檢定結果。 讓我們回到正題的機率分配模擬上。目前在網文或Excel、程式語言的教學上都脫離不了常態分配(有的稱為正態分配),並且使用指令生成常態分配,你或許可以看到一個隨機變數的常態分配圖,但兩個隨機變數的聯合常態分配圖呢?一個底面積應該為圓的二維常態分配圖,你見過嗎?這個底面積就是判斷隨機生成數字是否來自特定的分配,也是檢測亂數生成器和公式是否正確的方法。
     Like  Bookmark
  • 1. 常態分配相加還是常態 常態分配(Normal distribution)以$Normal(\mu,\sigma^{2})$表示,其中,$\mu$為母體平均數,$\sigma$為母體標準差。 假設$X_{1}, X_{2}, \cdots , X_{n}$獨立來自$Normal(\mu,\sigma^{2})$,代表$X_{i} \sim Normal(\mu,\sigma^{2}), i = 1, 2, ..., n$。 1.1. $X_{1} + X_{2}$的分配 想求得分配須先求得參數。常態分配的加減還是常態分配,而加減則反映在參數上。所以,我們要求得兩隨機樣本相加的參數。 常態分配參數只有兩個,一個平均數,一個變異數。所以以下分別列出求得的結果。
     Like  Bookmark
  • date: 2022-02-28 12:30 [TOC] 中央極限定理是統計學的重要定理。區間估計、假設檢定、迴歸分析等皆由此為基礎。在統計學的教科書上千篇一律皆寫「樣本數超過30,有中央極限定理特性」,使用者僅需將統計量的期望值和變異數找出後,套用Z Score的公式就能使用其趨近標準常態分配特性,完成臨界值的對應會是機率值的轉換。然而,真的樣本數超過30,就能應用中央極限定理嗎?而且適用所有的分配? 1. 為什麼我們要提到所有的分配? 因為在數據分析時,沒有人知道特定欄位的數據是來自哪種分配,你假設常態分配是個假的設定。當你使用假設數據來自常態分配,並且沒有驗證過,就變成是你的自我認定。由於你不是在做理論推導,而是實證的數據分析,一個錯誤的假設只會得到錯誤的結果,再被決策者視為判斷的依據,做出錯誤的決策。日積月累下,小錯誤積累出大問題,最終不是組織自行吸收,選擇破產或倒閉,不然就成為社會的「外部性」成本,一國國民、一國未來後代、全球各國買單。很多人會認為這好像沒什麼,即使走錯路也能走回正確的道路上。同樣地,你不知道研究或應用的基礎錯誤後,真如同地球是圓的一樣,還會繞回原點。 或者另一種思考的可能來自他們認為「能夠找出結果,總比無法分析還得來好」。這導致他們寧可持續使用錯誤的假設得到錯誤的結果,再由過去的經驗去調整,提高得到正確結果的可能。但在創新的時代與技術進步的發展過程中,你是要創造出新的事物,縱然保有部分舊的狀態,你就是無法衡量新的事物所延伸出來的未來成功或失敗的道路在哪。因為經驗告訴你,不能做創新。經驗無法衡量創新。
     Like  Bookmark