Stats
回想到古典統計假設二:對於
其中 是非隨機的,、,且 。而根據統計古典假設一:
且 ,其中
而分母為 的統計意涵解釋為:「有 個變數,其中 為解釋變數個數,作為懲罰項; 則為截距項個數」。不過,我們關心的是 的分配是什麼?我們可以做一個最基本的假設,就是令其服從常態分配,即
也就是說,
且
對於經濟學家來說,當我們想要了解一些經濟現象時,便會建構一些模型,試圖去驗證、解釋它。假設一個 Cobb-Douglas 函數
對其取對數並加上誤差項,便可以得到實證模型:
其中 、,且 。我們可以檢測其是否為固定規模報酬(constant return to scale, CRTS),即檢定:
另一個有趣經濟學(或財務金融上)實證問題:效率市場假說。
其中 代表在 至 期間資產所得之報酬,而 則是在時點 時的公開資訊。如果我們要驗證它,就必須檢測 是否為。
經理關心的事情是:外送員是否會「準時」的送達客戶家中,且沒有送出免費的酒。我們可以做一個時間()與外送員()
我們可以令一個二元變數(dummy variable), 代表外送員 Laura, 代表 Melissa。那為什麼我們不單純就建立兩個分別給這兩位外送員的解釋變數呢?當然,很明顯這會造成線性重合的問題,[1] 所以我們要盡可能避免它。回到上面的例子, 係數檢定出來的結果是 。
箱型圖可以告訴我們一件事: Melissa可能只是運氣不好!多花了大約15秒。
Laura: "I am a better operator than Melissa, since the time is shorter when the order is operated by me."
Melissa: "The time difference is only 0.2551 minutes (15.31 seconds)! I don’t think 0.2551 is very different from zero ""
那我們要怎麼用假設檢定去驗證 Laura 與 Melissa 他們各自的論述呢?沒錯!我們可以進行假設檢定!令 代表 Melissa,且
我們已經知道 矩陣服從常態分配:
接著我們可以利用 solve()
這個指令解線性關係。[2]
在統計古典假設二之下,
而根據我們上面設定的虛無假設:,
事實是,我們不知道 ,但我們可以知道其不偏估計式 ,
則 ,這就代表我們可以說 了嗎?考慮一個簡單線性迴歸的虛無假設:,而因為
所以我們得到
舉例來說,如果我們令 ,以及 ,那麼虛無假設則為。而在虛無假設下
值等於
但實際情況 通常是未知的,因此我們必須透過樣本變異數進行估計。故得到 值為
我們可以用 Monte Carlo 模擬實際的情況。假設一個簡單迴歸式為 ,其中
我們算出跟上面一樣的結果: 的係數為,標準差為 , 值為 ,而在給定顯著水準為 之下,,代表我們沒有足夠證據拒絕虛無假設。那麼 值呢? 值代表 ,
因為 ,也告訴我們沒有足夠證據拒絕虛無假設。對於對立假設,我們可以計算其拒絕域
因為 且 :不拒絕虛無假設;最後 值則是 ,
因為 ,我們不拒絕虛無假設。
給定 以及 。我們設定虛無假設為:,母體變異數可被估計為
因此在虛無假設下:
令 代表帳單的係數,我們欲檢測虛無假設 是否成立。根據上面的結果,在顯著水準 下,我們可以拒絕虛無假設。注意到 在進行迴歸分析的假設檢定時,會透過星號(asterisk)告訴我們顯著水準:
.
:代表顯著水準為 *
:代表顯著水準為 **
:代表顯著水準為 ***
:代表顯著水準為 有時候我們想要同時檢定多個係數。令 為東區分店的係數, 為西區分店的係數,我們想要檢定這兩個係數是否為 ,即 ,也就是檢定由哪家分店處理訂單,與披薩從接線員到送達客戶手中那一刻前所花的時間,是否存在一定的關係。最簡單的想法是:對於這兩個係數,我們個別寫下其 值,然後按次序地(sequentially)進行 檢定。也就是:
而當我們拒絕其中一個虛無假設 或 後,就說我們可以拒絕 。但這個想法跟作法其實不太好,因為這牽涉到假設檢定的基本邏輯。
我們是先選定一個夠小的機率,當然目前都是承襲 Ronald Fisher 於 100年前的 值,即 。在虛無假設是正確的前提下,我們寫下一個拒絕域,如果虛無假設是正確的,我們有 的機率拒絕虛無假設,也就是犯下所謂的型一錯誤(Type I error)。但如果我們將虛無假設拆分成兩個(也就是上面的想法)並依序檢定,檢定第一個虛無假設而犯下型一錯誤的機率為 ;檢定第二個虛無假設而犯下型一錯誤的機率亦為 。但是!連續兩次不犯下型一錯誤的機率絕對不會是 ,也就是
除非 。一切的麻煩都源自於我們寫下了兩個統計量!
我們可以把虛無假設寫成 ,其中 代表一個 的矩陣, 表示我們有幾個解釋變數(包含截距項), 則是有幾個虛無假設要檢定;而 則是一個 的向量。回到上面的例子,令
因此 虛無假設 就可以寫成 。在統計古典的假設二之下,
因此
根據我們的虛無假設,
那麼
但一樣的問題 仍是未知的,而且這是一個 的向量,而不是一個統計量。不過有個方法可以解決上述的問題:因為上面的形式有根號,我們何不把它透過平方消除然後相加總呢?這個想法就是我們之前學過 分配的由來:當 ,則 。令
則,
到了這一步看起來算是可以了,但 還是未知的,不過很簡單就可以解決:利用樣本變異數的不偏性取代母體變異數,
其中, 就是 。則,
考慮一個 Monte Carlo 模擬實驗。令 ,其中
回到原本的例子,虛無假設為 ,也就是 ,則
如果說我們令虛無假設為
,其中,
代表我們可以拒絕虛無假設,其實際值小於 的寬容值 。一個簡單的計算方式是:
可以看出 檢定統計量與 有一定程度的(非線性)關係: 越大, 檢定統計量也越大。而我們可以建構一個多元迴歸模型的 ANOVA(變異數分析)表進行計算分類後的資料是否能夠良好的詮釋模型。
Source | SS | df | MS | |
---|---|---|---|---|
Factor | SSR | MSR = | ||
Error | SSE | MSE = | ||
Total | SST |
其中檢定統計量 。而在 中,我們可以用 anova()
進行變異數分析。
我們前面都假設誤差項服從常態分配:如果不是服從常態分配的話,前面做的任何分析都是徒勞無功。而我們在看不到誤差項的情況之下,又要如何檢測其是否服從常態分配呢?由於我們已經知道 是 的不偏估計式,而只要殘差與誤差項夠接近,就可以印證上述的假設為真。首先我們先將誤差項進行標準化,得到
並由小排到大。如果我們有 個服從常態分配的殘差與 個經過標準化後服從常態分配的誤差項,分別將其畫在 軸與 軸,此兩者應該要分布在 線上,形成 QQPlot。[3]舉例來說,
如果誤差項不是服從常態分配,而是服從均勻分配的話,QQPlot 則會長得像下面那樣,並非在 線上。
最後,我們可以畫出 pizza
中誤差項的 QQPlot。
但是,如果誤差項真的不是服從常態分配,我們還能夠繼續進行上述的分析嗎?答案是可以的!事實上,利用漸進理論──只要樣本數夠大,我們還是能夠維持原本的假設。