統計名詞解釋

# 統計名詞解釋 ### 效度的意義衡量的工具是否能衡量研究所要探討的問題 ### 信度的意義衡量測驗結果的一致性，即測驗結果的誤差程度 ### 資料偏度、峰度資料偏度，衡量樣本資料分布的不對稱性。偏度為負代表左側的尾部比右側的長，稱為負偏態（左偏態），偏度為正則反之，稱為正偏態（右偏態）。 ![](https://i.imgur.com/mtlPzXI.png) 資料峰度，衡量樣本資料分布的峰態。峰度高代表變異數的增加是因為變數與平均值間距離的極端值所導致。衡量峰度高度的係數稱為峰態係數（k）。 * k > 0 時，稱為高狹峰 * k = 0 時，稱為常態峰 * k < 0 時，稱為低闊峰 ![](https://i.imgur.com/uQrkpb7.png) ### 因素負荷量因素負荷量（Factor Loadings），指個別觀察變數（測量的問項）與潛在變數（構面）之間的相關性，所以這個值如同皮爾森相關係數一樣，數值介於 -1 到 1 之間。也可以說是這些觀察變數在這個潛在變數中的權重（weight）有多少。 Factor Loadings 標準為大於 0.6。若小於 0.4 則該構面的問項缺乏信度。 ### 共變數、變異數、標準差共變數（共變異數、協方差、Covariance），是用來衡量兩個變數的相關程度，例如身高和體重的相關程度，但因為身高和體重的單位不一樣，因此會除以各自的標準差，將單位抵銷。變異數（方差、Variance），用來表示變數與期望值（平均值）的距離，為了抵銷負號，所以會將距離平方。標準差（均方差），用來反映樣本資料間的離散程度，因為變異數的計算方式會高估，因此標準差的計算就是將變異數開根號後得出。 ### 控制變數控制變數是自變數的特殊類型，它會潛在影響應變數。通常是人口統計或個人變數，必須要被「控制」，才能確定自變數對因變數真正的影響。 ### T - value 過高的解決方法 - 共同方法偏差（CMB） CMB ( CMV ) 指同樣的資料來源、測試環境、問項或構面本身特徵所造成的預測變數與指標變數之間的誤差，導致對結論產生潛在錯誤 ( 系統性錯誤 )。 ### 無回應偏差指部分受訪者沒有作答造成整體的誤差。以 1000 位經理作為樣本，工作量高的經理可能因為工作繁忙而沒有時間回答問卷，而工作量輕的經理可能會因為同事以為他是冗員而拒絕回答問卷。因此，無回應偏差可能會高估或低估實際工作量。所以，問卷的設計基本上包含一個前設問題：「我是否希望回答問卷？」 ### 迴歸係數的意義自變數對因變數的影響力。以自變數（身高），因變數（體重）為例，身高 -> 體重的迴歸係數為 0.309，意即身高每增加 1 公分，體重就會增加 0.309 公斤。如果身高 -> 體重的標準化迴歸係數為 0.268 ，意即身高每增加一個標準差，體重就會增加 0.268 個標準差。 ### 檢定統計量的種類 #### Z檢驗：使用常態分配做檢定 Z分配：標準常態分佈 Z檢驗：一般用於大樣本（樣本數大於30）平均值差異性檢驗的方法。使用標準常態分佈來推斷差異發生的機率，從而比較兩個平均數的差異是否顯著。 Z檢驗這種方法理論上成立，但實際上因為母體的標準差未知，因此一般使用T檢驗。 #### T檢驗：使用T分配做檢定 T分配：T分配近似於常態分配的曲線，會依照自由度來改變分配的形狀。其中常態分配是T分配的一個特例（因為現實的資料通常不會那麼漂亮），當自由度(df)趨近無限大時，T分配就是常態分配。實務上只要自由度=30，T分配就已經很接近常態分配。在母體平均數的假設檢定裡，不同情形會使用不同的檢定統計量。 ##### 母體已知：無論樣本數大小，都使用常態分配 ##### 母體未知： * 樣本數 n > 30 , 可使用 Z 分配 * 樣本數 n < 30 , 使用 T 分配 ![](https://i.imgur.com/xpcw19z.png) #### 卡方檢驗：使用卡方分配做檢定卡方分配：定義在大於等於 0（正數）範圍的右偏分配，卡方分配只有一個參數，即自由度，不同的自由度決定不同的卡方分配。當自由度趨近於無限大（通常為 df = 30）時，卡方分配會趨近於常態分配。卡方檢定（皮爾森卡方檢定）：用於探討兩個類別變數的相關性，實務上最常用到的方法之一。 ![](https://i.imgur.com/XsfjUVG.png) #### F檢驗：使用F分配做檢定用來檢定兩個統計資料是否估計著相等的變異數，意即檢驗統計資料是否來自同一個母體。 ### 決定決策法則決策法則通常決定一個接受域與拒絕域 * 接受域：接受虛無假設 * 拒絕域：接受對立假設 * 臨界點：接受域與拒絕域的接點 ![](https://i.imgur.com/0Di3pNc.png) #### 單尾檢定（One-tailed test） * 對於調查之理論方向是十分清楚，應採用單尾檢定。 * 例如在語句當中有「是否高於？」、「是否低於？」、「是否優於？」、「是否劣於？」等等。 * 對於變數在群體間的變化方向是單方向的，應採用單尾T檢定。 #### 雙尾檢定（Two-tailed test） * 對於理論變化的方向不是很清楚，原則上要採用雙尾檢定。 * 例如：對於男、女性別的不一樣，對於捐血的態度，兩者的看法有什麼區別？凡是在調查語句當中採取兩者（或兩者以上）「有何區別？」、「有何不同」、「有什麼不一樣時」，應採用雙尾檢定。 * 對於變數之間在群體的變化方向，可能是雙方向的，應採用雙尾t檢定。 ![](https://i.imgur.com/fpCawGB.png) #### p - value 在接受虛無假設的前提下，觀察到檢定統計量比取得樣本資料的值更極端的機率。 p-value 越小，表示檢定的結果越顯著，越可以拒絕提出的虛無假設。簡單來說，就是測試結果有百分之幾的可能是由於機率因素，所以 p < 0.05 的意思就是出現的機率小於 0.05（5%）。 ![](https://i.imgur.com/cz5NNJT.png) ### 多重共線性指在線性回歸當中，構面與構面之間存在高度相關（代表構面之間沒有區隔開來），而導致該構面在研究模型中失去預測效度。通常使用變異數膨脹因子與容忍度來判斷 >變異數膨脹因子(Variance Inflation Factor) < 10 容忍度(Tolerance) ≧ 0. ### 中介變數與調節變數的差異－影響力 **中介變數(Mediator)** 指的是自變數(Independent Variable, IV)對因變數(Dependent Variable, DV)的影響，而這個影響的一部份是來自於中介變數要確認是否有中介變數必須使用多元線性回歸或路徑係數進行，其步驟如下。 1. 先確認IV對DV的影響，如果沒有顯著影響代表不存在Mediator 2. IV和Mediator間需要有顯著的關係 3. DV和Mediator間需要有顯著的關係如果只看IV和DV的關係時，路徑係數比較大，但當把Mediator放進來時，這個時候的IV對DV的影響力雖然變小但還是具有顯著時。這樣就說明了其中具有Mediator。 **調節變數(Moderator)** IV和DV之間的關係會因為Moderator的值而有所改變，Moderator可以是量化(性別、種族、階級)或非量化(程度的不同)的變數。有可能Moderator為0時，IV對DV具有顯著影響；而當Moderator為1時，IV對DV則不具有顯著影響。要確認是否有Moderator可將自變數與調節變數相乘(IV x Moderator -> DV)來探討對因變數的顯著性。另外，Moderator的特點是可以將其視為IV。中介變數看的是 IV特過什麼Mediator影響DV，調節變數看的是將IV分為數組，並查看各組當中IV對DV有不同的影響。要如何選擇Mediator和Moderator呢？ 1. 當IV和DV之間的關係很強時，用Mediator 2. 當IV和DV之間的關係不一致或較弱時，用Moderator [reference](https://researcher20.com/2010/06/08/%E4%B8%AD%E4%BB%8B%E8%AE%8A%E6%95%B8mediator%E8%88%87%E8%AA%BF%E7%AF%80%E8%AE%8A%E6%95%B8moderator/)