# 統計名詞解釋 ### 效度的意義 衡量的工具是否能衡量研究所要探討的問題 ### 信度的意義 衡量測驗結果的一致性,即測驗結果的誤差程度 ### 資料偏度、峰度 資料偏度,衡量樣本資料分布的不對稱性。偏度為負代表左側的尾部比右側的長,稱為負偏態(左偏態),偏度為正則反之,稱為正偏態(右偏態)。 ![](https://i.imgur.com/mtlPzXI.png) 資料峰度,衡量樣本資料分布的峰態。峰度高代表 變異數 的增加是因為變數與平均值間距離的極端值所導致。 衡量峰度高度的係數稱為 峰態係數(k)。 * k > 0 時,稱為高狹峰 * k = 0 時,稱為常態峰 * k < 0 時,稱為低闊峰 ![](https://i.imgur.com/uQrkpb7.png) ### 因素負荷量 因素負荷量(Factor Loadings),指個別觀察變數(測量的問項)與潛在變數(構面)之間的相關性,所以這個值如同皮爾森相關係數一樣,數值介於 -1 到 1 之間。也可以說是這些觀察變數在這個潛在變數中的權重(weight)有多少。 Factor Loadings 標準為 大於 0.6。 若小於 0.4 則該構面的問項缺乏信度。 ### 共變數、變異數、標準差 共變數(共變異數、協方差、Covariance),是用來衡量兩個變數的相關程度,例如身高和體重的相關程度,但因為身高和體重的單位不一樣,因此會除以各自的標準差,將單位抵銷。 變異數(方差、Variance),用來表示變數與期望值(平均值)的距離,為了抵銷負號,所以會將距離平方。 標準差(均方差),用來反映樣本資料間的離散程度,因為 變異數 的計算方式會高估,因此標準差的計算就是將變異數開根號後得出。 ### 控制變數 控制變數是自變數的特殊類型,它會潛在影響應變數。通常是人口統計或個人變數,必須要被「控制」,才能確定自變數對因變數真正的影響。 ### T - value 過高的解決方法 - 共同方法偏差(CMB) CMB ( CMV ) 指同樣的資料來源、測試環境、問項或構面本身特徵所造成的預測變數與指標變數之間的誤差,導致對結論產生潛在錯誤 ( 系統性錯誤 )。 ### 無回應偏差 指部分受訪者沒有作答造成整體的誤差。以 1000 位經理作為樣本,工作量高的經理可能因為工作繁忙而沒有時間回答問卷,而工作量輕的經理可能會因為同事以為他是冗員而拒絕回答問卷。因此,無回應偏差可能會高估或低估實際工作量。所以,問卷的設計基本上包含一個前設問題:「我是否希望回答問卷?」 ### 迴歸係數的意義 自變數對因變數的影響力。以自變數(身高),因變數(體重)為例,身高 -> 體重的 迴歸係數為 0.309,意即身高每增加 1 公分,體重就會增加 0.309 公斤。 如果身高 -> 體重的 標準化迴歸係數為 0.268 ,意即身高每增加一個標準差,體重就會增加 0.268 個標準差。 ### 檢定統計量的種類 #### Z檢驗:使用常態分配做檢定 Z分配:標準常態分佈 Z檢驗:一般用於大樣本(樣本數大於30)平均值差異性檢驗的方法。使用標準常態分佈來推斷差異發生的機率,從而比較兩個平均數的差異是否顯著。 Z檢驗這種方法理論上成立,但實際上因為母體的標準差未知,因此一般使用T檢驗。 #### T檢驗:使用T分配做檢定 T分配:T分配近似於常態分配的曲線,會依照自由度來改變分配的形狀。其中常態分配是T分配的一個特例(因為現實的資料通常不會那麼漂亮),當自由度(df)趨近無限大時,T分配就是常態分配。實務上只要自由度=30,T分配就已經很接近常態分配。 在母體平均數的假設檢定裡,不同情形會使用不同的檢定統計量。 ##### 母體已知:無論樣本數大小,都使用常態分配 ##### 母體未知: * 樣本數 n > 30 , 可使用 Z 分配 * 樣本數 n < 30 , 使用 T 分配 ![](https://i.imgur.com/xpcw19z.png) #### 卡方檢驗:使用卡方分配做檢定 卡方分配:定義在大於等於 0(正數)範圍的右偏分配,卡方分配只有一個參數,即自由度,不同的自由度決定不同的卡方分配。當自由度趨近於無限大(通常為 df = 30)時,卡方分配會趨近於常態分配。 卡方檢定(皮爾森卡方檢定):用於探討兩個類別變數的相關性,實務上最常用到的方法之一。 ![](https://i.imgur.com/XsfjUVG.png) #### F檢驗:使用F分配做檢定 用來檢定兩個統計資料是否估計著相等的變異數,意即檢驗統計資料是否來自同一個母體。 ### 決定決策法則 決策法則通常決定一個接受域與拒絕域 * 接受域:接受虛無假設 * 拒絕域:接受對立假設 * 臨界點:接受域與拒絕域的接點 ![](https://i.imgur.com/0Di3pNc.png) #### 單尾檢定(One-tailed test) * 對於調查之理論方向是十分清楚,應採用單尾檢定。 * 例如在語句當中有「是否高於?」、「是否低於?」、「是否優於?」、「是否劣於?」等等。 * 對於變數在群體間的變化方向是單方向的,應採用單尾T檢定。 #### 雙尾檢定(Two-tailed test) * 對於理論變化的方向不是很清楚,原則上要採用雙尾檢定。 * 例如:對於男、女性別的不一樣,對於捐血的態度,兩者的看法有什麼區別?凡是在調查語句當中採取兩者(或兩者以上)「有何區別?」、「有何不同」、「有什麼不一樣時」,應採用雙尾檢定 。 * 對於變數之間在群體的變化方向,可能是雙方向的,應採用雙尾t檢定。 ![](https://i.imgur.com/fpCawGB.png) #### p - value 在接受虛無假設的前提下,觀察到檢定統計量比取得樣本資料的值更極端的機率。 p-value 越小,表示檢定的結果越顯著,越可以拒絕提出的虛無假設。 簡單來說,就是測試結果有 百分之幾 的可能是由於機率因素, 所以 p < 0.05 的意思就是 出現的機率小於 0.05(5%) 。 ![](https://i.imgur.com/cz5NNJT.png) ### 多重共線性 指在線性回歸當中,構面與構面之間存在高度相關(代表構面之間沒有區隔開來),而導致該構面在研究模型中失去預測效度。 通常使用 變異數膨脹因子 與 容忍度來判斷 >變異數膨脹因子(Variance Inflation Factor) < 10 容忍度(Tolerance) ≧ 0. ### 中介變數與調節變數的差異-影響力 **中介變數(Mediator)** 指的是自變數(Independent Variable, IV)對因變數(Dependent Variable, DV)的影響,而這個影響的一部份是來自於中介變數 要確認是否有中介變數必須使用多元線性回歸或路徑係數進行,其步驟如下。 1. 先確認IV對DV的影響,如果沒有顯著影響代表不存在Mediator 2. IV和Mediator間需要有顯著的關係 3. DV和Mediator間需要有顯著的關係 如果只看IV和DV的關係時,路徑係數比較大,但當把Mediator放進來時,這個時候的IV對DV的影響力雖然變小但還是具有顯著時。這樣就說明了其中具有Mediator。 **調節變數(Moderator)** IV和DV之間的關係會因為Moderator的值而有所改變,Moderator可以是量化(性別、種族、階級)或非量化(程度的不同)的變數。有可能Moderator為0時,IV對DV具有顯著影響;而當Moderator為1時,IV對DV則不具有顯著影響。 要確認是否有Moderator可將自變數與調節變數相乘(IV x Moderator -> DV)來探討對因變數的顯著性。 另外,Moderator的特點是可以將其視為IV。 中介變數看的是 IV特過什麼Mediator影響DV,調節變數看的是將IV分為數組,並查看各組當中IV對DV有不同的影響。 要如何選擇Mediator和Moderator呢? 1. 當IV和DV之間的關係很強時,用Mediator 2. 當IV和DV之間的關係不一致或較弱時,用Moderator [reference](https://researcher20.com/2010/06/08/%E4%B8%AD%E4%BB%8B%E8%AE%8A%E6%95%B8mediator%E8%88%87%E8%AA%BF%E7%AF%80%E8%AE%8A%E6%95%B8moderator/)