統計名詞解釋

效度的意義

衡量的工具是否能衡量研究所要探討的問題

信度的意義

衡量測驗結果的一致性,即測驗結果的誤差程度

資料偏度、峰度

資料偏度,衡量樣本資料分布的不對稱性。偏度為負代表左側的尾部比右側的長,稱為負偏態(左偏態),偏度為正則反之,稱為正偏態(右偏態)。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

資料峰度,衡量樣本資料分布的峰態。峰度高代表 變異數 的增加是因為變數與平均值間距離的極端值所導致。
衡量峰度高度的係數稱為 峰態係數(k)。

  • k > 0 時,稱為高狹峰
  • k = 0 時,稱為常態峰
  • k < 0 時,稱為低闊峰

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

因素負荷量

因素負荷量(Factor Loadings),指個別觀察變數(測量的問項)與潛在變數(構面)之間的相關性,所以這個值如同皮爾森相關係數一樣,數值介於 -1 到 1 之間。也可以說是這些觀察變數在這個潛在變數中的權重(weight)有多少。
Factor Loadings 標準為 大於 0.6。
若小於 0.4 則該構面的問項缺乏信度。

共變數、變異數、標準差

共變數(共變異數、協方差、Covariance),是用來衡量兩個變數的相關程度,例如身高和體重的相關程度,但因為身高和體重的單位不一樣,因此會除以各自的標準差,將單位抵銷。
變異數(方差、Variance),用來表示變數與期望值(平均值)的距離,為了抵銷負號,所以會將距離平方。
標準差(均方差),用來反映樣本資料間的離散程度,因為 變異數 的計算方式會高估,因此標準差的計算就是將變異數開根號後得出。

控制變數

控制變數是自變數的特殊類型,它會潛在影響應變數。通常是人口統計或個人變數,必須要被「控制」,才能確定自變數對因變數真正的影響。

T - value 過高的解決方法 - 共同方法偏差(CMB)

CMB ( CMV ) 指同樣的資料來源、測試環境、問項或構面本身特徵所造成的預測變數與指標變數之間的誤差,導致對結論產生潛在錯誤 ( 系統性錯誤 )。

無回應偏差

指部分受訪者沒有作答造成整體的誤差。以 1000 位經理作為樣本,工作量高的經理可能因為工作繁忙而沒有時間回答問卷,而工作量輕的經理可能會因為同事以為他是冗員而拒絕回答問卷。因此,無回應偏差可能會高估或低估實際工作量。所以,問卷的設計基本上包含一個前設問題:「我是否希望回答問卷?」

迴歸係數的意義

自變數對因變數的影響力。以自變數(身高),因變數(體重)為例,身高 -> 體重的 迴歸係數為 0.309,意即身高每增加 1 公分,體重就會增加 0.309 公斤。
如果身高 -> 體重的 標準化迴歸係數為 0.268 ,意即身高每增加一個標準差,體重就會增加 0.268 個標準差。

檢定統計量的種類

Z檢驗:使用常態分配做檢定

Z分配:標準常態分佈
Z檢驗:一般用於大樣本(樣本數大於30)平均值差異性檢驗的方法。使用標準常態分佈來推斷差異發生的機率,從而比較兩個平均數的差異是否顯著。
Z檢驗這種方法理論上成立,但實際上因為母體的標準差未知,因此一般使用T檢驗。

T檢驗:使用T分配做檢定

T分配:T分配近似於常態分配的曲線,會依照自由度來改變分配的形狀。其中常態分配是T分配的一個特例(因為現實的資料通常不會那麼漂亮),當自由度(df)趨近無限大時,T分配就是常態分配。實務上只要自由度=30,T分配就已經很接近常態分配。

在母體平均數的假設檢定裡,不同情形會使用不同的檢定統計量。

母體已知:無論樣本數大小,都使用常態分配
母體未知:
  • 樣本數 n > 30 , 可使用 Z 分配
  • 樣本數 n < 30 , 使用 T 分配

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

卡方檢驗:使用卡方分配做檢定

卡方分配:定義在大於等於 0(正數)範圍的右偏分配,卡方分配只有一個參數,即自由度,不同的自由度決定不同的卡方分配。當自由度趨近於無限大(通常為 df = 30)時,卡方分配會趨近於常態分配。
卡方檢定(皮爾森卡方檢定):用於探討兩個類別變數的相關性,實務上最常用到的方法之一。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

F檢驗:使用F分配做檢定

用來檢定兩個統計資料是否估計著相等的變異數,意即檢驗統計資料是否來自同一個母體。

決定決策法則

決策法則通常決定一個接受域與拒絕域

  • 接受域:接受虛無假設
  • 拒絕域:接受對立假設
  • 臨界點:接受域與拒絕域的接點

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

單尾檢定(One-tailed test)

  • 對於調查之理論方向是十分清楚,應採用單尾檢定。
  • 例如在語句當中有「是否高於?」、「是否低於?」、「是否優於?」、「是否劣於?」等等。
  • 對於變數在群體間的變化方向是單方向的,應採用單尾T檢定。

雙尾檢定(Two-tailed test)

  • 對於理論變化的方向不是很清楚,原則上要採用雙尾檢定。
  • 例如:對於男、女性別的不一樣,對於捐血的態度,兩者的看法有什麼區別?凡是在調查語句當中採取兩者(或兩者以上)「有何區別?」、「有何不同」、「有什麼不一樣時」,應採用雙尾檢定 。
  • 對於變數之間在群體的變化方向,可能是雙方向的,應採用雙尾t檢定。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

p - value

在接受虛無假設的前提下,觀察到檢定統計量比取得樣本資料的值更極端的機率。
p-value 越小,表示檢定的結果越顯著,越可以拒絕提出的虛無假設。

簡單來說,就是測試結果有 百分之幾 的可能是由於機率因素,
所以 p < 0.05 的意思就是 出現的機率小於 0.05(5%) 。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

多重共線性

指在線性回歸當中,構面與構面之間存在高度相關(代表構面之間沒有區隔開來),而導致該構面在研究模型中失去預測效度。

通常使用 變異數膨脹因子 與 容忍度來判斷

變異數膨脹因子(Variance Inflation Factor) < 10
容忍度(Tolerance) ≧ 0.

中介變數與調節變數的差異-影響力

中介變數(Mediator) 指的是自變數(Independent Variable, IV)對因變數(Dependent Variable, DV)的影響,而這個影響的一部份是來自於中介變數
要確認是否有中介變數必須使用多元線性回歸或路徑係數進行,其步驟如下。

  1. 先確認IV對DV的影響,如果沒有顯著影響代表不存在Mediator
  2. IV和Mediator間需要有顯著的關係
  3. DV和Mediator間需要有顯著的關係
    如果只看IV和DV的關係時,路徑係數比較大,但當把Mediator放進來時,這個時候的IV對DV的影響力雖然變小但還是具有顯著時。這樣就說明了其中具有Mediator。

調節變數(Moderator) IV和DV之間的關係會因為Moderator的值而有所改變,Moderator可以是量化(性別、種族、階級)或非量化(程度的不同)的變數。有可能Moderator為0時,IV對DV具有顯著影響;而當Moderator為1時,IV對DV則不具有顯著影響。
要確認是否有Moderator可將自變數與調節變數相乘(IV x Moderator -> DV)來探討對因變數的顯著性。
另外,Moderator的特點是可以將其視為IV。

中介變數看的是 IV特過什麼Mediator影響DV,調節變數看的是將IV分為數組,並查看各組當中IV對DV有不同的影響。
要如何選擇Mediator和Moderator呢?

  1. 當IV和DV之間的關係很強時,用Mediator
  2. 當IV和DV之間的關係不一致或較弱時,用Moderator

reference