---
# System prepended metadata

title: 統計名詞解釋

---

# 統計名詞解釋


### 效度的意義
衡量的工具是否能衡量研究所要探討的問題
### 信度的意義
衡量測驗結果的一致性，即測驗結果的誤差程度
### 資料偏度、峰度
資料偏度，衡量樣本資料分布的不對稱性。偏度為負代表左側的尾部比右側的長，稱為負偏態（左偏態），偏度為正則反之，稱為正偏態（右偏態）。

![](https://i.imgur.com/mtlPzXI.png)

資料峰度，衡量樣本資料分布的峰態。峰度高代表 變異數 的增加是因為變數與平均值間距離的極端值所導致。
衡量峰度高度的係數稱為 峰態係數（k）。
* k > 0 時，稱為高狹峰
* k = 0 時，稱為常態峰
* k < 0 時，稱為低闊峰

![](https://i.imgur.com/uQrkpb7.png)

### 因素負荷量
因素負荷量（Factor Loadings），指個別觀察變數（測量的問項）與潛在變數（構面）之間的相關性，所以這個值如同皮爾森相關係數一樣，數值介於 -1 到 1 之間。也可以說是這些觀察變數在這個潛在變數中的權重（weight）有多少。
Factor Loadings 標準為 大於 0.6。
若小於 0.4 則該構面的問項缺乏信度。

### 共變數、變異數、標準差
共變數（共變異數、協方差、Covariance），是用來衡量兩個變數的相關程度，例如身高和體重的相關程度，但因為身高和體重的單位不一樣，因此會除以各自的標準差，將單位抵銷。
變異數（方差、Variance），用來表示變數與期望值（平均值）的距離，為了抵銷負號，所以會將距離平方。
標準差（均方差），用來反映樣本資料間的離散程度，因為 變異數 的計算方式會高估，因此標準差的計算就是將變異數開根號後得出。

### 控制變數
控制變數是自變數的特殊類型，它會潛在影響應變數。通常是人口統計或個人變數，必須要被「控制」，才能確定自變數對因變數真正的影響。

### T - value 過高的解決方法 - 共同方法偏差（CMB）
CMB ( CMV ) 指同樣的資料來源、測試環境、問項或構面本身特徵所造成的預測變數與指標變數之間的誤差，導致對結論產生潛在錯誤 ( 系統性錯誤 )。

### 無回應偏差
指部分受訪者沒有作答造成整體的誤差。以 1000 位經理作為樣本，工作量高的經理可能因為工作繁忙而沒有時間回答問卷，而工作量輕的經理可能會因為同事以為他是冗員而拒絕回答問卷。因此，無回應偏差可能會高估或低估實際工作量。所以，問卷的設計基本上包含一個前設問題：「我是否希望回答問卷？」

### 迴歸係數的意義
自變數對因變數的影響力。以自變數（身高），因變數（體重）為例，身高 -> 體重的 迴歸係數為 0.309，意即身高每增加 1 公分，體重就會增加 0.309 公斤。
如果身高 -> 體重的 標準化迴歸係數為 0.268 ，意即身高每增加一個標準差，體重就會增加 0.268 個標準差。

### 檢定統計量的種類
#### Z檢驗：使用常態分配做檢定
Z分配：標準常態分佈
Z檢驗：一般用於大樣本（樣本數大於30）平均值差異性檢驗的方法。使用標準常態分佈來推斷差異發生的機率，從而比較兩個平均數的差異是否顯著。
Z檢驗這種方法理論上成立，但實際上因為母體的標準差未知，因此一般使用T檢驗。
#### T檢驗：使用T分配做檢定
T分配：T分配近似於常態分配的曲線，會依照自由度來改變分配的形狀。其中常態分配是T分配的一個特例（因為現實的資料通常不會那麼漂亮），當自由度(df)趨近無限大時，T分配就是常態分配。實務上只要自由度=30，T分配就已經很接近常態分配。


在母體平均數的假設檢定裡，不同情形會使用不同的檢定統計量。
##### 母體已知：無論樣本數大小，都使用常態分配
##### 母體未知：
* 樣本數 n > 30 , 可使用 Z 分配
* 樣本數 n < 30 , 使用 T 分配

![](https://i.imgur.com/xpcw19z.png)
#### 卡方檢驗：使用卡方分配做檢定
卡方分配：定義在大於等於 0（正數）範圍的右偏分配，卡方分配只有一個參數，即自由度，不同的自由度決定不同的卡方分配。當自由度趨近於無限大（通常為 df = 30）時，卡方分配會趨近於常態分配。
卡方檢定（皮爾森卡方檢定）：用於探討兩個類別變數的相關性，實務上最常用到的方法之一。

![](https://i.imgur.com/XsfjUVG.png)
#### F檢驗：使用F分配做檢定
用來檢定兩個統計資料是否估計著相等的變異數，意即檢驗統計資料是否來自同一個母體。

### 決定決策法則
決策法則通常決定一個接受域與拒絕域
* 接受域：接受虛無假設
* 拒絕域：接受對立假設
* 臨界點：接受域與拒絕域的接點

![](https://i.imgur.com/0Di3pNc.png)

#### 單尾檢定（One-tailed test）
* 對於調查之理論方向是十分清楚，應採用單尾檢定。
* 例如在語句當中有「是否高於？」、「是否低於？」、「是否優於？」、「是否劣於？」等等。
* 對於變數在群體間的變化方向是單方向的，應採用單尾T檢定。

#### 雙尾檢定（Two-tailed test）
* 對於理論變化的方向不是很清楚，原則上要採用雙尾檢定。
* 例如：對於男、女性別的不一樣，對於捐血的態度，兩者的看法有什麼區別？凡是在調查語句當中採取兩者（或兩者以上）「有何區別？」、「有何不同」、「有什麼不一樣時」，應採用雙尾檢定 。
* 對於變數之間在群體的變化方向，可能是雙方向的，應採用雙尾t檢定。

![](https://i.imgur.com/fpCawGB.png)


#### p - value
在接受虛無假設的前提下，觀察到檢定統計量比取得樣本資料的值更極端的機率。
p-value 越小，表示檢定的結果越顯著，越可以拒絕提出的虛無假設。

簡單來說，就是測試結果有 百分之幾 的可能是由於機率因素，
所以 p < 0.05 的意思就是 出現的機率小於 0.05（5%） 。


![](https://i.imgur.com/cz5NNJT.png)

### 多重共線性
指在線性回歸當中，構面與構面之間存在高度相關（代表構面之間沒有區隔開來），而導致該構面在研究模型中失去預測效度。

通常使用 變異數膨脹因子 與 容忍度來判斷
>變異數膨脹因子(Variance Inflation Factor) < 10
容忍度(Tolerance) ≧ 0.

### 中介變數與調節變數的差異－影響力

**中介變數(Mediator)** 指的是自變數(Independent Variable, IV)對因變數(Dependent Variable, DV)的影響，而這個影響的一部份是來自於中介變數
要確認是否有中介變數必須使用多元線性回歸或路徑係數進行，其步驟如下。
1. 先確認IV對DV的影響，如果沒有顯著影響代表不存在Mediator
2. IV和Mediator間需要有顯著的關係
3. DV和Mediator間需要有顯著的關係
如果只看IV和DV的關係時，路徑係數比較大，但當把Mediator放進來時，這個時候的IV對DV的影響力雖然變小但還是具有顯著時。這樣就說明了其中具有Mediator。

**調節變數(Moderator)** IV和DV之間的關係會因為Moderator的值而有所改變，Moderator可以是量化(性別、種族、階級)或非量化(程度的不同)的變數。有可能Moderator為0時，IV對DV具有顯著影響；而當Moderator為1時，IV對DV則不具有顯著影響。
要確認是否有Moderator可將自變數與調節變數相乘(IV x Moderator -> DV)來探討對因變數的顯著性。
另外，Moderator的特點是可以將其視為IV。

中介變數看的是 IV特過什麼Mediator影響DV，調節變數看的是將IV分為數組，並查看各組當中IV對DV有不同的影響。
要如何選擇Mediator和Moderator呢？
1. 當IV和DV之間的關係很強時，用Mediator
2. 當IV和DV之間的關係不一致或較弱時，用Moderator

[reference](https://researcher20.com/2010/06/08/%E4%B8%AD%E4%BB%8B%E8%AE%8A%E6%95%B8mediator%E8%88%87%E8%AA%BF%E7%AF%80%E8%AE%8A%E6%95%B8moderator/)