# 教育統計
[學習單解答我放這邊,僅供參考](https://hackmd.io/@68ZAczErQD2ELQBcxxI4xQ/B1nYPUKrkl)
再次説明,僅供參考(本資料庫為Employee_data.sav)
[](https://www.notion.so/1615b81e41ca8005a4d3c48f095299a8?pvs=21)
## **Z 分數**
### 原理:
Z 分數是一種將數據標準化的方法,公式為:
<math xmlns="http://www.w3.org/1998/Math/MathML">
<mi>Z</mi>
<mo>=</mo>
<mi>X</mi>
<mo>−</mo>
<mi>X</mi>
<mrow data-mjx-texclass="ORD">
<mo stretchy="false">ˉ</mo>
</mrow>
<mi>σ</mi>
<mi>Z</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mi>X</mi>
<mo>−</mo>
<mrow data-mjx-texclass="ORD">
<mover>
<mi>X</mi>
<mo stretchy="false">¯</mo>
</mover>
</mrow>
</mrow>
<mi>σ</mi>
</mfrac>
</math>
其中:
<math xmlns="http://www.w3.org/1998/Math/MathML"><mi>X</mi></math>:原始分數
<div style="display: inline-block; vertical-align: middle;">
<math xmlns="http://www.w3.org/1998/Math/MathML">
<mrow data-mjx-texclass="ORD">
<mover>
<mi>X</mi>
<mo stretchy="false">¯</mo>
</mover>
</mrow>
</math>
:平均數
</div>
<math xmlns="http://www.w3.org/1998/Math/MathML"><mi>σ</mi></math>:標準差
Z 分數描述每個數據點與平均值的距離(以標準差為單位),便於比較不同單位或尺度的數據。
### SPSS 操作方法:
- **開啟資料集**:
- 打開需要計算 Z 分數的資料集(例如 `Employee Data`)。
- **選擇標準化功能**:
- 路徑:`分析` → `描述統計` → `描述`。

> [color=#974fc6]必須勾選將標準化存成變數
>
- **設置變數**:
- 將目標變數(例如 `Salary`)拖入右側框中。
- 勾選「儲存標準化值為變數」。
- **執行分析**:
- 點擊確定後,SPSS 會自動生成 Z 分數作為新的變數,名稱為 `Z_Salary`(或以 `Z_` 為前綴的變數名)。

---
## T分數
### 原理:
T 分數是一種標準化分數,用於將 Z 分數轉換為另一尺度的標準分數,公式如下:
T=50+10⋅Z
- **50**:表示 T 分數的平均值。
- **10**:表示 T 分數的標準差。
T 分數保留了 Z 分數的相對順序,但消除了負值與小數,便於解釋,尤其在心理測驗或教育研究中常用。
- **計算 T 分數**:
- 路徑:`轉換` → `計算變數`。
- 設定新變數名稱(如 `T`)。
- 在公式框輸入:`T=50+10⋅Z`

- **確定**:
- 點擊確定後,SPSS 會生成一個新的變數列,顯示對應的 T 分數。
---
## **觀察值排序**
### 原理:
排序是一種將數據按指定變數的值排列的方法,可用於快速檢視極值、資料檢查或進一步分析。
### SPSS 操作方法:
1. 路徑:`資料` → `排序觀察值`。
2. 選擇要排序的變數(如 `Education Years`)。
3. 選擇`遞增或遞減排序`。

5. 點擊確定,數據將根據選擇的變數重新排列。
### Employee Data 示例:
1. 將 `Education Years` 設為主要排序變數。
2. 選擇遞增排序。
3. 結果顯示受教育年數從低到高排列。
---
## **分割檔案**
### 原理:
分割檔案功能將數據依指定變數(如性別)分組,便於在不同子群體中進行分析。
### SPSS 操作方法:
1. 路徑:`資料` → `分割檔案`。

2. 選擇類別變數(如 `Gender`)。

> [color=#974fc6][完成題目記得合併檔案](https://hackmd.io/vTuTsgkMSQeci-0daXIOcQ?view)
>
3. 勾選「比較群組」以便在同一報表中呈現結果。
4. 點擊確定,右下角顯示分割狀態。
5. 執行分析時,SPSS 自動生成分組結果。
### Employee Data 示例:
1. 使用 `Gender` 作為分割變數。
2. 執行描述統計(如 `Salary` 的平均值和標準差)。
3. 結果報表分別顯示男性與女性群體的統計值。
---
## **加權觀察值**
### 原理:
加權觀察值功能用於大型資料集中,當資料每行表示的是多個觀察值(例如某種狀況的發生次數)時,透過加權來正確反映資料的真實分布。
### SPSS 操作方法:
1. 路徑:`資料` → `加權觀察值`。
2. 選擇加權變數(如 `Count`)。
3. 勾選「使用加權」,確定後,SPSS 將依據加權變數的值調整資料的分析結果。
### Employee Data 示例:
1. 資料中 `Count` 表示每行資料的樣本數。
2. 使用 `Count` 作為加權變數,執行描述統計。
3. 結果報表將顯示按樣本數加權後的統計值。

---
## **合併檔案**
### 原理:
合併檔案分為新增觀察值(將多個資料集合併為一個大資料集)與新增變數(將不同資料集的變數合併到同一資料集)。
### SPSS 操作方法:
### 新增觀察值:
1. 路徑:`資料` → `合併檔案` → `新增觀察值`。
2. 打開所有需要合併的檔案。
3. 在工作視窗中選擇檔案,按繼續。
4. 確認變數配對無誤,按確定完成。
### 新增變數:
1. 路徑:`資料` → `合併檔案` → `新增變數`。
2. 選擇基於共同 ID 的連結變數(如 `EmployeeID`)。

3. 確定後,新增變數將出現在原始資料的最後幾列。
### Employee Data 示例:
1. 合併 `Employee Details` 與 `Job Satisfaction` 資料集:
- `EmployeeID` 作為連結變數。
- 新增 `JobSatisfaction` 到 `Employee Details`。
2. 結果顯示每位員工的詳細資料與滿意度變數。
---
## **重新編碼 (Recode)**
### 原理:
重新編碼可將變數值進行轉換(例如處理反向題),以便進一步分析。
### SPSS 操作方法:
1. 路徑:`轉換` → `重新編碼成相同變數` 或 `重新編碼成不同變數`。


3. 選擇目標變數(如 `Satisfaction`)。
4. 設定舊值與新值的對應關係(如 `1 → 5`, `2 → 4`)。
5. 點擊確定,生成新變數或覆蓋舊變數。
### Employee Data 示例:
1. 在滿意度調查中,題目 2 是反向題,將值 `1 → 5, 2 → 4` 重新編碼。
2. 結果:
- 原始數據:`1, 3, 5`
- 編碼後數據:`5, 3, 1`
---
## **隨機抽樣 (Random Sampling)**
### 原理:
從大型資料集中抽取子樣本,用於實驗、分析或驗證。
### SPSS 操作方法:
1. 路徑:`資料` → `選擇觀察值` → 勾選「隨機抽樣」。

2. 設定抽樣比例(例如 20% 或固定樣本數量)。
3. 確定後,SPSS 標記被選中的樣本,未被選中的可以刪除或隱藏。
### Employee Data 示例:
1. 從 1000 筆資料中隨機抽取 10% 作為分析樣本。
2. SPSS 自動標記隨機選中的 100 筆數據。
---
## **分數化數據 (Compute Variable)**
### 原理:
透過運算生成新變數(如計算年齡、標準化分數)。
### SPSS 操作方法:
1. 路徑:`轉換` → `計算變數`。
2. 設定新變數名稱(如 `Age`)。
3. 在公式框內輸入計算邏輯,例如:
`Age=CurrentYear−BirthYear+(CurrentMonth−BirthMonth)/12`
4. 確定後,生成新的變數欄位。
### Employee Data 示例:
1. 根據出生年份計算員工年齡:
- `Age = 2024 - bdate`

2. 新增變數 `Age`,顯示每位員工的年齡。
---
## **分割檔案 (Split File)**
### 原理:
分割檔案功能將資料根據特定條件分組,方便在子群體間進行比較,無需手動拆分檔案。
### SPSS 操作方法:
1. 路徑:`資料` → `分割檔案`。
2. 勾選「比較群組」或「組別內排序」。
3. 將分割條件變數(如 `Gender` 或 `Department`)拖至「分割變數」框中。
4. 確定後,右下角會顯示分割檔案狀態。
5. 進行後續分析時,結果會根據分割條件分組顯示。
### Employee Data 示例:
1. 使用 `Gender` 作為分割條件,分析男性與女性之間的薪資差異:
- 繪製 `Salary` 的描述性統計,分別呈現男性和女性的平均值和標準差。
2. 報表顯示:
- 男性平均薪資為 $60,000,女性為 $55,000。
---
## **觀察值篩選 (Select Cases)**
### 原理:
篩選觀察值功能用於從資料集中提取符合特定條件的子集,例如篩選女性員工或自由職業者。
### SPSS 操作方法:
1. 路徑:`資料` → `選擇觀察值`。
2. 勾選「若條件滿足」。
3. 設定條件公式,例如:
- `Gender = "Female" AND JobType = "Freelancer"`
4. 確定後,SPSS 將標記篩選結果,未被選中的觀察值可選擇刪除或隱藏。
### Employee Data 示例:
1. 篩選女性且職業為自由業的員工:
- 條件公式:`Gender = "Female" AND JobType = "Freelancer"`.
2. 結果:
- 資料集中保留符合條件的觀察值,其餘的觀察值被標記。
---
## **圖表繪製**
### 原理:
利用 SPSS 圖表功能視覺化數據分佈,例如直方圖、散點圖或折線圖。
### SPSS 操作方法:
1. 路徑:`圖表` → 選擇圖表類型(如直方圖、條形圖)。(方法一)
2. 設定圖表變數:
- X 軸:主要數據變數。
- Y 軸:頻率或其他輔助變數。
3. 點擊確定生成圖表。
4. 可在圖表編輯器中進一步修改格式和外觀。

### Employee Data 示例:
利用`次數分配表`裏面的圖表功能來製作圖表(方法二)

---
## **數據轉換 (Data Transformation)**
### 原理:
數據轉換功能用於生成新變數(如計算比例、年齡等),或將數據分組(如將連續變數分成多個區間)。
### SPSS 操作方法:
### 計算變數:
1. 路徑:`轉換` → `計算變數`。
2. 設定新變數名稱,輸入公式。
- 例如:`SalaryUSD = Salary * 30` (將薪資單位從千元轉為美元)。
3. 確定後生成新變數。
### 重新編碼:
1. 路徑:`轉換` → `重新編碼成不同變數`。
2. 將變數拖入操作框,設置舊值與新值的對應關係。
3. 確定後生成編碼後的變數。
### Employee Data 示例:
1. **計算年齡**:
> ~~公式:Age = CurrentYear - BirthYear + (CurrentMonth - BirthMonth) / 12
> - 新增變數 `Age` 顯示員工年齡。~~
2. **分組薪資數據**:
- 將 `Salary` 重新編碼為區間:
- `0 - 50,000 → Low`
- `50,001 - 100,000 → Medium`
- `100,001+ → High`

---
## **反向題處理 (Reverse Scoring)**
### 原理:
反向題需重新編碼成正向題,避免計算時產生偏差。
### SPSS 操作方法:
1. 路徑:`轉換` → `重新編碼成相同變數`。
2. 將反向題變數(如 `Question2`)拖入框中。
3. 設定舊值與新值的對應關係(如 `1 → 5`, `2 → 4`)。
4. 確定後覆蓋原變數。
### Employee Data 示例:
1. 問卷題目 2 是反向題,將其重新編碼:
- 原數據:`1, 2, 4, 5`
- 編碼後:`5, 4, 2, 1`
---
## **1. 遺漏值(Missing Values)**
### **什麼是遺漏值?**
遺漏值是指某些觀測資料中缺失的項目。例如:
- 員工未填寫出生日期。
- 未提供薪資數據。
- 問卷中未回答某些問題。
### 為什麼設定遺漏值?
遺漏值是資料中缺失的部分,例如某些員工未填寫的薪水或出生日期。設定特定的值(例如 `9999` 或 `99999`)來表示遺漏值,主要是為了:
1. **避免與實際數據混淆**:確保這些值不會出現在正常資料範圍中。
2. **統計分析需求**:讓 SPSS 在分析時自動排除遺漏值。
3. **便於數據清理**:快速篩選、替換或統計遺漏值數量。
## 2. 小數點設置與數據類型
### 小數點設置
根據變數性質決定小數位數:
- **整數型變數**:設為 `0`,如職位類別或員工編號。
- **連續型變數**:通常設為 `2`,如薪水或百分比。
### 數據類型判斷
- **數值型(Numeric)**:適用於數字型資料,例如薪水、工作經驗。
- **字串型(String)**:適用於分類資料,例如性別(`m`/`f`)。
- **日期型(Date)**:適用於日期資料,例如出生日期(`YYYY-MM-DD`)。
---
## 3. SPSS 設定步驟
### 3.1 遺漏值設定
1. **進入「變數檢視」**。
2. 找到需要設定的變數,在「遺漏值」欄位中點擊設定:
- **離散值**:輸入最多 3 個特定值,例如 `99999`。
- **範圍**:設定範圍(如 `-999` 至 `-1`)。
#### 範例:
- 薪水(`salary`):
- 正常範圍:`20000` 至 `100000`
- 遺漏值設定:`99999`
### 3.2 小數點設定
1. 在「變數檢視」找到目標變數。
2. 在「小數點位數」欄位輸入所需位數:
- 薪水(`salary`):設為 `2`。
- 職位類別(`jobcat`):設為 `0`。
### 3.3 類型設定
1. 在「變數檢視」找到目標變數。
2. 在「類型」欄位選擇:
- **數值型(Numeric)**:例如薪水。
- **字串型(String)**:例如性別。
- **日期型(Date)**:例如出生日期。
---
## 4. 整合範例:員工資料編碼表
| 變數名稱 | 描述 | 資料類型 | 小數位數 | 遺漏值設定 |
|----------|---------------|------------|----------|------------|
| id | 員工編號 | 數值型 | 0 | 無 |
| gender | 性別 | 字串型 | N/A | 無 |
| bdate | 出生日期 | 日期型 | N/A | 無 |
| jobcat | 職位類別 | 數值型 | 0 | 無 |
| salary | 目前薪水 | 數值型 | 2 | 99999 |
| salbegin | 初始薪水 | 數值型 | 2 | 99999 |
| jobtime | 在職時間(月)| 數值型 | 0 | 無 |
| prevexp | 先前經驗(月)| 數值型 | 0 | 無 |
| minority | 少數族群 | 數值型 | 0 | 9 |
###### [遺漏值設定請看這邊](https://hackmd.io/vTuTsgkMSQeci-0daXIOcQ?both#1-%E9%81%BA%E6%BC%8F%E5%80%BC%EF%BC%88Missing-Values%EF%BC%89)
---
## 5. 資料保存與檢查
1. **保存資料庫**:
- 點擊「檔案 > 另存新檔」,選擇 `.sav` 格式。
2. **檢查資料**:
- 在「資料檢視」中,確認遺漏值是否正確顯示為設定值(如 `99999`)。
- 使用 SPSS 的「描述性統計」檢查數據一致性。
---
## 6. 注意事項
1. **遺漏值設定應避免與真實數據範圍重疊**。
2. **確保類型與分析需求匹配**:
- 金額數據應保留小數點。
- 分類變數應設定明確的代碼。
3. **數據一致性**:若多個資料庫共享,確保遺漏值和類型設定統一。
---
# 百分等級(PR)與百分位數(Pp)計算指南
## **1. 百分等級(Percentile Rank, PR)**
### **原理與數學公式**
**定義**:
百分等級表示某觀察值相對於樣本中其他數值的百分比位置。
公式:`T=50+10⋅Z`
**說明**:
- **低於該分數的觀察值數量**:樣本中比目標分數小的觀察值數量。
- **與該分數相同的觀察值數量**:樣本中與目標分數相等的觀察值數量。
- **總觀察值數量**:樣本中所有觀察值的數量。
---
### **SPSS 操作**
1. **開啟頻率分析**:
- 點擊 **轉換 > 等級觀察值(K)**
> [color=#974fc6]版本不同名稱也許會有不一樣。

2. **選擇變數**:
- 將目標變數(如 `salary`)拖入 **變數** 區域。
3. **啟用百分比選項**:
- 點擊 **等級類型** 按鈕,勾選 **分數類型以%顯示**。

4. **執行分析**:
- 點擊 **確定**,生成頻率表。
5. **解讀結果**:
- 輸出中的 **累積百分比** 欄位即為 PR 值。

---
## **2. 百分位數(Percentile Point, Pp)**
### **原理與數學公式**
**定義**:
百分位數表示樣本中某百分比位置對應的觀察值。
公式:

**參數說明**:
- L:百分位所在組的下界。
- N-p:總樣本數乘以百分比
- F:低於該組的累積頻數。
- f:該組的頻數。
- h:該組的組距。
**計算步驟**:
1. **確定總樣本數** 。
2. **計算百分位對應的位置**
3. **找到百分位所在組**。
4. **將參數代入公式,求得 P_p**。
---
### **SPSS 操作**
1. **開啟探索分析**:
- 點擊 **分析 > 描述統計 > 次數分配表**。
2. **選擇變數**:
- 將目標變數(如 `salary`)拖入 **依變數清單**。
3. **設定百分位數**:
- 點擊 **統計資料** 按鈕,勾選 **百分位數**。
- 如需自定義,添加額外的百分比(如 10%、90%)。

4. **執行分析**:
- 點擊 **確定**,生成探索結果。
---
# **名義尺度的定義**
名義尺度是一種將資料分為不同類別,僅用於 **區別或分類** 的測量尺度,數值僅作為標籤,無法進行數學運算或比較大小。
**特點**:
- **分類**:資料被分為互斥的類別。
- **無順序**:類別之間沒有大小或次序之分。
- **數值標籤**:數值僅是代碼或名稱,無任何數學意義。
---
### **2. 判斷是否為名義尺度**
判斷一個變數是否為名義尺度,主要考量以下條件:
1. **是否用於分類**:
- 資料僅用來區分不同類別或群體,而非表達數值或順序。
- 例如:性別(男/女)、地區(北/中/南)。
2. **類別間是否互斥**:
- 每筆資料只能屬於一個類別,類別之間互相排斥。
- 例如:員工部門(行銷部/工程部/行政部)。
3. **是否無順序性**:
- 各類別之間沒有明顯的大小或高低之分。
- 例如:婚姻狀況(已婚/未婚/離婚/喪偶)。
4. **數值僅作標籤**:
- 若類別用數字表示,數字僅是代碼,不能比較大小或進行運算。
- 例如:學校類型(1=國小,2=國中,3=高中)。
---
### **3. 名義尺度的例子**
- **性別**:
- 類別:男、女
- 編碼:1 = 男,2 = 女
- **國籍**:
- 類別:台灣、美國、日本
- 編碼:1 = 台灣,2 = 美國,3 = 日本
- **地區**:
- 類別:北部、中部、南部
- 編碼:1 = 北部,2 = 中部,3 = 南部
---
### **4. 名義尺度的操作與應用**
### **(1) 如何在 SPSS 中設置名義尺度**
1. **變數檢視**(Variable View):
- 將目標變數的「測量」欄位設為 **Nominal**。
2. **標籤設定**:
- 點擊「值」欄位,為每個數值添加標籤(如 1=男, 2=女)。
3. **分析應用**:
- 使用 **次數分配表(Frequency Table)**,統計每個類別的頻數和百分比。
### **(2) 常見統計分析方法**
- **次數分配表**:計算各類別的頻數與百分比。
- **卡方檢定**:比較類別之間的相關性。
---
### **5. 名義尺度的限制與注意事項**
1. **數學運算無意義**:
- 不能對數據進行加減乘除等運算。
- 例如:將 1(男)與 2(女)相加無意義。
2. **適用的圖表**:
- 常用長條圖和圓餅圖來表示名義尺度的分佈。
3. **數據標籤的重要性**:
- 必須清楚為每個數值添加對應的標籤,否則數據解釋可能混淆。
---
### **6. 名義尺度與其他尺度的比較**
| 尺度 | 描述 | 例子 | 可否排序 | 可否運算 |
| --- | --- | --- | --- | --- |
| 名義尺度 | 分類數據 | 性別、地區 | 否 | 否 |
| 順序尺度 | 可排序的分類數據 | 教育程度、排名 | 是 | 否 |
| 等距尺度 | 差距有意義 | 溫度(°C)、考試分數 | 是 | 加減 |
| 比率尺度 | 有絕對零點 | 薪資、年齡 | 是 | 加減乘除 |
---