# 教育統計 [學習單解答我放這邊,僅供參考](https://hackmd.io/@68ZAczErQD2ELQBcxxI4xQ/B1nYPUKrkl) 再次説明,僅供參考(本資料庫為Employee_data.sav) [](https://www.notion.so/1615b81e41ca8005a4d3c48f095299a8?pvs=21) ## **Z 分數** ### 原理: Z 分數是一種將數據標準化的方法,公式為: <math xmlns="http://www.w3.org/1998/Math/MathML"> <mi>Z</mi> <mo>=</mo> <mi>X</mi> <mo>&#x2212;</mo> <mi>X</mi> <mrow data-mjx-texclass="ORD"> <mo stretchy="false">&#x2C9;</mo> </mrow> <mi>&#x3C3;</mi> <mi>Z</mi> <mo>=</mo> <mfrac> <mrow> <mi>X</mi> <mo>&#x2212;</mo> <mrow data-mjx-texclass="ORD"> <mover> <mi>X</mi> <mo stretchy="false">&#xAF;</mo> </mover> </mrow> </mrow> <mi>&#x3C3;</mi> </mfrac> </math> 其中: <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>X</mi></math>:原始分數 <div style="display: inline-block; vertical-align: middle;"> <math xmlns="http://www.w3.org/1998/Math/MathML"> <mrow data-mjx-texclass="ORD"> <mover> <mi>X</mi> <mo stretchy="false">¯</mo> </mover> </mrow> </math> :平均數 </div> <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>&#x3C3;</mi></math>:標準差 Z 分數描述每個數據點與平均值的距離(以標準差為單位),便於比較不同單位或尺度的數據。 ### SPSS 操作方法: - **開啟資料集**: - 打開需要計算 Z 分數的資料集(例如 `Employee Data`)。 - **選擇標準化功能**: - 路徑:`分析` → `描述統計` → `描述`。 ![image](https://hackmd.io/_uploads/Hyny9rYByx.png) > [color=#974fc6]必須勾選將標準化存成變數 > - **設置變數**: - 將目標變數(例如 `Salary`)拖入右側框中。 - 勾選「儲存標準化值為變數」。 - **執行分析**: - 點擊確定後,SPSS 會自動生成 Z 分數作為新的變數,名稱為 `Z_Salary`(或以 `Z_` 為前綴的變數名)。 ![image](https://hackmd.io/_uploads/BkhD9SYr1g.png) --- ## T分數 ### 原理: T 分數是一種標準化分數,用於將 Z 分數轉換為另一尺度的標準分數,公式如下: T=50+10⋅Z - **50**:表示 T 分數的平均值。 - **10**:表示 T 分數的標準差。 T 分數保留了 Z 分數的相對順序,但消除了負值與小數,便於解釋,尤其在心理測驗或教育研究中常用。 - **計算 T 分數**: - 路徑:`轉換` → `計算變數`。 - 設定新變數名稱(如 `T`)。 - 在公式框輸入:`T=50+10⋅Z` ![image](https://hackmd.io/_uploads/Sk8E5rYB1l.png) - **確定**: - 點擊確定後,SPSS 會生成一個新的變數列,顯示對應的 T 分數。 --- ## **觀察值排序** ### 原理: 排序是一種將數據按指定變數的值排列的方法,可用於快速檢視極值、資料檢查或進一步分析。 ### SPSS 操作方法: 1. 路徑:`資料` → `排序觀察值`。 2. 選擇要排序的變數(如 `Education Years`)。 3. 選擇`遞增或遞減排序`。 ![image](https://hackmd.io/_uploads/H1G1iHtSkx.png) 5. 點擊確定,數據將根據選擇的變數重新排列。 ### Employee Data 示例: 1. 將 `Education Years` 設為主要排序變數。 2. 選擇遞增排序。 3. 結果顯示受教育年數從低到高排列。 --- ## **分割檔案** ### 原理: 分割檔案功能將數據依指定變數(如性別)分組,便於在不同子群體中進行分析。 ### SPSS 操作方法: 1. 路徑:`資料` → `分割檔案`。 ![image](https://hackmd.io/_uploads/SJxQjSKS1e.png) 2. 選擇類別變數(如 `Gender`)。 ![image](https://hackmd.io/_uploads/r1XusrKHkg.png) > [color=#974fc6][完成題目記得合併檔案](https://hackmd.io/vTuTsgkMSQeci-0daXIOcQ?view) > 3. 勾選「比較群組」以便在同一報表中呈現結果。 4. 點擊確定,右下角顯示分割狀態。 5. 執行分析時,SPSS 自動生成分組結果。 ### Employee Data 示例: 1. 使用 `Gender` 作為分割變數。 2. 執行描述統計(如 `Salary` 的平均值和標準差)。 3. 結果報表分別顯示男性與女性群體的統計值。 --- ## **加權觀察值** ### 原理: 加權觀察值功能用於大型資料集中,當資料每行表示的是多個觀察值(例如某種狀況的發生次數)時,透過加權來正確反映資料的真實分布。 ### SPSS 操作方法: 1. 路徑:`資料` → `加權觀察值`。 2. 選擇加權變數(如 `Count`)。 3. 勾選「使用加權」,確定後,SPSS 將依據加權變數的值調整資料的分析結果。 ### Employee Data 示例: 1. 資料中 `Count` 表示每行資料的樣本數。 2. 使用 `Count` 作為加權變數,執行描述統計。 3. 結果報表將顯示按樣本數加權後的統計值。 ![image](https://hackmd.io/_uploads/H1zUeAKBJe.png) --- ## **合併檔案** ### 原理: 合併檔案分為新增觀察值(將多個資料集合併為一個大資料集)與新增變數(將不同資料集的變數合併到同一資料集)。 ### SPSS 操作方法: ### 新增觀察值: 1. 路徑:`資料` → `合併檔案` → `新增觀察值`。 2. 打開所有需要合併的檔案。 3. 在工作視窗中選擇檔案,按繼續。 4. 確認變數配對無誤,按確定完成。 ### 新增變數: 1. 路徑:`資料` → `合併檔案` → `新增變數`。 2. 選擇基於共同 ID 的連結變數(如 `EmployeeID`)。 ![image](https://hackmd.io/_uploads/B1sheAtSJg.png) 3. 確定後,新增變數將出現在原始資料的最後幾列。 ### Employee Data 示例: 1. 合併 `Employee Details` 與 `Job Satisfaction` 資料集: - `EmployeeID` 作為連結變數。 - 新增 `JobSatisfaction` 到 `Employee Details`。 2. 結果顯示每位員工的詳細資料與滿意度變數。 --- ## **重新編碼 (Recode)** ### 原理: 重新編碼可將變數值進行轉換(例如處理反向題),以便進一步分析。 ### SPSS 操作方法: 1. 路徑:`轉換` → `重新編碼成相同變數` 或 `重新編碼成不同變數`。 ![image](https://hackmd.io/_uploads/rJt7-RYSJg.png) ![image](https://hackmd.io/_uploads/HJ3N-0KHye.png) 3. 選擇目標變數(如 `Satisfaction`)。 4. 設定舊值與新值的對應關係(如 `1 → 5`, `2 → 4`)。 5. 點擊確定,生成新變數或覆蓋舊變數。 ### Employee Data 示例: 1. 在滿意度調查中,題目 2 是反向題,將值 `1 → 5, 2 → 4` 重新編碼。 2. 結果: - 原始數據:`1, 3, 5` - 編碼後數據:`5, 3, 1` --- ## **隨機抽樣 (Random Sampling)** ### 原理: 從大型資料集中抽取子樣本,用於實驗、分析或驗證。 ### SPSS 操作方法: 1. 路徑:`資料` → `選擇觀察值` → 勾選「隨機抽樣」。 ![image](https://hackmd.io/_uploads/S1TaJwFS1l.png) 2. 設定抽樣比例(例如 20% 或固定樣本數量)。 3. 確定後,SPSS 標記被選中的樣本,未被選中的可以刪除或隱藏。 ### Employee Data 示例: 1. 從 1000 筆資料中隨機抽取 10% 作為分析樣本。 2. SPSS 自動標記隨機選中的 100 筆數據。 --- ## **分數化數據 (Compute Variable)** ### 原理: 透過運算生成新變數(如計算年齡、標準化分數)。 ### SPSS 操作方法: 1. 路徑:`轉換` → `計算變數`。 2. 設定新變數名稱(如 `Age`)。 3. 在公式框內輸入計算邏輯,例如: `Age=CurrentYear−BirthYear+(CurrentMonth−BirthMonth)/12` 4. 確定後,生成新的變數欄位。 ### Employee Data 示例: 1. 根據出生年份計算員工年齡: - `Age = 2024 - bdate` ![image](https://hackmd.io/_uploads/HJnVxwKS1e.png) 2. 新增變數 `Age`,顯示每位員工的年齡。 --- ## **分割檔案 (Split File)** ### 原理: 分割檔案功能將資料根據特定條件分組,方便在子群體間進行比較,無需手動拆分檔案。 ### SPSS 操作方法: 1. 路徑:`資料` → `分割檔案`。 2. 勾選「比較群組」或「組別內排序」。 3. 將分割條件變數(如 `Gender` 或 `Department`)拖至「分割變數」框中。 4. 確定後,右下角會顯示分割檔案狀態。 5. 進行後續分析時,結果會根據分割條件分組顯示。 ### Employee Data 示例: 1. 使用 `Gender` 作為分割條件,分析男性與女性之間的薪資差異: - 繪製 `Salary` 的描述性統計,分別呈現男性和女性的平均值和標準差。 2. 報表顯示: - 男性平均薪資為 $60,000,女性為 $55,000。 --- ## **觀察值篩選 (Select Cases)** ### 原理: 篩選觀察值功能用於從資料集中提取符合特定條件的子集,例如篩選女性員工或自由職業者。 ### SPSS 操作方法: 1. 路徑:`資料` → `選擇觀察值`。 2. 勾選「若條件滿足」。 3. 設定條件公式,例如: - `Gender = "Female" AND JobType = "Freelancer"` 4. 確定後,SPSS 將標記篩選結果,未被選中的觀察值可選擇刪除或隱藏。 ### Employee Data 示例: 1. 篩選女性且職業為自由業的員工: - 條件公式:`Gender = "Female" AND JobType = "Freelancer"`. 2. 結果: - 資料集中保留符合條件的觀察值,其餘的觀察值被標記。 --- ## **圖表繪製** ### 原理: 利用 SPSS 圖表功能視覺化數據分佈,例如直方圖、散點圖或折線圖。 ### SPSS 操作方法: 1. 路徑:`圖表` → 選擇圖表類型(如直方圖、條形圖)。(方法一) 2. 設定圖表變數: - X 軸:主要數據變數。 - Y 軸:頻率或其他輔助變數。 3. 點擊確定生成圖表。 4. 可在圖表編輯器中進一步修改格式和外觀。 ![1735145798124](https://hackmd.io/_uploads/SkAKFhYSkg.gif) ### Employee Data 示例: 利用`次數分配表`裏面的圖表功能來製作圖表(方法二) ![image](https://hackmd.io/_uploads/rkxuTitH1l.png) --- ## **數據轉換 (Data Transformation)** ### 原理: 數據轉換功能用於生成新變數(如計算比例、年齡等),或將數據分組(如將連續變數分成多個區間)。 ### SPSS 操作方法: ### 計算變數: 1. 路徑:`轉換` → `計算變數`。 2. 設定新變數名稱,輸入公式。 - 例如:`SalaryUSD = Salary * 30` (將薪資單位從千元轉為美元)。 3. 確定後生成新變數。 ### 重新編碼: 1. 路徑:`轉換` → `重新編碼成不同變數`。 2. 將變數拖入操作框,設置舊值與新值的對應關係。 3. 確定後生成編碼後的變數。 ### Employee Data 示例: 1. **計算年齡**: > ~~公式:Age = CurrentYear - BirthYear + (CurrentMonth - BirthMonth) / 12 > - 新增變數 `Age` 顯示員工年齡。~~ 2. **分組薪資數據**: - 將 `Salary` 重新編碼為區間: - `0 - 50,000 → Low` - `50,001 - 100,000 → Medium` - `100,001+ → High` ![1735145260671](https://hackmd.io/_uploads/SJTBPnKS1e.gif) --- ## **反向題處理 (Reverse Scoring)** ### 原理: 反向題需重新編碼成正向題,避免計算時產生偏差。 ### SPSS 操作方法: 1. 路徑:`轉換` → `重新編碼成相同變數`。 2. 將反向題變數(如 `Question2`)拖入框中。 3. 設定舊值與新值的對應關係(如 `1 → 5`, `2 → 4`)。 4. 確定後覆蓋原變數。 ### Employee Data 示例: 1. 問卷題目 2 是反向題,將其重新編碼: - 原數據:`1, 2, 4, 5` - 編碼後:`5, 4, 2, 1` --- ## **1. 遺漏值(Missing Values)** ### **什麼是遺漏值?** 遺漏值是指某些觀測資料中缺失的項目。例如: - 員工未填寫出生日期。 - 未提供薪資數據。 - 問卷中未回答某些問題。 ### 為什麼設定遺漏值? 遺漏值是資料中缺失的部分,例如某些員工未填寫的薪水或出生日期。設定特定的值(例如 `9999` 或 `99999`)來表示遺漏值,主要是為了: 1. **避免與實際數據混淆**:確保這些值不會出現在正常資料範圍中。 2. **統計分析需求**:讓 SPSS 在分析時自動排除遺漏值。 3. **便於數據清理**:快速篩選、替換或統計遺漏值數量。 ## 2. 小數點設置與數據類型 ### 小數點設置 根據變數性質決定小數位數: - **整數型變數**:設為 `0`,如職位類別或員工編號。 - **連續型變數**:通常設為 `2`,如薪水或百分比。 ### 數據類型判斷 - **數值型(Numeric)**:適用於數字型資料,例如薪水、工作經驗。 - **字串型(String)**:適用於分類資料,例如性別(`m`/`f`)。 - **日期型(Date)**:適用於日期資料,例如出生日期(`YYYY-MM-DD`)。 --- ## 3. SPSS 設定步驟 ### 3.1 遺漏值設定 1. **進入「變數檢視」**。 2. 找到需要設定的變數,在「遺漏值」欄位中點擊設定: - **離散值**:輸入最多 3 個特定值,例如 `99999`。 - **範圍**:設定範圍(如 `-999` 至 `-1`)。 #### 範例: - 薪水(`salary`): - 正常範圍:`20000` 至 `100000` - 遺漏值設定:`99999` ### 3.2 小數點設定 1. 在「變數檢視」找到目標變數。 2. 在「小數點位數」欄位輸入所需位數: - 薪水(`salary`):設為 `2`。 - 職位類別(`jobcat`):設為 `0`。 ### 3.3 類型設定 1. 在「變數檢視」找到目標變數。 2. 在「類型」欄位選擇: - **數值型(Numeric)**:例如薪水。 - **字串型(String)**:例如性別。 - **日期型(Date)**:例如出生日期。 --- ## 4. 整合範例:員工資料編碼表 | 變數名稱 | 描述 | 資料類型 | 小數位數 | 遺漏值設定 | |----------|---------------|------------|----------|------------| | id | 員工編號 | 數值型 | 0 | 無 | | gender | 性別 | 字串型 | N/A | 無 | | bdate | 出生日期 | 日期型 | N/A | 無 | | jobcat | 職位類別 | 數值型 | 0 | 無 | | salary | 目前薪水 | 數值型 | 2 | 99999 | | salbegin | 初始薪水 | 數值型 | 2 | 99999 | | jobtime | 在職時間(月)| 數值型 | 0 | 無 | | prevexp | 先前經驗(月)| 數值型 | 0 | 無 | | minority | 少數族群 | 數值型 | 0 | 9 | ###### [遺漏值設定請看這邊](https://hackmd.io/vTuTsgkMSQeci-0daXIOcQ?both#1-%E9%81%BA%E6%BC%8F%E5%80%BC%EF%BC%88Missing-Values%EF%BC%89) --- ## 5. 資料保存與檢查 1. **保存資料庫**: - 點擊「檔案 > 另存新檔」,選擇 `.sav` 格式。 2. **檢查資料**: - 在「資料檢視」中,確認遺漏值是否正確顯示為設定值(如 `99999`)。 - 使用 SPSS 的「描述性統計」檢查數據一致性。 --- ## 6. 注意事項 1. **遺漏值設定應避免與真實數據範圍重疊**。 2. **確保類型與分析需求匹配**: - 金額數據應保留小數點。 - 分類變數應設定明確的代碼。 3. **數據一致性**:若多個資料庫共享,確保遺漏值和類型設定統一。 --- # 百分等級(PR)與百分位數(Pp)計算指南 ## **1. 百分等級(Percentile Rank, PR)** ### **原理與數學公式** **定義**: 百分等級表示某觀察值相對於樣本中其他數值的百分比位置。 公式:`T=50+10⋅Z` **說明**: - **低於該分數的觀察值數量**:樣本中比目標分數小的觀察值數量。 - **與該分數相同的觀察值數量**:樣本中與目標分數相等的觀察值數量。 - **總觀察值數量**:樣本中所有觀察值的數量。 --- ### **SPSS 操作** 1. **開啟頻率分析**: - 點擊 **轉換 > 等級觀察值(K)** > [color=#974fc6]版本不同名稱也許會有不一樣。 ![image](https://hackmd.io/_uploads/HJLwSAFBJe.png) 2. **選擇變數**: - 將目標變數(如 `salary`)拖入 **變數** 區域。 3. **啟用百分比選項**: - 點擊 **等級類型** 按鈕,勾選 **分數類型以%顯示**。 ![image](https://hackmd.io/_uploads/Bkw2SAFHke.png) 4. **執行分析**: - 點擊 **確定**,生成頻率表。 5. **解讀結果**: - 輸出中的 **累積百分比** 欄位即為 PR 值。 ![image](https://hackmd.io/_uploads/H1apSCKSyx.png) --- ## **2. 百分位數(Percentile Point, Pp)** ### **原理與數學公式** **定義**: 百分位數表示樣本中某百分比位置對應的觀察值。 公式: ![image](https://hackmd.io/_uploads/rk4-AIKSkx.png) **參數說明**: - L:百分位所在組的下界。 - N-p:總樣本數乘以百分比 - F:低於該組的累積頻數。 - f:該組的頻數。 - h:該組的組距。 **計算步驟**: 1. **確定總樣本數** 。 2. **計算百分位對應的位置** 3. **找到百分位所在組**。 4. **將參數代入公式,求得 P_p**。 --- ### **SPSS 操作** 1. **開啟探索分析**: - 點擊 **分析 > 描述統計 > 次數分配表**。 2. **選擇變數**: - 將目標變數(如 `salary`)拖入 **依變數清單**。 3. **設定百分位數**: - 點擊 **統計資料** 按鈕,勾選 **百分位數**。 - 如需自定義,添加額外的百分比(如 10%、90%)。 ![image](https://hackmd.io/_uploads/Sk5nJnFr1x.png) 4. **執行分析**: - 點擊 **確定**,生成探索結果。 --- # **名義尺度的定義** 名義尺度是一種將資料分為不同類別,僅用於 **區別或分類** 的測量尺度,數值僅作為標籤,無法進行數學運算或比較大小。 **特點**: - **分類**:資料被分為互斥的類別。 - **無順序**:類別之間沒有大小或次序之分。 - **數值標籤**:數值僅是代碼或名稱,無任何數學意義。 --- ### **2. 判斷是否為名義尺度** 判斷一個變數是否為名義尺度,主要考量以下條件: 1. **是否用於分類**: - 資料僅用來區分不同類別或群體,而非表達數值或順序。 - 例如:性別(男/女)、地區(北/中/南)。 2. **類別間是否互斥**: - 每筆資料只能屬於一個類別,類別之間互相排斥。 - 例如:員工部門(行銷部/工程部/行政部)。 3. **是否無順序性**: - 各類別之間沒有明顯的大小或高低之分。 - 例如:婚姻狀況(已婚/未婚/離婚/喪偶)。 4. **數值僅作標籤**: - 若類別用數字表示,數字僅是代碼,不能比較大小或進行運算。 - 例如:學校類型(1=國小,2=國中,3=高中)。 --- ### **3. 名義尺度的例子** - **性別**: - 類別:男、女 - 編碼:1 = 男,2 = 女 - **國籍**: - 類別:台灣、美國、日本 - 編碼:1 = 台灣,2 = 美國,3 = 日本 - **地區**: - 類別:北部、中部、南部 - 編碼:1 = 北部,2 = 中部,3 = 南部 --- ### **4. 名義尺度的操作與應用** ### **(1) 如何在 SPSS 中設置名義尺度** 1. **變數檢視**(Variable View): - 將目標變數的「測量」欄位設為 **Nominal**。 2. **標籤設定**: - 點擊「值」欄位,為每個數值添加標籤(如 1=男, 2=女)。 3. **分析應用**: - 使用 **次數分配表(Frequency Table)**,統計每個類別的頻數和百分比。 ### **(2) 常見統計分析方法** - **次數分配表**:計算各類別的頻數與百分比。 - **卡方檢定**:比較類別之間的相關性。 --- ### **5. 名義尺度的限制與注意事項** 1. **數學運算無意義**: - 不能對數據進行加減乘除等運算。 - 例如:將 1(男)與 2(女)相加無意義。 2. **適用的圖表**: - 常用長條圖和圓餅圖來表示名義尺度的分佈。 3. **數據標籤的重要性**: - 必須清楚為每個數值添加對應的標籤,否則數據解釋可能混淆。 --- ### **6. 名義尺度與其他尺度的比較** | 尺度 | 描述 | 例子 | 可否排序 | 可否運算 | | --- | --- | --- | --- | --- | | 名義尺度 | 分類數據 | 性別、地區 | 否 | 否 | | 順序尺度 | 可排序的分類數據 | 教育程度、排名 | 是 | 否 | | 等距尺度 | 差距有意義 | 溫度(°C)、考試分數 | 是 | 加減 | | 比率尺度 | 有絕對零點 | 薪資、年齡 | 是 | 加減乘除 | ---