邏輯回歸 -鐵達尼號

# 邏輯回歸 -鐵達尼號 ``` vif < 7才不會有共線性分析回歸線性共線性 ``` 羅吉斯分配中，自變數對依變數的影響是以指數的方式做變動，因此不需要常態分配的假設。刪除的值： * 姓名 * 車票號碼 * 客艙編號 * 兄弟姐妹或配偶數 * 父母或子女數量類別轉換：轉換->重新編碼成不同變數 * 性別0 = 女性、1 = 男性 * 登船港口1 = C、2 = Q、3 = S 轉換->計算變數用 log(車票費用 + 1) 做對數轉換，極端高票價（像 263、512）變得平滑，避免干擾模型 `LN(車票費用 + 1)` 新增變數 log_fare --- ## 邏輯回歸 `分析->回歸->二元` **因變數：是否生還共變量：其他參數** 類別： ![CleanShot 2025-04-17 at 02.48.56](https://hackmd.io/_uploads/SyNjoupCJx.png) * 艙等：1、2、3 → 是類別型順序變數（不是純連續數值） * 性別編號：0、1 → 是二元類別變數 * 登船港口編號：通常是 1, 2, 3 → 類別型（名目）變數 `不指定它們是類別變數，SPSS 預設會當作連續變數處理，可能導致迴歸模型錯誤解讀，例如：艙等當成連續變數處理會被當作「數字越大越有意義」，但其實它只是三種等級。` 對比方式 | 白話解釋 | 比較對象 | 何時用？ | 常見應用情境 | --- | --- | --- | --- | --- | 指標（Indicator） | 把某一類當作基準，其他類和它一一比較 | 各類 vs 參考類別 | ✅ 最常用，最容易解釋 | 例如：男性 vs 女性、三等艙 vs 頭等艙簡單（Simple） | 同指標法，一種等價寫法 | 各類 vs 參考類別 | ✅ 同指標法，可視喜好使用 | 同上差異（Difference） | 每一類 vs「前一類」去比較差距 | 類別 i vs 類別 i-1 | ❌ 不常用 | 比如滿意度階層逐層變化 Helmert | 每一類 vs「之後所有類」的平均值 | 類別 i vs 類別 i+1 ~ n 平均 | ❌ 特殊分析才用 | 調查實驗、順序反應設計重複（Repeated） | 每一類 vs「前一類」作成連續比較 | 同上 | ❌ 用在實驗設計、重複量測 | 像是 pre/post 測驗比較多項式（Polynomial） | 視為連續數值來建模（用數學方式表示差距） | 把類別當作有順序距離的變數 | ⚠️ 適用「有順序的類別」 | 例如教育程度（國中、高中、大學）相異（Deviation） | 每一類 vs「整體平均」比較 | 類別 i vs 所有類的平均 | ❌ 特殊用途，解釋不直觀 | 少用在實務迴歸分析中儲存： ![CleanShot 2025-04-17 at 02.58.53](https://hackmd.io/_uploads/Sk9xROaRJl.png) 選項 | 中文解釋 | 白話說明 | 用途 / 何時用 |-|-|-|-| 機率 (P) | 機率預測值 | 模型預測「生還」的機率（例如 0.83） | ✅ 最重要！必勾！用來畫 ROC 曲線、做預測分析各組成員 (G) | 預測分類 | 模型預測這筆資料是「0」還是「1」 | ✅ 常用於計算混淆矩陣與準確率 Cook’s 距離 (C) | 資料點影響力 | 這筆資料對整體模型的影響程度 | ⚠️ 用來找「影響最大的資料點」，常搭配殘差一起看槓桿值 (H) | 離群程度 | 看該筆資料在自變數空間中偏離程度 | 用來判斷是否為潛在離群點 DFBeta (D) | 模型敏感度 | 若拿掉這筆資料，模型的係數會改變多少 | 用來分析「特定資料」是否主導模型結果選項 | 中文解釋 | 白話說明 | 用途 / 建議未標準化 (U) | 殘差值 | 實際值 - 預測值（類似錯誤值） | ⚠️ 可勾，配合圖表看預測偏差 Logit | 邏輯變數 | 模型預測的對數機率（log(p/(1-p))) | 不常單獨使用，數學上重要但不易解釋 Studentized | 標準化殘差（加上變異考量） | 更穩定的殘差表示法 | ⚠️ 若你要診斷異常值可以勾標準化 (S) | 常態化殘差值 | 用來畫 Q-Q 圖、看殘差分布是否常態 | ❌ Logistic Regression 不需常態殘差，可不勾離差 (D) | 離群指標 | 評估該點偏離整體模型的程度 | 用來診斷離群點，非必要時可不選選項 | 解釋 | 建議包含共變異數矩陣 | 儲存模型參數的誤差估計資料 | ✅ 預設勾就好，不會影響結果匯出至 XML | 匯出模型到 XML 檔案 | 一般不用，除非你要跨系統應用選項： ![CleanShot 2025-04-17 at 03.00.54](https://hackmd.io/_uploads/BymdCO6Ayx.png) 選項 | 中文說明 | 白話解釋 | 是否建議勾選 |-|-|-|-| ☑ 分類圖 (C) | 預測分類圖 | 顯示模型預測值與實際值的關係圖 | ✅ 建議勾，可以檢視預測分布 ☑ Hosmer-Lemeshow 適合度 | 模型擬合檢定 | 用來檢定模型預測與實際值是否相近（越大越好） | ✅ 必勾！標準檢定之一 ⬜ 依儲存值順序列出殘差 (W) | 調整殘差排序 | 用來控制殘差輸出順序 | ❌ 初學者通常不用，除非要特定殘差分析 ⬜ 設條件值顯示變項 (Z) | 控制圖表參數 | 像是畫預測值對某變項的曲線圖 | ⚠️ 進階才用，可不勾 ☑ 估計值相對誤 (R) | 提供回歸係數估計誤差 | 顯示 B 值與其標準誤差 | ✅ 預設勾，建議保留 ☑ 虛假過程 (I) | 顯示收斂過程 | 顯示模型每一步如何優化 | ⚠️ 若你想看訓練過程可勾，但平常可不勾 Exp(B) 之信賴區間 (X) | 顯示 Odds Ratio 的信賴區間 | Exponentiated B = Odds 比，CI 範圍也很重要 | ✅ 推薦勾選（可解釋準度）選項 | 功能 | 說明 | 建議 ☑ 在每一步顯示 (E) | 顯示逐步選變過程 | 若使用逐步法（stepwise）才會影響 | ✅ 預設即可 ⬜ 在最後步驟 (L) | 只顯示最後模型 | 可省略中間步驟，但你目前使用 Enter 法，不影響 | 無須特別勾選欄位 | 意思 | 建議值 | 解釋輸入 (N) | P-value 要低於這個值才進入模型 | 通常 0.05 | → 類似顯著性標準移除 (V) | P-value 超過這個值會被剃除 | 通常 0.10 | 越寬鬆越容易剃除不顯著變數分類分割值 (O) | 決定分界值（預設 0.5） | 0.5 | ≥0.5 預測為「1」，<0.5 為「0」最大疊代 (M) | 訓練最大次數限制 | 預設 20 | 正常保持預設就好，不需更改選項 | 說明 | 建議 ⬜ 保留可能變數以對應大樣本使用 | 用在大規模資料集 | 可不勾 ☑ 常數項納入模型 (S) | 要不要包含常數（Intercept） | ✅ 一定要勾！預設會勾方法：方法名稱 | 檢定方法 | 白話說明 |-|-|-| Enter（強制進入法） | 無（全納） | 所有變數一次全放進模型，不根據統計值選擇，適合有理論支持的分析向前：條件式（Forward: Conditional） | 條件式統計檢定（條件進入與移除） | 從無變數開始，每次挑選最顯著的變數加進模型，直到沒有新變數符合條件為止向前：LR（Forward: LR） | 最大概似比（Likelihood Ratio） | 從無變數開始，用模型優化指標（-2 log likelihood）來判斷是否加入變數向前：Wald（Forward: Wald） | Wald 統計量 | 用各變數的 Wald 值（類似 t 值）判斷其顯著性來逐步加入向後：條件式（Backward: Conditional） | 條件式統計檢定 | 一開始放入所有變數，再逐步移除不顯著的變數，直到剩下的都顯著向後：LR（Backward: LR） | 最大概似比 | 一開始全放，使用模型優化指標來逐步移除影響小的變數向後：Wald（Backward: Wald） | Wald 統計量 | 全部變數先放進模型，再依 Wald 值小者開始剃除，直到剩下的變數都顯著 --- ## 邏輯回歸 ### 觀察值處理摘要 ### 應變數編碼當然可以！以下是你提供的分析輸出中所有表格的標題整理，依照你要的格式列出： --- ### 觀察值處理摘要 ![CleanShot 2025-04-17 at 03.16.57](https://hackmd.io/_uploads/H1L4MKpAJg.png) 總共 891 筆資料中，有 712 筆有效資料被納入分析，有 179 筆因遺漏值等問題被排除，約兩成資料無法用。 ### 應變數編碼 ![CleanShot 2025-04-17 at 03.17.12](https://hackmd.io/_uploads/ry8Szta0yx.png) 這裡表示 SPSS 把「是否生還」的欄位轉為機器看的格式：0代表沒生還，1代表有生還。這是進行邏輯迴歸時的必要轉換。 ### 類別變數編碼 ![CleanShot 2025-04-17 at 03.19.08](https://hackmd.io/_uploads/BkTnMFpC1g.png) SPSS 自動將類別變數轉換為 0/1 編碼： * 例如「艙等3」表示為 (0,1)，參考組艙等1則是 (0,0)。 * 類別變數只能出現 k-1 個虛擬變數來避免共線性。 ### 區塊 0：開始區塊 - 疊代歷程 ![CleanShot 2025-04-17 at 03.20.10](https://hackmd.io/_uploads/BJyGmYp01l.png) 這是沒有輸入任何自變數，只有常數項的模型，也叫 Null Model。它的 -2 log 值是預設基準，等一下模型加進變數後要跟這個比差異。 ### 區塊 0：開始區塊 - 分類表 ![CleanShot 2025-04-17 at 03.21.59](https://hackmd.io/_uploads/ByEPmtaRye.png) 這張表只根據常數項（無變數）去預測結果： * 全部都預測為「未生還」，準確率 59.6% * 顯示：只靠常數的模型不準，需要變數來提升預測力 ### 區塊 0：開始區塊 - 方程式中的變數 ![CleanShot 2025-04-17 at 03.23.30](https://hackmd.io/_uploads/SylTQFpRJe.png) 指標 | 說明 |-|-| B | -0.387 → 常數項的估計值，表示 logit(p) 的起始偏移量 S.E. | 0.076 → 標準誤差，衡量 B 的不確定性 Wald | 25.656 → Wald 檢定統計量，用來檢定常數項是否顯著 ≠ 0 df | 1 → 自由度為 1，表示此變數只有一個估計參數顯著性 | .000 → p 值非常顯著（小於 0.05），常數項顯著 Exp(B) | 0.679 → 為 odds 的變換後值，即 odds = e^(-0.387)，也就是機率的比率轉換值這個模型預測所有人都不會生還（分類表也顯示這樣），因為沒有考慮任何解釋變數，只能當作「基準模型」。 ### 區塊 0：開始區塊 - 未在方程式中的變數 ![CleanShot 2025-04-17 at 03.26.29](https://hackmd.io/_uploads/SJfOEF6Ayg.png) 變數不在方程式中，由於是初步邏輯回歸分析，進行預算前的檢定Score，結果都是顯著，我們選擇enter強迫進入法，代表所有變數都會納入邏輯回歸分析，若是採用非強迫方式則需要有顯著的變數才會納入邏輯回歸 ### 區塊 1：方法 = 輸入 - 疊代歷程共計迭代5次，參考估計量變動小於0.01，才會停止迭代 ### 區塊 1：Omnibus 測試整體模型顯著，代表加進來的變數有幫助預測，模型比只有常數好很多。 ### 區塊 1：模型摘要 ![CleanShot 2025-04-17 at 03.30.54](https://hackmd.io/_uploads/Byi_HKpAyl.png) .361和.488表示依變項和自變項具有高度關聯，由於邏輯回歸的依變項並非連續變項，所以以無法代表為解釋能力 ### 區塊 1：Hosmer 與 Lemeshow 測試 ![CleanShot 2025-04-17 at 03.34.10](https://hackmd.io/_uploads/rkbS8Fa0ye.png) * 卡方值（Chi-square）= 29.234：表示模型預測和實際觀察有偏差。 * df = 8：代表將樣本分成 10 組（常見設定），計算 9 個組間差異，扣掉一個自由度。 * p 值 = .000 → 小於 0.05，拒絕虛無假設，代表模型的預測與實際資料有顯著差異。 ### 區塊 1：Hosmer 與 Lemeshow 列聯表格 ![CleanShot 2025-04-17 at 03.35.28](https://hackmd.io/_uploads/ryWq8Fp0kg.png) 這個表格將所有資料根據預測機率由低到高分成 10 組，每組約有 71 筆資料（或 72），再檢查： * 觀察值：實際有多少人生還 / 未生還 * 期望值：模型預測有多少人應該生還 / 未生還分組 | 重點觀察 |-|-| 第 5 組 | 預測 18.27 人會生還，但實際只有 9 人 → 預測過高第 8 組 | 預測 48.59 人會生還，但實際有 43 人 → 預測稍高第 9 組 | 預測 58.87 人會生還，但實際有 67 人 → 預測明顯偏低第10組 | 預測 67.09 人會生還，但實際有 69 人 → 預測還可以 ### 區塊 1：分類表 ![CleanShot 2025-04-17 at 03.36.47](https://hackmd.io/_uploads/ry6CUYpCye.png) 這是模型的「分類準確率表現」，可以直接看到預測是否準確： * 模型對「未生還」預測非常準，正確率達 84.2%。 * 對「有生還」的預測也不錯，正確率 71.5%，比預設模型（只有常數時的 0%）好非常多。 * 整體準確率為 79.1%，表示模型整體預測正確率很高。 ### 區塊 1：方程式中的變數 ![CleanShot 2025-04-17 at 03.38.35](https://hackmd.io/_uploads/SkvBvKpCkx.png) 變數 | B | S.E. | Wald | df | p 值 | Exp(B) | 白話解釋（效果方向） |-|-|-|-|-|-|-|-| 艙等(1) | -1.286 | .336 | 14.680 | 1 | .000 ** | 0.276 | 艙等2 比艙等1 少了 72.4% 的生還機率艙等(2) | -2.618 | .382 | 46.940 | 1 | .000 ** | 0.073 | 艙等3 生還機率更低，只有 7.3% 是艙等1 的水準年齡 | -0.037 | .008 | 22.476 | 1 | .000 ** | 0.963 | 年齡每增加 1 歲，生還機率下降 3.7% 性別(1) | +2.551 | .214 | 142.104 | 1 | .000 ** | 12.823 | 女性的生還機率是男性的 12.8 倍！登船港口 | （整體） | | 4.402 | 2 | .111 | | 登船港口整體不顯著，但部分略有影響登船港口(1) | +0.524 | .269 | 3.791 | 1 | .052 | 1.689 | 接近顯著（p ≈ .05），略提升生還機率登船港口(2) | -0.335 | .528 | 0.404 | 1 | .525 | 0.715 | 不顯著車票費用 | -0.128 | .151 | 0.719 | 1 | .396 | 0.880 | 無顯著性，不影響生還機率太多常數 | +1.572 | .746 | 4.433 | 1 | .035 * | 4.815 | logit 模型的起始偏移量 * B 值（係數）：正的表示正向影響，負的表示負向影響（例如年齡越大生還率下降） * p 值 < 0.05：代表該變數在統計上顯著影響生還率 * Exp(B)：就是 Odds Ratio，代表機率變化的倍數（越大越可能發生） * 最顯著的變數：性別與艙等 * 女性（性別=1）生還機率是男性的 12.8 倍！ * 艙等等級越低，生還機率越差 * 年齡越大，生還率越低（每歲降低約 3.7%） * 登船港口與車票價格在本模型中不是顯著因素 ### 區塊 1：相關性矩陣 ![CleanShot 2025-04-17 at 03.42.08](https://hackmd.io/_uploads/By-7dYpRyx.png) 變數對 | 相關係數 | 說明 |-|-|-| 艙等(1) vs 艙等(2) | 0.746 | 有中高度相關，屬於 dummy variable 的正常現象艙等(2) vs 票價 | 0.651 | 中度正相關，票價越高 → 艙等越好常數 vs 車票費用 | -0.861 | 高度負相關（但常數無實際干擾意義）登船港口與其他變數 | 幾乎都 < 0.2 | 干擾極小年齡與性別 | -0.085 | 幾乎無關性別與艙等(2) | -0.300 | 有點關聯（男性多集中在低艙等）但仍安全 ### 預測機率分布圖（Predicted Probabilities） ![CleanShot 2025-04-17 at 03.44.03](https://hackmd.io/_uploads/BkfcdFaRkg.png) * X 軸（Predicted Prob）：代表模型預測的機率區間（從 0 到 1），每個格為 0.1。 * Y 軸（Frequency）：以每 2.5 人為單位，表示有多少個人被預測到落在某一機率區間。 * 符號： * 0：實際沒生還的人（實際值 = 0） * 1：實際生還的人（實際值 = 1） * 左邊（0.0～0.4）出現大量 0： * 表示這區預測機率低，模型判斷這些人多半不會生還，而且這些人實際上也大多沒生還 → 模型預測正確 * 右邊（0.6～1.0）出現大量 1： * 表示這區預測機率高，模型判斷這些人很可能生還，而且實際上也大多真的生還 → 模型預測正確 * 中間區（0.4～0.6）有 0 和 1 混雜： * 模型在預測機率接近 0.5 時不太穩定，容易錯預測 → 屬於模糊區域 **本圖顯示預測機率與實際分組結果的一致性，多數生還個案（1）集中在高預測機率區，而未生還個案（0）多落在低機率區，顯示本邏輯迴歸模型具有良好的區辨能力。**