# 邏輯回歸 -鐵達尼號 ``` vif < 7才不會有共線性 分析 回歸 線性 共線性 ``` 羅吉斯分配中,自變數對依變數的影響是以指數的方式做變動,因此不需要常態分配的假設。 刪除的值: * 姓名 * 車票號碼 * 客艙編號 * 兄弟姐妹或配偶數 * 父母或子女數量 類別轉換: 轉換->重新編碼成不同變數 * 性別0 = 女性、1 = 男性 * 登船港口1 = C、2 = Q、3 = S 轉換->計算變數 用 log(車票費用 + 1) 做對數轉換,極端高票價(像 263、512)變得平滑,避免干擾模型 `LN(車票費用 + 1)` 新增變數 log_fare --- ## 邏輯回歸 `分析->回歸->二元` **因變數:是否生還 共變量:其他參數** 類別:  * 艙等:1、2、3 → 是類別型順序變數(不是純連續數值) * 性別編號:0、1 → 是二元類別變數 * 登船港口編號:通常是 1, 2, 3 → 類別型(名目)變數 `不指定它們是類別變數,SPSS 預設會當作連續變數處理,可能導致 迴歸模型錯誤解讀,例如:艙等當成連續變數處理會被當作「數字越大越有意義」,但其實它只是三種等級。` 對比方式 | 白話解釋 | 比較對象 | 何時用? | 常見應用情境 | --- | --- | --- | --- | --- | 指標(Indicator) | 把某一類當作基準,其他類和它一一比較 | 各類 vs 參考類別 | ✅ 最常用,最容易解釋 | 例如:男性 vs 女性、三等艙 vs 頭等艙 簡單(Simple) | 同指標法,一種等價寫法 | 各類 vs 參考類別 | ✅ 同指標法,可視喜好使用 | 同上 差異(Difference) | 每一類 vs「前一類」去比較差距 | 類別 i vs 類別 i-1 | ❌ 不常用 | 比如滿意度階層逐層變化 Helmert | 每一類 vs「之後所有類」的平均值 | 類別 i vs 類別 i+1 ~ n 平均 | ❌ 特殊分析才用 | 調查實驗、順序反應設計 重複(Repeated) | 每一類 vs「前一類」作成連續比較 | 同上 | ❌ 用在實驗設計、重複量測 | 像是 pre/post 測驗比較 多項式(Polynomial) | 視為連續數值來建模(用數學方式表示差距) | 把類別當作有順序距離的變數 | ⚠️ 適用「有順序的類別」 | 例如教育程度(國中、高中、大學) 相異(Deviation) | 每一類 vs「整體平均」比較 | 類別 i vs 所有類的平均 | ❌ 特殊用途,解釋不直觀 | 少用在實務迴歸分析中 儲存:  選項 | 中文解釋 | 白話說明 | 用途 / 何時用 |-|-|-|-| 機率 (P) | 機率預測值 | 模型預測「生還」的機率(例如 0.83) | ✅ 最重要!必勾! 用來畫 ROC 曲線、做預測分析 各組成員 (G) | 預測分類 | 模型預測這筆資料是「0」還是「1」 | ✅ 常用於計算混淆矩陣與準確率 Cook’s 距離 (C) | 資料點影響力 | 這筆資料對整體模型的影響程度 | ⚠️ 用來找「影響最大的資料點」,常搭配殘差一起看 槓桿值 (H) | 離群程度 | 看該筆資料在自變數空間中偏離程度 | 用來判斷是否為潛在離群點 DFBeta (D) | 模型敏感度 | 若拿掉這筆資料,模型的係數會改變多少 | 用來分析「特定資料」是否主導模型結果選項 | 中文解釋 | 白話說明 | 用途 / 建議 未標準化 (U) | 殘差值 | 實際值 - 預測值(類似錯誤值) | ⚠️ 可勾,配合圖表看預測偏差 Logit | 邏輯變數 | 模型預測的對數機率(log(p/(1-p))) | 不常單獨使用,數學上重要但不易解釋 Studentized | 標準化殘差(加上變異考量) | 更穩定的殘差表示法 | ⚠️ 若你要診斷異常值可以勾 標準化 (S) | 常態化殘差值 | 用來畫 Q-Q 圖、看殘差分布是否常態 | ❌ Logistic Regression 不需常態殘差,可不勾 離差 (D) | 離群指標 | 評估該點偏離整體模型的程度 | 用來診斷離群點,非必要時可不選選項 | 解釋 | 建議 包含共變異數矩陣 | 儲存模型參數的誤差估計資料 | ✅ 預設勾就好,不會影響結果 匯出至 XML | 匯出模型到 XML 檔案 | 一般不用,除非你要跨系統應用 選項:  選項 | 中文說明 | 白話解釋 | 是否建議勾選 |-|-|-|-| ☑ 分類圖 (C) | 預測分類圖 | 顯示模型預測值與實際值的關係圖 | ✅ 建議勾,可以檢視預測分布 ☑ Hosmer-Lemeshow 適合度 | 模型擬合檢定 | 用來檢定模型預測與實際值是否相近(越大越好) | ✅ 必勾!標準檢定之一 ⬜ 依儲存值順序列出殘差 (W) | 調整殘差排序 | 用來控制殘差輸出順序 | ❌ 初學者通常不用,除非要特定殘差分析 ⬜ 設條件值顯示變項 (Z) | 控制圖表參數 | 像是畫預測值對某變項的曲線圖 | ⚠️ 進階才用,可不勾 ☑ 估計值相對誤 (R) | 提供回歸係數估計誤差 | 顯示 B 值與其標準誤差 | ✅ 預設勾,建議保留 ☑ 虛假過程 (I) | 顯示收斂過程 | 顯示模型每一步如何優化 | ⚠️ 若你想看訓練過程可勾,但平常可不勾 Exp(B) 之信賴區間 (X) | 顯示 Odds Ratio 的信賴區間 | Exponentiated B = Odds 比,CI 範圍也很重要 | ✅ 推薦勾選(可解釋準度)選項 | 功能 | 說明 | 建議 ☑ 在每一步顯示 (E) | 顯示逐步選變過程 | 若使用逐步法(stepwise)才會影響 | ✅ 預設即可 ⬜ 在最後步驟 (L) | 只顯示最後模型 | 可省略中間步驟,但你目前使用 Enter 法,不影響 | 無須特別勾選欄位 | 意思 | 建議值 | 解釋 輸入 (N) | P-value 要低於這個值才進入模型 | 通常 0.05 | → 類似顯著性標準 移除 (V) | P-value 超過這個值會被剃除 | 通常 0.10 | 越寬鬆越容易剃除不顯著變數 分類分割值 (O) | 決定分界值(預設 0.5) | 0.5 | ≥0.5 預測為「1」,<0.5 為「0」 最大疊代 (M) | 訓練最大次數限制 | 預設 20 | 正常保持預設就好,不需更改選項 | 說明 | 建議 ⬜ 保留可能變數以對應大樣本使用 | 用在大規模資料集 | 可不勾 ☑ 常數項納入模型 (S) | 要不要包含常數(Intercept) | ✅ 一定要勾!預設會勾 方法: 方法名稱 | 檢定方法 | 白話說明 |-|-|-| Enter(強制進入法) | 無(全納) | 所有變數一次全放進模型,不根據統計值選擇,適合有理論支持的分析 向前:條件式(Forward: Conditional) | 條件式統計檢定(條件進入與移除) | 從無變數開始,每次挑選最顯著的變數加進模型,直到沒有新變數符合條件為止 向前:LR(Forward: LR) | 最大概似比(Likelihood Ratio) | 從無變數開始,用模型優化指標(-2 log likelihood)來判斷是否加入變數 向前:Wald(Forward: Wald) | Wald 統計量 | 用各變數的 Wald 值(類似 t 值)判斷其顯著性來逐步加入 向後:條件式(Backward: Conditional) | 條件式統計檢定 | 一開始放入所有變數,再逐步移除不顯著的變數,直到剩下的都顯著 向後:LR(Backward: LR) | 最大概似比 | 一開始全放,使用模型優化指標來逐步移除影響小的變數 向後:Wald(Backward: Wald) | Wald 統計量 | 全部變數先放進模型,再依 Wald 值小者開始剃除,直到剩下的變數都顯著 --- ## 邏輯回歸 ### 觀察值處理摘要 ### 應變數編碼 當然可以!以下是你提供的分析輸出中所有表格的標題整理,依照你要的格式列出: --- ### 觀察值處理摘要  總共 891 筆資料中,有 712 筆有效資料被納入分析,有 179 筆因遺漏值等問題被排除,約兩成資料無法用。 ### 應變數編碼  這裡表示 SPSS 把 「是否生還」 的欄位轉為機器看的格式:0代表沒生還,1代表有生還。這是進行邏輯迴歸時的必要轉換。 ### 類別變數編碼  SPSS 自動將類別變數轉換為 0/1 編碼: * 例如「艙等3」表示為 (0,1),參考組艙等1則是 (0,0)。 * 類別變數只能出現 k-1 個虛擬變數來避免共線性。 ### 區塊 0:開始區塊 - 疊代歷程  這是沒有輸入任何自變數,只有常數項的模型,也叫 Null Model。它的 -2 log 值是預設基準,等一下模型加進變數後要跟這個比差異。 ### 區塊 0:開始區塊 - 分類表  這張表只根據常數項(無變數)去預測結果: * 全部都預測為「未生還」,準確率 59.6% * 顯示:只靠常數的模型不準,需要變數來提升預測力 ### 區塊 0:開始區塊 - 方程式中的變數  指標 | 說明 |-|-| B | -0.387 → 常數項的估計值,表示 logit(p) 的起始偏移量 S.E. | 0.076 → 標準誤差,衡量 B 的不確定性 Wald | 25.656 → Wald 檢定統計量,用來檢定常數項是否顯著 ≠ 0 df | 1 → 自由度為 1,表示此變數只有一個估計參數 顯著性 | .000 → p 值非常顯著(小於 0.05),常數項顯著 Exp(B) | 0.679 → 為 odds 的變換後值,即 odds = e^(-0.387),也就是機率的比率轉換值 這個模型預測所有人都不會生還(分類表也顯示這樣),因為沒有考慮任何解釋變數,只能當作「基準模型」。 ### 區塊 0:開始區塊 - 未在方程式中的變數  變數不在方程式中,由於是初步邏輯回歸分析,進行預算前的檢定Score,結果都是顯著,我們選擇enter強迫進入法,代表所有變數都會納入邏輯回歸分析,若是採用非強迫方式則需要有顯著的變數才會納入邏輯回歸 ### 區塊 1:方法 = 輸入 - 疊代歷程 共計迭代5次,參考估計量變動小於0.01,才會停止迭代 ### 區塊 1:Omnibus 測試 整體模型顯著,代表加進來的變數有幫助預測,模型比只有常數好很多。 ### 區塊 1:模型摘要  .361和.488表示依變項和自變項具有高度關聯,由於邏輯回歸的依變項並非連續變項,所以以無法代表為解釋能力 ### 區塊 1:Hosmer 與 Lemeshow 測試  * 卡方值(Chi-square)= 29.234:表示模型預測和實際觀察有偏差。 * df = 8:代表將樣本分成 10 組(常見設定),計算 9 個組間差異,扣掉一個自由度。 * p 值 = .000 → 小於 0.05,拒絕虛無假設,代表模型的預測與實際資料有顯著差異。 ### 區塊 1:Hosmer 與 Lemeshow 列聯表格  這個表格將所有資料根據預測機率由低到高分成 10 組,每組約有 71 筆資料(或 72),再檢查: * 觀察值:實際有多少人生還 / 未生還 * 期望值:模型預測有多少人應該生還 / 未生還 分組 | 重點觀察 |-|-| 第 5 組 | 預測 18.27 人會生還,但實際只有 9 人 → 預測過高 第 8 組 | 預測 48.59 人會生還,但實際有 43 人 → 預測稍高 第 9 組 | 預測 58.87 人會生還,但實際有 67 人 → 預測明顯偏低 第10組 | 預測 67.09 人會生還,但實際有 69 人 → 預測還可以 ### 區塊 1:分類表  這是模型的「分類準確率表現」,可以直接看到預測是否準確: * 模型對「未生還」預測非常準,正確率達 84.2%。 * 對「有生還」的預測也不錯,正確率 71.5%,比預設模型(只有常數時的 0%)好非常多。 * 整體準確率為 79.1%,表示模型整體預測正確率很高。 ### 區塊 1:方程式中的變數  變數 | B | S.E. | Wald | df | p 值 | Exp(B) | 白話解釋(效果方向) |-|-|-|-|-|-|-|-| 艙等(1) | -1.286 | .336 | 14.680 | 1 | .000 ** | 0.276 | 艙等2 比 艙等1 少了 72.4% 的生還機率 艙等(2) | -2.618 | .382 | 46.940 | 1 | .000 ** | 0.073 | 艙等3 生還機率更低,只有 7.3% 是艙等1 的水準 年齡 | -0.037 | .008 | 22.476 | 1 | .000 ** | 0.963 | 年齡每增加 1 歲,生還機率下降 3.7% 性別(1) | +2.551 | .214 | 142.104 | 1 | .000 ** | 12.823 | 女性的生還機率是男性的 12.8 倍! 登船港口 | (整體) | | 4.402 | 2 | .111 | | 登船港口整體不顯著,但部分略有影響 登船港口(1) | +0.524 | .269 | 3.791 | 1 | .052 | 1.689 | 接近顯著(p ≈ .05),略提升生還機率 登船港口(2) | -0.335 | .528 | 0.404 | 1 | .525 | 0.715 | 不顯著 車票費用 | -0.128 | .151 | 0.719 | 1 | .396 | 0.880 | 無顯著性,不影響生還機率太多 常數 | +1.572 | .746 | 4.433 | 1 | .035 * | 4.815 | logit 模型的起始偏移量 * B 值(係數):正的表示正向影響,負的表示負向影響(例如年齡越大生還率下降) * p 值 < 0.05:代表該變數在統計上顯著影響生還率 * Exp(B):就是 Odds Ratio,代表機率變化的倍數(越大越可能發生) * 最顯著的變數:性別與艙等 * 女性(性別=1)生還機率是男性的 12.8 倍! * 艙等等級越低,生還機率越差 * 年齡越大,生還率越低(每歲降低約 3.7%) * 登船港口與車票價格在本模型中不是顯著因素 ### 區塊 1:相關性矩陣  變數對 | 相關係數 | 說明 |-|-|-| 艙等(1) vs 艙等(2) | 0.746 | 有中高度相關,屬於 dummy variable 的正常現象 艙等(2) vs 票價 | 0.651 | 中度正相關,票價越高 → 艙等越好 常數 vs 車票費用 | -0.861 | 高度負相關(但常數無實際干擾意義) 登船港口與其他變數 | 幾乎都 < 0.2 | 干擾極小 年齡與性別 | -0.085 | 幾乎無關 性別與艙等(2) | -0.300 | 有點關聯(男性多集中在低艙等)但仍安全 ### 預測機率分布圖(Predicted Probabilities)  * X 軸(Predicted Prob):代表模型預測的機率區間(從 0 到 1),每個格為 0.1。 * Y 軸(Frequency):以每 2.5 人為單位,表示有多少個人被預測到落在某一機率區間。 * 符號: * 0:實際沒生還的人(實際值 = 0) * 1:實際生還的人(實際值 = 1) * 左邊(0.0~0.4)出現大量 0: * 表示這區預測機率低,模型判斷這些人多半不會生還,而且這些人實際上也大多沒生還 → 模型預測正確 * 右邊(0.6~1.0)出現大量 1: * 表示這區預測機率高,模型判斷這些人很可能生還,而且實際上也大多真的生還 → 模型預測正確 * 中間區(0.4~0.6)有 0 和 1 混雜: * 模型在預測機率接近 0.5 時不太穩定,容易錯預測 → 屬於模糊區域 **本圖顯示預測機率與實際分組結果的一致性,多數生還個案(1)集中在高預測機率區,而未生還個案(0)多落在低機率區,顯示本邏輯迴歸模型具有良好的區辨能力。**
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up