# Baseline, proportional odds model ###### tags: `Categorical data analysis` ## Multicatory logistic ### Nominal(Baseline category) 如果 logistic 的 outcome 有 j 類,則會考慮 baseline-category logit model,即會把其中一種 outcome 當作參考,若以第J類當作參考,此時 model 會寫成 :::success <font size = 5.5> $$ln\frac{\pi_j(X)}{\pi_J(X)} = \alpha_j + \beta_j^TX \;\; j = 1, 2, ...J-1$$ </font> ::: 若要比較第 a 類跟第 b 類的 odds ratio,則可由以下算式輕易達成 :::success <font size = 5.5> $$ln\frac{\pi_a(X)}{\pi_b(X)} = ln\frac{\pi_a(X)}{\pi_J(X)} - ln\frac{\pi_b(X)}{\pi_J(X)}$$ </font> ::: 由以下計算可得出 $\pi_j(X)$ ![](https://i.imgur.com/ew93v8G.jpg =50%x) #### SAS code 以下以此資料作範例,由鱷魚的身體長度來分類他最常吃的食物 ![](https://i.imgur.com/0tj1Mdg.jpg) ``` sas= proc logistic data = gator; class choice (ref = "F"); model choice = length / link = glogit; output out = result predprobs = i; run; ``` #### SAS intepretation ![](https://i.imgur.com/wGw0dVd.jpg =50%x) 基本上解釋的方式都跟 binary data 一樣,只是要分類解釋,這邊的對照組為 F 給定鱷魚攝取的食物為 I or F, 當 length 每增加一,鱷魚攝取食物為 I 的勝算會是 F 的 0.095 倍 給定鱷魚攝取的食物為 O or F, 當 length 每增加一,鱷魚攝取食物為 O 的勝算會是 F 的 1.116 倍 ![](https://i.imgur.com/Zzu2UEm.jpg =50%x) 這個表呈現出各個觀察值的預測情況 \_FROM_: 觀察值 \_TO_: 預測值 IP_F: 預測成 F 的機率 IP_I: 預測成 I 的機率 IP_O: 預測成 O 的機率 預測結果會挑機率最大的 ### Ordinal(Proportional odds model) 如果 outcome 是 ordinal 的話,則可以考慮使用 propotional odds,假設 outcome 有 J 類且為 ordinal data,則 cumulative logit 定義為 :::success <font size = 4> $$logit(P(Y \leq j |X)) = ln \frac{P(Y \leq j|X)}{1 - P(Y \leq j|X)} = ln\frac{\pi_1 + \pi_2 + ...\pi_j}{\pi_{j-1} + ... + \pi_J}$$ </font> ::: 而在 propotioinal odds 當中,其 model 的假設是對於不同的 j 的 cumulative logit,其相對於 x 的變動程度皆相同,故模型為 如果outcome的分配的scale不同的話,則不符合proportional odds的假設 :::success <font size = 4> $$logit(P(Y \leq j|X)) = \alpha_j + \beta^TX \;\; j = 1, ...,J-1$$ </font> ::: 在此假設有p個解釋變數, 則此模型會有 $j + (p-1)$ 個參數 由於其模型的假設,我們可以導出以下等式 ![](https://i.imgur.com/D4lpbth.png) 以圖來表示即 ![](https://i.imgur.com/WDL9Gmb.jpg =50%x) 當然這張圖是建立在 $\beta > 0$ 的情況下, 若 $\beta<0$ 的話線就會便遞減 也可以導出以下等式 :::success <font size = 4> $$logit(P[Y \leq j | X_1]) - logit(P[Y \leq j | X_2]) = \beta^T(X_1 - X_2)$$ $$P(Y \leq j | X) = \frac{e^{\alpha_j + \beta^TX}}{1 + e^{\alpha_j + \beta^TX}}$$ $$P(Y = j | X) = P(Y \leq j | X) - P(Y \leq j - 1 |X)$$ </font> ::: 第一條式子其含義代表著,不管 j 是甚麼 odds ratio 的差值只跟 x 有關 第二條跟第三條顯而易見 #### SAS code 以下以此資料當作範例,SES是社經地位。1是高0是低,Life events是過去三年內發生重大事件的數量,由這兩個 explanatory variable 來預測 mental 的情況(1表 mental 最健康、4表情況不好) ![](https://i.imgur.com/K4ICesP.png =60%x) ```sas= proc logistic data = impair; class ses(ref = "0") / param = ref; model mental = ses life / link = clogit; run; ``` #### SAS intepretation ![](https://i.imgur.com/nsQYqqV.png =50%x) ![](https://i.imgur.com/7uXbgZv.png =30%x) ![](https://i.imgur.com/vzSJiFL.png =50%x) ![](https://i.imgur.com/0HCysmw.png =50%x) 從這裡也可發現 $\alpha_j$ 會隨著 $j$ 增加而增加, 這是一定的, 因為 $j$ 越大代表了累積越多的組別, 因此機率值也會越大 這個模型的建構是從 mental 情況較好的累積上去的,並且以社經地位低的人作為參考組,以 mental = 2來說,model為 :::success <font size = 4> $$logit(\hat{P(Y \leq 2)}) = 1.2129 + 1.11ses - 0.3189life$$ </font> ::: 所以社經地位較高的人,mental 情況良好的機率就越高,而過去三年發生越多重大事件的人,mental 情況良好的機率就越低 而在給定其它 x 下,社經地位高的人 mental 情況良好的勝算是社經地位低的人的 3.038 倍,過去三年發生的重大事件每多一件,mental 情況良好的勝算就會變為 0.727 倍 --- ![](https://i.imgur.com/dqlUqKG.png =30%x) 而由這個檢定可以看出 propotional odds 的假設是否符合,如果拒絕則代表 propotional odds 的假設不符合