做假設的技巧 :
幾乎做出的假設都是
: …<表格-列>… 與 …<表格-欄>… 相互獨立
: …<表格-列>… 與 …<表格-欄>… 相關
compute risk different :
在 sas
中使用 proc freq
裡面的 riskdiff
compute RR :
在 sas
中使用 proc freq
裡面的 relrisk
看表格最下面跑出來的 相對風險(欄n)
(n) 是代表我們想觀察的那一項在哪一欄
compute OR :
在 sas
中使用 proc freq
裡面的 relrisk
看表格最下面跑出來的 勝算比
使用甚麼 test 去看是否符合假設 :
通常都是使用 或是
這 2 個都是去測資料之間是否獨立
但如果資料的表格是比 2 2 還要大的就要改成使用 Pearson
如果是使用 Pearson 時,程式碼還是會使用 chisq
來檢測
不同 test 的意義 :
需要注意跑出來的報表我們想解釋的是哪一欄
如果不是我們要的需要使用 proc sort
把我們想解釋的放在左上角
不然跑出來的 risk diff / RR / OR 會出問題
解釋跑出來的值以及信賴區間 :
首先需要區分是 (risk diff) 還是 (RR 或 OR)
如果是 risk diff : 包含 的話代表沒有顯著差異 / 不包含的話就是有顯著差異
如果是 RR 或 OR : 包含 的話代表 2 者之間沒有顯著差異 / 不包含的話就是有顯著差異
RR 跟 OR 的解釋技巧 :
如果取樣不平均的話 :
total 得出來的結論跟分開討論會有差別
我們使用 SAS 來執行
設定資料檔
把資料做成交叉列表(contingency table)(不常用到)
把資料排序成我們好解釋的
計算風險差值
計算相對風險跟勝算比
設定資料檔
測 2 者是否獨立(做卡方獨立檢定)
看 Fisher Exact test (也是做獨立檢定,但樣本數比較少的時候)
測 2 者是否線性獨立
測 2 者之間的關係是否為單調
看 test 的值
設定資料檔(important)
設定資料檔
測是否會有交互作用
設定資料檔
做 linear probability model
最後跑出的結果須寫成 :
做 Logistic regression
最後跑出的結果須寫成 :
做 Probit model
最後跑出的結果須寫成 :
做 Log linear model 或 Poisson model
最後跑出的結果須寫成 : 或
設定資料檔
從簡單的方法檢測是否過度離散(看平均值跟變異數)
用 genmod
看是否過度離散
從配適度的 值/DF
,我們希望接近 1,如果不是的話就是過度離散 需要做調整
做調整
使用 scale
的 pearson test 做調整
可以從最下方的縮放看出確實有調整過
設定資料檔
最簡單看是不是 monotone(單調) 的方法
跟 genmod
差不多的程序
把資料檔從連續型的改成二元的
然後看他的分析(預設 param = effect
)
參考係數是(1, -1)
把預設的 param = effect
改成 ref
(通常都會使用這個)
預設的參考組別是 (last)
參考係數是(1, 0)
把預設的參考係數 param = effect
改成 ref
把預設的參考組別 ref = last
改成 first
算出的 勝算比點估計值
會跟參考組別為 last
的互為倒數
做同質性分析(看主成分)
做異質性分析(看主成分)(然後看交互作用)
因為從上面的連結性檢定跟全域檢定看出 2 個得出的結果不一致
因此跑出表格來看是不是係格的問題
我們期望係格都很多或都很少,而不是有多有少
接著我們看過度離散
如果偏差跟 pearson 都大於 0.05 代表不拒絕 ,沒有過度離散
假設有過度離散需要做調整
把 scale = none
改成 p
就是做 pearson 調整
weight
的使用時機:
如果是原始資料的話就不需要加權,反之,其他情況都會需要
要記得加上 order = data
因為大部分的情況都會希望用我們給定的排序
記得判別我們想要解釋的變數在哪裏
如果位置是錯誤的記得要 proc sort...by decending
一下
至於怎麼判別位置 通常會是 上面:1 0 左邊 : 0 1
,這樣的情況是我們想看的解釋變數為 1 的時候
左上方的那個就是我們想看的
計算風險
RR 就看報表中 相對風險 那一格,但因為還會分(欄1)(欄2)
通常已經整理好的話就會看(欄1),也就是我們想知道的那一項
OR 就看報表中 勝算比 那一格
風險的解釋
首先看他們的信賴區間的值
風險差值 : 包含 的話代表沒有顯著差異 / 不包含的話就是有顯著差異
RR 或 OR : 包含 的話代表 2 者之間沒有顯著差異 / 不包含的話就是有顯著差異
然後下結論的時候
RR : … 會是 … 的 倍
OR : … 會 … 的勝算會是 … 的 倍
測相關性
首先會先假設 :
: …<表格-列>… 與 …<表格-欄>… 相互獨立 / 無線性關聯
: …<表格-列>… 與 …<表格-欄>… 相關 / 有線性關聯
接著就能跑報表
看哪些類別可以做合併
假設現在有 1, 2, 3, 4 這四個類別
先分成 1 2 跟 3 4
接著分成 1+2 3+4
然後把這些都拿去做卡方檢定
當 就代表他們顯著,類別之間有差異,不能做合併
因此只能合併 的分類
3 個變數時,測是否有同質關係
使用到 cmh
並且看到最下方均齊性的卡方值 & p 值
如果 代表
也就代表第 3 項不會干擾到另外 2 者的關係
這樣才能說明均齊性符合,可以看表說明內容
反之,如果 就不能看表
因為代表第 3 項與其他 2 者有關係
做 model 時
注意題目是想做哪種 model 以及注意最後寫出來的等式左方
並且 前面係數的正負在 Logistic 跟 linear 應該要是相同的
除此之外,注意題目是否有需要加入 desc
把我們想看得放在第一項
齊一性 : 會有共同勝率 ,因此可以共同討論
異質性 : 需要分開解釋
會使用 cmh 去測
更改參數設定不會影響勝算比
差別只是把二元的參數設成(1, -1)還是(0, 1)
為甚麼要看是否單調(monotone)
如果資料的呈現形式是單調的代表我們可以把資料視為連續型
cmh
跑出來的假設定義
非零 :
檢測 : 檢測線性相關
假設 : 假設 2 者皆為連續變數
列 :
檢測 : 檢測 X 是類別,Y 是連續(跟 T / Wilcoxon 一樣)
假設 : 假設 X 為類別變數、Y 是連續變數
一般關聯 :
檢測 : 檢測 X Y 的關聯,沒有特別設限,把 X Y 假設是 nominal 的情況
假設 : 沒有額外的假設
cmh 比較模型好壞
通常會比較有交互作用跟沒有交互作用的
看 2 者模型配適統計值中的 AIC,值越小代表該模型越好
cmh 解釋
像這種的解釋就是 :
light = 1 的勝算會是 light = 0 勝算的 倍
light = 1 且 spine = 2 的勝算會是 light = 0 且 spine = 1 勝算的 倍