# 母群體一致性 ###### tags: `國泰專案` ## 流程 1. 對下列四張表做 inner join ``` sepsis101 sepsis102 sepsis103 sepsis110 ``` 2. 將步驟一所形成的表對下列四張表做 left join ``` sepsis105 sepsis106 sepsis111 sepsis112 ``` 3. 濾除 `ISTRANSFER` 欄位為 `Y` 或 `NHIDISCHARGECODE` 欄位為 `5` 或 `6` 的資料。 4. 僅保留 `ISSEPSIS0` 欄位為 `Y` 或出院診斷為敗血症的病人。 ## 備註 1. 進行敗血症標籤時,不會對 sepsis104 資料表進行 join,所以不會影響資料數量,會根據 sepsis104 資料表建立 `sepsis_account_list`,如果資料的 `ACCOUNTNO` 落在 `sepsis_account_list`,將該筆資料標籤為敗血症。 ## 問題 1. 為什麼會出現重複的 `ACCOUNTNO`?不同院區的 `ACCOUNTNO` 是相互獨立的 ## 結果 1. 共 `25874` 筆資料 (`25874` 個 `ACCOUNTNO + DIVISION`,沒有重複) + 總院: `11625` + 新竹: `4339` + 汐止: `9910` 2. EMV 缺失值統計 | | E | M | V | | ----- | -------- | -------- | -------- | | 總院 | 92 | 100 | 121 | | 新竹 | 29 | 32 | 38 | | 汐止 | 68 | 82 | 105 |