Try   HackMD

模擬案例一:共享糖尿病預測科研數據

情境說明

為進行糖尿病預測相關科學研究,醫院提供糖尿病患資料予研究中心,並於資料釋出前使用差分隱私、合成資料或 k-匿名化技術,以保障病患隱私。

情境使用資料說明

本案例使用NHANES預測糖尿病之資料集[1],欄位說明如下:

  1. 性別:Male、Female。
  2. 年齡:[20, 80]。
  3. 人種:Black、Hispanic、Mexican、White、Other。
  4. 教育水平:9th、11th、HighSchool、College、Graduate。
  5. 婚姻狀況:Married、Widowed、Divorced、Separated、Never、Partner。
  6. 是否憂鬱症:是(1)、否(0)。
  7. 是否貧困:是(1)、否(0)。
  8. 活動量:每週進行的特定活動的天數(以天/週為單位)乘以每天特定活動的持續時間(以分鐘/天為單位)得出 Metabolic Equivalent Scores(METs)(以分鐘/週為單位)。
  9. 活動量四分位数:Q1、Q2、Q3、Q4。
  10. 是否糖尿病:是(1)、否(0)。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

▲ 表二十四、模擬案例一使用之資料集部分節錄

使用之隱私強化技術

差分隱私、合成資料或 k-匿名化。

隱私強化技術使用目的

保護參與NHANES資料蒐集的受試者資訊,以避免這些受試者遭受推論攻擊,而被推測特定人是否在此名單之中。此外,該資料亦須具備相當程度的可用性,以供後續資料分析及研究。

隱私強化技術運作方式/機制說明

  1. 差分隱私
    欲使NHANES資料集釋出滿足差分隱私,則必須先找到某種資料生成的方式並在其中涉及統計計算的函式輸出注入雜訊。其作法係將資料分布轉換成列聯表(Contingency Table)的形式,然後對每一個count值注入雜訊後,再根據新的統計分布透過抽樣轉換回資料型態。下圖簡略敘述了具差分隱私的資料生成方法,但要注意的是在注入雜訊後接續進行了後處理的程序(Post-Processing),此步驟目的在於讓充滿雜訊的分布能更合理,且貼近實際分布狀況,例如應避免count值負值等。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

▲ 圖十六、以差分隱私生成資料之運作流程

  1. 合成資料
    要從NHANES資料集釋出一個可供發佈之資料集,首先需選定一種產生合成資料之方式,如機器學習模型或數學建模等,來捕捉NHANES資料集的統計特徵。以生成對抗網路(Generative Adversarial Network)為例,該模型將以NHANES資料集為輸入,藉由模型的生成器(Generator)和判別器(Discriminator)機制,學習資料集的統計特徵,如下圖所示。待模型訓練完畢,再以此模型的生成器產出合成資料。產出之合成資料即可在其數值與原始資料不完全相同的情況下,表現出與原始資料相似之統計特徵。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

▲ 圖十七、以合成資料生成資料集之運作流程

上圖參考自 [2] 並經指引編輯團隊重新繪製。

  1. k-匿名化
    為使NHANES資料集釋出滿足k-匿名性,必須先決定資料集中哪個欄位作為敏感屬性(Sensitive Attribute, SA)且其餘屬性當作準識別符(Quasi-identifier, QI)。接續針對類別行屬性運行抑制(Suppression)與泛化(Generalization)。其目的為確保資料中的任一筆紀錄有較大可能與資料集中至少k-1筆紀錄具有相同的資料。然而,僅憑單次的程序通常很難滿足上述要求,因為資料進行去識別化的同時應該要盡可能保有原始資料的可利用性。故去識別化程序通常會採用漸進式運行,逐漸增加資料抑制與泛化的強度(如郵遞區號從遮住尾二碼增至三碼),直至符合k-匿名性定義才輸出k-匿名化資料集。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

▲ 圖十八、以k-匿名化生成資料集之運作流程

適用此隱私強化技術之其他領域

本案例使用之隱私保護技術均適用於資料共享、釋出統計資料之情境,並常見應用於醫療衛生、科學研究、金融等領域。

實作程式碼

本案例之實作程式碼已公開於數位發展部 GitHub。
https://github.com/moda-gov-tw/PETs-Applications

參考文獻


  1. kikn88, “PWSCup 2021 (NHANES diabets).” Apr. 21, 2023. Accessed: Oct. 31, 2023. [Online]. Available: https://github.com/kikn88/pwscup2021 ↩︎

  2. S.-W. Park, J.-S. Ko, J.-H. Huh, and J.-C. Kim, “Review on generative adversarial networks: Focusing on computer vision and its applications,” Electronics, vol. 10, no. 10, Art. no. 1216, 2021, doi: 10.3390/electronics10101216. ↩︎