# 隱私資訊安全研究 ## 目標 * 使用 differential privacy 作用於資料集上後對AI detector之影響 ## 資料蒐集 * 撰寫爬蟲爬取Malware來作為資料集 ![](https://i.imgur.com/qFDf3B5.png) * 目標是Mirai家族的Malware * 共 1382 筆ELF Malware of Mirai ![](https://i.imgur.com/euh1q7l.png) ## 概念驗證 * 資料集 D * 500筆Malware + 1000筆BenignWare ![](https://i.imgur.com/aQLQwNp.png) * 提取特徵方式 * Full binary * 透過利用 objdump 提取整隻 binary 後直接作為特徵值 * Control Flow Graph * 提取後需要將整隻binary的不同Graph做組合 * Function Call Graph * 以機率表示各function間的呼叫可能性 * 提取特徵準確率 * 以 D 作為資料集,並使用 sklearn 的 KNN 模型訓練出的結果,最後決定以FCG作為提取特徵值的方法 | | CFG | FCG | Binary | | --------| -------- | -------- | -------- | | accuracy | 32.0% | 60.2% | 90.8% | | recall | 41.3% | 77.4% | 92.1% | | precision | 15.8% | 61.0% | 90.8% | * 訓練方式 * KNN * 監督式機器學習演算法。通過尋找與新資料點最近的資料點來預測結果。 * 處理分類問題 ![](https://i.imgur.com/uxIjN5g.png) * RF * 處理決策樹的分類和回歸技術 * 可以看作多項分類器 ![](https://i.imgur.com/lYpp4Kp.png) * 驗證比 * 80 % Training Data * 20 % Testing Data ## 資料集優化 * 排除非 elf 架構的 binary ## 實驗一、一般模型與模糊化資料集 * 實驗說明:將透過正常資料集 D 中80%資料訓練出的模型,以20%的資料進行測試並得出準確率,同時也對該20%的資料進行 differential privacy 處理。比較兩者間的差異。 * 實驗方式:使用laplace noise產生噪音,透過 epsilon 控制噪音的大小以符合differential privacy。 ![](https://i.imgur.com/gH1hQnc.png) * 實驗結果: * sensitivity = 0.1 * exsilon = 0.5 * KNN模型 * differential privacy ![](https://i.imgur.com/ipkc10L.png) * normal ![](https://i.imgur.com/jMfqfLP.png) * RF模型 * differential privacy ![](https://i.imgur.com/Csqxu1c.png) * normal ![](https://i.imgur.com/CFENcxr.png) | | KNN | RF | | --------| -------- | -------- | | normal | 92.0% | 96.3% | | differential privacy | 91.6% | 94.0% | ## 實驗二、以模糊化資料集訓練模型 * 實驗說明:將透過符合 differential privacy 的演算法訓練 detector,80% 資料訓練模型 20% 的資料進行測試並得出準確率,比較與未使用differential privacy演算法訓練的detector兩者間的差異。 * 實驗方式:使用 [Diffprivlib](https://github.com/IBM/differential-privacy-library) 專案,Diffprivlib 是一個通用庫,用於試驗、調查和開發差分隱私中的應用程式。 ![](https://i.imgur.com/Sd7e8Nq.png) * 實驗結果: | | 未模糊 | e=0.3 | e=0.5 | e=0.8 | | --------| -------- | -------- | -------- | -------- | | accuracy | 93.5% | 63.4% | 38.1% | 36.5% | ## 結論 * 透過 differential privacy 測試資料集對於 AI 訓練的影響,證明 differential privacy 可以在犧牲 detector 少部分準確率的情況對資料進行保護。