差分隱私 - 技術補充說明

差分隱私的數學定義如下:令隱私預算*ε*為一正實數，而*A*為一隨機演算法，以一資料庫為該演算法的輸入。令*S*為演算法*A*所映射的空間。若對所有僅有一筆記錄（例如某個人的資料）不同的兩個資料庫D~1~和D~2~，以及*S*的所有子集*s*，符合下列不等式，則稱該演算法*A*可以提供*ε*-差分隱私。其中，取機率的隨機性來自於演算法*A*。 $$ Pr[A(D_1)∈s]≤exp⁡(ε)⋅Pr[A(D_2)∈s] $$ 差分隱私依保護對象與目的可區分**全域差分隱私**和**本地端差分隱私**。 ## 全域差分隱私（Global Differential Privacy) 若考慮資料擁有者是擁有全部資料之後再想辦法做隱私資料釋出或是交換的場景，則我們將考慮全域差分隱私，一般來說我們簡稱為差分隱私。而在全域的設定中，有兩種的差分隱私設定，分別為純粹差分隱私與近似差分隱私。前者如原始定義，後者的定義是： $$ Pr[A(D_1)∈s]≤exp⁡(ε)⋅Pr[A(D_2)∈s]+δ $$ 純粹差分隱私與近似差分隱私的差別在於後者可以放寬條件在微小的機率*δ*下違背差分隱私。但是通常*δ*實際希望設定在1/n，其中n為資料集當中資料的筆數。要達成純粹差分隱私，最普遍的機制為拉普拉斯機制。拉普拉斯機制通過向結果添加具有拉普拉斯分佈的雜訊來保護數據的隱私，並由於該機制沒有δ（錯誤機率）的概念而被視為嚴格的差分隱私機制；高斯機制是差分隱私的另一種重要技術變體，其可以保證近似差分隱私，該機制所注入的雜訊為由高斯分佈產生，這將使分布更加連續和平滑，又這樣的好處得益於δ的概念引入。此外，兩種機制使用的最大差別在於計算多次查詢（query）消耗的隱私預算（privacy budget，*ε*）能採用的順序組合（sequential composition）策略。拉普拉斯機制的順序組合僅能對多次查詢的*ε*進行直接相加，而高斯機制則能透過advanced composition[4]的方式計算出精確的隱私消耗，兩者的差別在於雜訊地資料分布特性。相比於拉普拉斯機制，更多的機器學習相關研究選擇採用高斯機制，因為這解決了模型學習收斂要大量步數的權重更新導致嚴重的隱私預算拆分（budget splitting）問題。至此，由於差分隱私技術的完善理論以及操作上的便捷性，在現實中取得了廣泛的研究和應用，許多領域和產業，如醫療保健、金融、社交媒體、智能城市等，也意識到差分隱私的價值並開始採用相關技術。於是，差分隱私技術相關的法規制定也成為當前的研究熱點。例如，歐盟的通用數據保護條例（GDPR）就把差分隱私納入到其中，又或是在美國國家標準與技術研究院（National Institute of Standards and Technology，NIST）亦多次舉辦關於差分隱私技術用於資料開放的競賽[12]。 ***補充適用高斯雜訊的情境條件*** ## 本地端差分隱私（Local Differential Privacy) 本地端差分隱私的情境設定與全域差分隱私不同；具體來說，在本地端差分隱私時，蒐集資料的伺服器被認為是不可信任的，所以每個握有部分資料集的使用者將不再直接送出原始資料給伺服器。取而代之地是每個使用者將會先對手上的原始資料進行隱私處理之後才送出給伺服器。而伺服器的目標則是在從各使用者分別蒐集到的隱私化資料（privatized data）之後還能進行各式如頻率估計（frequency estimation）、平均值估計（mean value estimation）等的下游任務（downstream task）。要達到本地端差分隱私的機制有很多，當然包含了上述已經提到的拉普拉斯機制與高斯機制。但是除此之外，隨機響應機制（randomized response）也更常見於保證本地端差分隱私。 ## 評估方法差分隱私的評估方法主要有兩大類，一種是基於數學模型的理論分析方法，另一種是基於實驗的測試方法，這些方法可以用來評估差分隱私算法的保護效果和性能。