差分隱私(Differential Privacy)

技術說明

技術概述

差分隱私(Differential Privacy, DP)是一種保護個人資料隱私的方法,通過在資料中加入一定的雜訊,使得資料釋出後不會揭露個人資訊。差分隱私廣泛應用於資料共享、資料挖掘、機器學習等領域,可有效保護敏感資訊的隱私,同時保持資料的可用性和可分析性。

差分隱私的原理可理解成,若對僅有一筆紀錄不同的兩個資料庫比對分析,無論兩者差異是加入、刪除或修改該筆紀錄,其透過隨機演算法的分析結果將不會有重大差異,即分析結果的差異是可控的。這也意味著一個具有差分隱私保護的系統或演算法在分析過程中能有效地隱藏個人的參與資訊。換言之,差分隱私透過設定隱私損失(ϵ,或稱隱私預算)提供了可量化的隱私保護框架,可以應用於各種資料分析與資料共享的服務,並確保個人隱私得到適當的保障。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

▲ 圖八、差分隱私運用情境示意圖

欲解問題

資料共享在當今數位時代中扮演著重要的角色,它帶來了許多優點和益處,包含促進各種加值應用、決策支援、促進服務最佳化等,使資料發揮一加一大於二的協同效應。以醫療資料共享為例,醫院或醫療機構之間共享病人的醫療紀錄與健康資訊,有助於疾病研究和醫療改進。然而,潛在的隱私風險包括醫療檔案中所記錄的個人敏感資訊(例如疾病診斷、處方藥物等)可能被洩漏,導致侵犯個人隱私等問題。為了應對這些潛在的隱私風險,差分隱私技術適用於資料共享情境中。在資料蒐集階段,透過在資料中添加適當的雜訊,差分隱私技術可以確保即使在具有詳細訊息的資料集中,也無法準確識別特定個體的敏感資訊。這樣的技術機制有助於保障資料當事人的隱私,可促進資料當事人參與資料蒐集的意願。同時,在資料釋出階段,由於差分隱私技術確保資料釋出不會揭露個人的敏感資訊,並且添加的雜訊符合統計分布的限制,資料的可用性相較於傳統匿名化技術更有利於各種科學用途。

發展沿革

差分隱私的起源可以追溯到2006年,當時Cynthia Dwork等人[1]提出了差分隱私的定義。起初,差分隱私的主要技術是基於拉普拉斯雜訊機制(laplace mechanism)或指數雜訊機制(exponential mechanism),以保護釋出的資料。這些機制能夠量化和控制資料分享時的隱私洩漏風險。在2008年,美國普查局首次應用差分隱私來發布通勤模式的統計資料[2]。除了政府部門,Google在2014年提出了RAPPOR方法,以基於差分隱私的統計方法收集Chrome瀏覽器的使用者資料[3]。隨著機器學習在資料分析中的重要性不斷增加,2016年,Martín Abadi等人提出Advanced Composition方法,解決了過去差分隱私在神經網路訓練中效果不彰的問題[4]。同年,歐盟通過了《一般資料保護規則》(GDPR),其中將差分隱私作為一種可行的資料保護方法之一[5]。自此以後,差分隱私技術被廣泛應用於各個產業或學術研究中[6][7][8][9][10][11][12]。差分隱私在保護個人隱私的同時,為資料共享和分析提供了一種有效的解決方案,成為當今數據時代中不可或缺的技術之一。

技術現況

在差分隱私領域,目前存在多種技術變形和應用,並且這些技術的發展日益成熟。若資料擁有者欲就其所蒐集之資料於釋出或是共享前強化隱私保護,則可考慮採用全域差分隱私,一般來說簡稱為差分隱私。而在全域的設定中,有兩種差分隱私設定,分別為純粹差分隱私與近似差分隱私。前者最普遍的機制為拉普拉斯機制,即通過向結果加入具有拉普拉斯分佈的雜訊來保護資料的隱私,並由於該機制沒有 δ(錯誤機率)的概念而被視為嚴格的差分隱私機制;後者利用高斯機制,其可以保證近似差分隱私。該機制所加入的雜訊為高斯分佈產生,這將使分布更加連續和平滑,可獲得較高的資料可用性,但有微小機率(δ)會產出隱私保護程度不足(隱私損失風險超過 ϵ )之資料集。本地端差分隱私 (local differential privacy)的情境設定與全域差分隱私不同;具體來說,在本地端差分隱私時,蒐集資料的伺服器被認為是不可信任的,所以每個握有部分資料集的使用者將不再直接送出原始資料給伺服器。取而代之地是每個使用者將會先對手上的原始資料進行隱私處理之後才送出給伺服器。要達到本地端差分隱私的機制包含了上述的拉普拉斯機制與高斯機制外,隨機回應機制(randomized response)也更常被運用在本地端差分隱私。

差分隱私的數學定義如下:
令隱私預算 ϵ 為一正實數,而A為一隨機演算法,以一資料庫為該演算法的輸入。令S為演算法A所映射的空間。若對所有僅有一筆紀錄(例如某個人的資料)不同的兩個資料庫D1和D2,以及S的所有子集s,符合下列不等式,則稱該演算法A可以提供 ϵ-差分隱私。其中,機率的隨機性來自於演算法A
Pr[A(D1)s]exp(ϵ)Pr[A(D2)s]

適用情境

差分隱私技術適用於許多應用場景,特別適合於組織已擁有一份原始資料欲透過技術方式產製兼顧資料隱私保障及資料可用性之開放資料或共享資料的情境。隨人工智慧、探勘技術等技術發展,相較過去常被運用在相似情境的傳統去識別化技術,差分隱私提供了具有數學證明的隱私強度保證,有助於確保隱私保護的有效性。以美國人口普查為例[11:1],其研究小組運用新興資料庫重建技術,將已經過隱私處理之2010年美國人口普查結果,進行再識別還原測試,即發現有大量的個人資料能夠被還原[13]。為強化隱私保護的有效性,美國人口普查局於2020年所釋出的人口普查資料即改以基於差分隱私的保護框架,實現對參與普查使用者的資訊防護。此外,隨著各界對於個人資料及隱私保護意識提升,相應的規範也趨於嚴謹,許多企業仍有蒐集用戶資訊進行產品開發及優化的需求,其為了保障用戶資訊並避免觸犯法規而付出天價罰款[14][15],差分隱私技術扮演了重要的技術解方,如Google發展RAPPOR[3:1]演算法,在即時蒐集使用者資訊時運用差分隱私技術,確保回傳資料的隱私保障。

如欲採用差分隱私作為產製合成資料之核心技術時,建議考量下列面向之適用性:

  1. 資料面:資料集在日後不會有增刪資料的情況,並且資料集的屬性欄位個數不宜過多,以避免資料分布呈稀疏狀態,進而造成差分隱私合成資料的可用性降低。另為符合差分隱私定義,資料利用時必須將每筆紀錄視為單一個體,各筆紀錄之間並無關聯性。
  2. 架構面:演算法設計要能支援多執行續以縮短資料處理的時間成本,並且也要考慮記憶體消耗而採用切分批次檔案讀寫的設計,因為資料屬性的資料定義域空間(domain space)通常會非常龐大。
  3. 可用性:由於差分隱私的技術原理是將雜訊加入資料或是演算法以保障資料隱私,如期望最後運算結果(如單行平均、神經網路預測等)可獲得較好的資料可用性,循經驗法則應盡可能的提升原始資料集的資料筆數,以利加入的雜訊能成功地互相抵銷。反之,如原始資料分布過於發散,則差分隱私合成資料的可用性亦將受到局限。

技術施用風險

如欲採用差分隱私作為產製合成資料之核心技術時,建議將下列運算資源及硬體成本納入評估:

  1. 基於差分隱私技術的合成資料通常需要進行資料預處理,將資料集各屬性的值進行數值化(string to integer)或離散化,並建立字典檔以使得最後產生的合成資料可以對應回原始資料集的域(domain),此處理需考慮記憶體和效能上的權衡。
  2. 依差分隱私合成資料生成演算法的類型可分為以下2類,參數化方式多為基於神經網路的做法,故可應用GPU提升運算效能,而非參數化之做法則受限於技術實作限制,大多無法應用GPU加速運算。
演算法類型 參數化 (parametric) 非參數化 (non parametric)
運作概念 利用如神經網路的機器學習模型學習資料樣態並產生資料 以統計列聯表(contingency table) 依機率採樣產生資料
GPU適用性 透過大量的樣本學習可提升資料準確性,GPU記憶體為影響時間成本的關鍵要素 資料屬性的資料定義域空間會直接受到CPU記憶體限制,使得演算法設計上需進行動態追蹤,大多無法應用GPU加速運算

開源工具與社群

參考工具之維護狀況、社群活躍度、Github star數/fork數、可支援模型和隱私方法、說明文件和教學檔案,經綜合評估列舉差分隱私之開源工具如下。

工具名稱 開發語言 基本文字介紹 優缺點/擅長解決之問題
google/differential-privacy C++/Go/Java/Python 該套件庫包含用於計算 ϵ 或 (ϵ, δ) 差分隱私統計資訊的常見函數,例如實現拉普拉斯機制和高斯機制所需加入雜訊,以及隱私花費的計算。 1.拉普拉斯機制和高斯機制之累計隱私花費計算。
2.多種常見統計函數之全域敏感度計算及對應雜訊生成。
Opacus Python 該套件庫支援PyTorch在具有差分隱私的情況下進行訓練,並且對於整體運算效能影響較小。同時,套件庫也允許即時累計隱私花費的計算(常搭配DP-SGD使用)。此外,服務對象主要為機器學習的使用者。 1.要轉化為差分隱私版本,僅需修改部分程式碼。
2.支援累計隱私花費的計算。
Diffprivlib Python 該套件庫支援多種差分隱私模型的訓練,包含分群法、分類器、回歸預測等,並且操作上和Scikit-learn套件庫模式一樣而好上手。 1.訓練差分隱私模型。
2.操作方式與Scikit-learn相同。
3.不支援自訂雜訊加入方式或作用位置。
ARX Java 該套件庫為針對個人隱私資訊進行匿名化的綜合開源軟體,如k-匿名化、差分隱私語意模型等。同時,該套件庫還提供了匿名化資料的可用性驗證與隱私驗證的方法。 1.支援多種經典資料去識別化方法。
2.支援差分隱私語意模型的訓練。
3.匿名化資料的資料可用性分析。
4.匿名化資料的再識別風險分析。
OpenDP Rust 該套件庫支援多種基於不同差分隱私模型的統計分析,並提供周邊工具,供使用者建構完整差分隱私系統。 1.支援多種統計分析模型。
2.支援評估參數設定與資料失真程度的關係。
3.提供建構報告、儀表板之工具以協助評估處理效果。

標準

標準名稱 標準編號 發布組織 類型 發布日期 標準說明
隱私增強資料去識別化術語與技術分類(Privacy enhancing data de-identification terminology and classification of techniques) ISO/IEC 20889:2018 ISO/IEC 標準 2018-11 本標準描述了隱私增強資料去識別化技術,並根據ISO/IEC 29100準則設計資料去識別化措施,其中明確定義各種技術之分類,並闡述了降低再識別風險的適應性。此標準適用於各類型、規模之組織,包括公有和民營企業、政府部門以及非營利團體等,並且作為個人可識別資訊(PII)的管控者或代表把關者身分行事之PII管理者,得實施資料去識別化流程以達隱私增強保護目的。
資訊技術-安全技術-個人資訊去識別化過程管理系統-要求事項(Information technology − Security techniques − Requirements for a personal information de-identification process management system) CNS 29100-2:2019 經濟部標檢局 標準 2019-09 本標準為國內自訂之國家標準,主要遵循我國個人資料保護法及其施行細則,並參考ISO 29100系列、ISO 27018(資訊技術-安全技術-公用雲PII處理者保護個人可識別資訊(PII)之作業規範)等國際標準所訂定。

示範性案例

擬真情境案例

實際案例

參與者 描述 使用技術 開發成熟階段
美國普查局、大眾 美國普查局公開普查資料讓大眾使用時,透過差分隱私技術加入雜訊,兼顧隱私保護力與資料可用性。資料集包括美國不同種族人口與居住地相關敏感資料。資料處理流程是先依據地理單位由大至小計算統計資料,再依隱私洩漏風險與隱私預算 ϵ 值加入雜訊。 差分隱私之 TopDown 演算法[16] 正式上線
BankCo 金融服務業者、金融機構 BankCo金融服務業者透過安全多方運算技術,在不透漏原始資料的情況下,協助金融機構評估客戶信用風險。其資料來源多樣,包含來自債務催收機構、信用卡發行機構、公開紀錄等的個人財務資訊。金融服務業者從各來源蒐集原始資料後,對原始資料加入差分隱私雜訊,執行並產出分析結果供金融機構應用。 差分隱私 正式上線
韓國政府、私人企業 韓國統計局結合同態加密、安全多方運算與差分隱私等技術,在不暴露敏感資訊的狀況下,讓政府各部門的資料可以安全的連結與使用。此應用試辦之資料為韓國統計局登記之各企業詳細資訊,如機構名稱、公司登記號碼與行政區碼。過程中資料會在加密的狀態下進行連結與分析。 同態加密、安全多方運算、差分隱私 應用試辦
帝濶智慧科技、聯新國際醫療、資料服務公司 為確保資料(資料服務公司會員行為分析、醫療科學研究資料及數位化轉型資料共享)於雲端儲存、釋出使用及資料分析階段之隱私保障。資料服務公司、新國際醫療與帝濶智慧科技,合作試辦結合差分隱私、同態加密技術等技術,以生成合成資料、分析去識別化資料及安全加密檔案管理系統。該系統提供資料擁有者多種隱私強化方案,於資料上傳至雲端前進行去識別化或加密處理,經處理之資料保存於雲端平台,供後續查詢、釋出及結合其他保存於雲端平台之跨機構資料進行跨域分析。 合成資料、差分隱私、可搜尋加密、同態加密 應用試辦

參考文獻


  1. C. Dwork, F. McSherry, K. Nissim, and A. Smith, “Calibrating noise to sensitivity in private data analysis,” in Theory of cryptography: Third theory of cryptography conference, new york, NY, USA: Springer, Mar. 2006, pp. 265–284. [Online] Available: https://people.csail.mit.edu/asmith/PS/sensitivity-tcc-final.pdf ↩︎

  2. A. Machanavajjhala, D. Kifer, J. Abowd, J. Gehrke, and L. Vilhuber, “Privacy: Theory meets practice on the map,” in 2008 IEEE 24th international conference on data engineering, IEEE, 2008, pp. 277–286. [Online] Available: https://ieeexplore.ieee.org/abstract/document/4497436 ↩︎

  3. Ú. Erlingsson, V. Pihur, and A. Korolova, “Rappor: Randomized aggregatable privacy-preserving ordinal response,” in Proceedings of the 2014 ACM SIGSAC conference on computer and communications security, 2014, pp. 1054–1067. [Onlin] Available: https://dl.acm.org/doi/abs/10.1145/2660267.2660348 ↩︎ ↩︎

  4. Abadi, Martin, et al. "Deep learning with differential privacy." Proceedings of the 2016 ACM SIGSAC conference on computer and communications security, 2016. ↩︎

  5. The Working Party on the Protection of Individuals with regard to the Processing of Personal Data, “Opinion 05/2014 on Anonymisation Techniques.” Apr. 10, 2014. [Online] Available: https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf ↩︎

  6. Apple Inc., “Apple previews iOS 10, the biggest iOS release ever.” Accessed: Aug. 31, 2023. [Online] Available: https://www.apple.com/newsroom/2016/06/apple-previews-ios-10-biggest-ios-release-ever/ ↩︎

  7. B. Ding, J. (Jana) Kulkarni, and S. Yekhanin, “Collecting Telemetry Data Privately,” presented at the Advances in Neural Information Processing Systems 30, Long Beach, CA, USA, Dec. 2017. Available: https://www.microsoft.com/en-us/research/publication/collecting-telemetry-data-privately/ ↩︎

  8. Privitar Ltd, “Enterprise Data Privacy Management Software & Tools,” Privitar. https://www.privitar.com/products/data-privacy-software/ (accessed Aug. 31, 2023). ↩︎

  9. The OpenDP Team, “OpenDP Library.” Sep. 01, 2023. Accessed: Sep. 03, 2023. [Online] Available: https://github.com/opendp/opendp ↩︎

  10. R. Rogers et al., “LinkedIn’s Audience Engagements API: A privacy preserving data analytics system at scale,” 2020, [Online] Available: https://arxiv.org/abs/2002.05839 ↩︎

  11. U. C. Bureau, "Understanding Differential Privacy", 2020. Available: https://www.census.gov/programs-surveys/decennial-census/decade/2020/planning-management/process/disclosure-avoidance/differential-privacy.html. Accessed: Aug 31, 2023. ↩︎ ↩︎

  12. "Past Prize Challenges", NIST, May 24, 2019. Available: https://www.nist.gov/ctl/pscr/open-innovation-prize-challenges/past-prize-challenges. Accessed: Aug 31, 2023. ↩︎

  13. U. C. Bureau, "The Census Bureau’s Simulated Reconstruction-Abetted Re-identification Attack on the 2010 Census". Available: https://www.census.gov/data/academy/webinars/2021/disclosure-avoidance-series/simulated-reconstruction-abetted-re-identification-attack-on-the-2010-census.html. Accessed: Aug 31, 2023. ↩︎

  14. C. Page, "EU hits Amazon with record-breaking $887M GDPR fine over data misuse", Jul 30, 2021. Available: https://techcrunch.com/2021/07/30/eu-hits-amazon-with-record-breaking-887m-gdpr-fine-over-data-misuse/. Accessed: Aug 31, 2023. ↩︎

  15. European Data Protection Board, "1.2 billion euro fine for Facebook as a result of EDPB binding decision | European Data Protection Board", May 22, 2023. Available: https://edpb.europa.eu/news/news/2023/12-billion-euro-fine-facebook-result-edpb-binding-decision_en. Accessed: Aug 31, 2023. ↩︎

  16. J. Abowd, D. Kifer, S. Garfinkel and A. Machanavajjhala, "Census TopDown: Differentially Private Data, Incremental Schemas, and Consistency with Public Knowledge", 2019. Available: https://www.semanticscholar.org/paper/Census-TopDown%3A-Differentially-Private-Data%2C-and-Abowd-Kifer/cd020070f56f155a45e13ee404109edf3f452ebc. Accessed: Aug 31, 2023. ↩︎