<style> /* 本程式由艾凱雲端資訊負責人 - PK 編輯 2023/09/09 */ html, body, .ui-content { color: #333; background-color: #edf9f7; background-position: center center; background-repeat: repeat-y; background-attachment: fixed; } .alert-success { background-color: #e7f3e3; } .alert-danger { background-color: #f7e5e5; } .alert-warning { color: #8a6d3b; background-color: #fbf7f2; border-color: #faebcc; } .alert-warning a { color: #9b8364; ; } .ui-toc-dropdown .nav .nav>li>a { font-size: 14px; } .ui-content:before { content: ""; position: fixed; z-index: -1; top: 0; right: 0; bottom: 0; left: 0; background-image: inherit; } #doc.markdown-body, .document-footer { background: #fff; border-radius: 10px; margin-top: 20px; padding-top: 0; padding-left: 30px; padding-right: 30px; padding-bottom: 80px; min-height: calc(100% - 160px); } .document-footer { padding-top: 30px; } .markdown-body h1 { font-size: 30px; color: orange; } .markdown-body h2 { font-size: 28px; color: #ffffff; margin: 30px 0 30px !important; border-bottom: 3px solid #93c6b3; background: #93c6b3; padding: 7px 5px 5px; text-align: center; border-radius: 50px; } .markdown-body h2:after { content: ""; display: none /*block*/ ; margin: 10px 0px 0px 0px; width: 40px; height: 6px; background-color: #93c6b3 /*#6ab69a*/ ; } .markdown-body h3 { padding-bottom: 10px; font-size: 24px; color: #4c4987; border-bottom: 1px dashed #4c4987; } .markdown-body h4 { padding-left: 20px; font-size: 20px; color: #615ea8; background-image: url('https://www.e7way.com.tw/images/icon-quote2.png'); background-position: top left; background-repeat: no-repeat; } .markdown-body p, .markdown-body blockquote, .markdown-body ul, .markdown-body ol, .markdown-body dl, .markdown-body table, .markdown-body pre { color: #444; line-height: 2.4em; letter-spacing: 0.05em; } .alert { padding: 30px; } .alert-info { color: #1d1d3e; background-color: #f3f4ff; border-color: #f3f4ff; } .footnotes ol li { margin: 5px 0; } .markdown-body li+li { padding: 0; } /*--------------------------------------*/ .ui-toc-label:hover { background-color: #9C9CC1; border: none; } .ui-toc-dropdown>.toc { max-height: 100vh; overflow: hidden !important; } .ui-toc-dropdown .nav>li>a { font-weight: 400; font-size: 16px; margin: 10px 0 0; padding: 0 0 0 20px; } .ui-toc-dropdown .nav .nav { padding: 0; margin: 0; } .ui-toc-dropdown .nav .nav>li>a { font-size: 14px; line-height: 1.1em; margin-bottom: 0px; padding-bottom: 0; } .ui-toc-dropdown .nav>.active:focus>a, .ui-toc-dropdown .nav>.active:hover>a, .ui-toc-dropdown .nav>.active>a { color: #6ab69a; background-color: transparent; border-left: 2px solid #6ab69a; } .ui-toc-dropdown .nav>li>a:focus, .ui-toc-dropdown .nav>li>a:hover { padding-left: 18px; color: #6ab69a; text-decoration: none; background-color: transparent; border-left: 2px solid #6ab69a; } .ui-toc-dropdown .nav .nav>li>a:focus, .ui-toc-dropdown .nav .nav>li>a:hover { padding-left: 30px; border: 0; } .ui-toc-dropdown .nav .nav>.active:focus>a, .ui-toc-dropdown .nav .nav>.active:hover>a, .ui-toc-dropdown .nav .nav>.active>a { padding-left: 30px; font-weight: 400; border: 0; } } /* 表格樣式 --------------------------------------*/ .markdown-body table th, .markdown-body table td { border: 0px; } .markdown-body table th { color: #528f78; background: #dceae7; border: 1px solid #e3f6f2; } .markdown-body table td { padding: 6px 13px; border: 0px solid #def1ec; } .markdown-body table tr:nth-child(2n) { background: #f5fbfb; border: 1px solid #f5fbfb; } /* 表格樣式 (無捲軸) --------------------------------------*/ .css-table { display: table; display: table-cell; } .css-table .thead { display: table-header-group; } .css-table .thead .th { color: #528f78; background: #dceae7; border: 1px solid #e3f6f2; font-weight: bold; font-size: 20px; text-align: center; } .css-table .tbody { display: table-row-group; } .css-table .tr { display: table-row; } .css-table .th, .css-table .td { display: table-cell; border: 0px; line-height: 2em; word-break: break-all; } .css-table .td { padding: 6px 13px; border: 0px solid #def1ec; font-size: 18px; } .css-table .tr:nth-child(2n) { background: #f5fbfb; border: 1px solid #f5fbfb; } .toc-menu { margin: 20px 0 0; padding: 5px 0; background: #f4f5fa; border-radius: 10px; } .expand-toggle, .back-to-top, .go-to-bottom { margin: 5px; padding: 2px 15px; color: #8e8da7; } /* RWD ********************************************************/ @media (min-width: 350px) { .markdown-body h2 { font-size: 20px; } .markdown-body p, .markdown-body blockquote, .markdown-body ul, .markdown-body ol, .markdown-body dl, .markdown-body table, .markdown-body pre {} .markdown-body ul, .markdown-body ol { padding-left: 1.5em; } #doc.markdown-body, .document-footer { padding: 15px; } #doc.comment-enabled.comment-inner { padding: 15px; } .markdown-body li>p { margin: 0; padding: 0; } .alert { padding: 15px; } } @media (min-width: 1020px) { .markdown-body p, .markdown-body blockquote, .markdown-body ul, .markdown-body ol, .markdown-body dl, .markdown-body table, .markdown-body pre { font-size: 18px; } .alert { padding: 15px; } .alert-info p { margin: 0 5px 0 0; } .ui-infobar { max-width: 900px; margin: 0 50px 20px 10px; padding-top: 25px; } } @media (min-width: 1200px) { #doc.markdown-body, .document-footer { padding: 0 30px; } .ui-infobar { margin: 10px auto 15px 450px; } } </style> ## 技術說明 #### 技術概述 差分隱私 (differential privacy,DP) 是一種保護個人資料隱私的方法,通過在資料中加入一定的雜訊,使得資料釋放後不會揭露個人資訊。差分隱私廣泛應用於資料共享、資料挖掘、機器學習等領域,可有效保護敏感資訊的隱私,同時保持資料的可用性和可分析性。 差分隱私的原理可理解成,若對僅有一筆記錄不同的兩個資料庫和作運算分析,無論兩者差異是添加、刪除或修改該筆紀錄,其透過隨機演算法的分析結果將不會有重大差異,即分析結果的差異是可控的。這也意味著一個具有差分隱私保護的系統或演算法在分析過程中能有效地隱藏個人的參與資訊。總體來說,差分隱私提供了一種透過設定隱私預算(*ε*)在數學上可量化的隱私保護框架,可以應用於各種資料分析與資料共享的服務,並確保個人隱私得到適當的保障。 #### 欲解問題 資料共享在當今數位時代中扮演著重要的角色,它帶來了許多優點和益處,包含知識增值、服務優化、合作和協同效應以及決策支持。以醫療資料共享為例,醫院或醫療機構之間共享病人的醫療記錄與健康資訊,有助於疾病研究和醫療改進。然而,潛在的隱私風險包括醫療檔案中所記錄的個人敏感資訊(例如疾病診斷、處方藥物等)可能被洩漏,導致身份盗竊、個人隱私侵犯和歧視等問題。為了應對這些潛在的隱私風險,差分隱私技術就可以應用於資料共享當中。在資料蒐集階段,透過在資料中注入適當的雜訊,差分隱私技術可以確保即使在具有詳細信息的資料集中,也無法準確識別特定個體的敏感資訊。這種隱私保護機制激勵了個人參與資料蒐集的意願,對於合作應用的實現大有幫助。同時,在資料釋出階段,由於差分隱私技術確保資料釋出不會揭露個人的敏感資訊,並且選注入的雜訊符合統計分布上的限制,資料的可用性相較於傳統匿名化技術更有利於各種科學用途。 #### 發展沿革 差分隱私的起源可以追溯到2006年,當時Cynthia Dwork等人[^1]提出了差分隱私的定義。起初,差分隱私的主要技術是基於拉普拉斯雜訊機制(laplace mechanism)或指數雜訊機制(exponential mechanism),以保護釋出的資料。這些機制能夠量化和控制資料分享時的隱私洩漏風險。在2008年,美國普查局首次應用差分隱私來發布通勤模式的統計資料[^2]。除了政府部門,Google在2014年提出了RAPPOR方法,以基於差分隱私的統計方法收集Chrome瀏覽器的用戶資料[^3]。隨著機器學習在資料分析中的重要性不斷增加,2016年,Martín Abadi等人提出Advanced Composition方法,解決了過去差分隱私在神經網路訓練中效果不彰的問題[^4]。同年,歐盟通過了《一般資料保護規則》(GDPR),其中將差分隱私作為一種可行的資料保護方法之一[^5][^6]。此以後,差分隱私技術被廣泛應用於各個產業或學術研究中[^7][^8][^9][^10][^11][^12][^13]差分隱私在保護個人隱私的同時,為資料共享和分析提供了一種有效的解決方案,成為當今數據時代中不可或缺的技術之一。 #### 技術現況 在差分隱私領域,目前存在多種技術變形和應用,並且這些技術的發展日益成熟。若考慮資料擁有者是擁有全部資料之後再想辦法做隱私資料釋出或是交換的場景,則我們將考慮**全域差分隱私**,一般來說我們簡稱為差分隱私。而在全域的設定中,有兩種的差分隱私設定,分別為純粹差分隱私與近似差分隱私。前者最普遍的機制為拉普拉斯機制,即通過向結果添加具有拉普拉斯分佈的雜訊來保護數據的隱私,並由於該機制沒有δ(錯誤機率)的概念而被視為嚴格的差分隱私機制;後者利用高斯機制,其可以保證近似差分隱私,該機制所注入的雜訊為由高斯分佈產生,這將使分布更加連續和平滑可以放寬條件在微小的機率*δ*下違背差分隱私。**本地端差分隱私**(local differential privacy)的情境設定與全域差分隱私不同;具體來說,在本地端差分隱私時,蒐集資料的伺服器被認為是不可信任的,所以每個握有部分資料集的使用者將不再直接送出原始資料給伺服器。取而代之地是每個使用者將會先對手上的原始資料進行隱私處理之後才送出給伺服器。要達到本地端差分隱私的機制包含了上述的拉普拉斯機制與高斯機制外,隨機響應機制(randomized response)也更常見於保證本地端差分隱私。 :::info 差分隱私的數學定義如下: 令隱私預算*ε*為一正實數,而*A*為一隨機演算法,以一資料庫為該演算法的輸入。令*S*為演算法*A*所映射的空間。若對所有僅有一筆記錄(例如某個人的資料)不同的兩個資料庫D~1~和D~2~,以及*S*的所有子集*s*,符合下列不等式,則稱該演算法*A*可以提供*ε*-差分隱私。其中,取機率的隨機性來自於演算法*A*。 $$ Pr[A(D_1)∈s]≤exp⁡(ε)⋅Pr[A(D_2)∈s] $$ ::: ![](https://hackmd.io/_uploads/HydsFfIcn.jpg) 通過符合差分隱私的雜訊添加,使得任何人都無法反推出資料集中任何人之資訊。 差分隱私技術[補充說明](https://hackmd.io/@petworks/H1BUIg_O2) ## 適用情境 差分隱私技術適用於許多場景,特別是那些需要資料集或統計資訊以進行分析、研究或共享的情況,同時還得兼顧個人隱私資訊的保障。以美國人口普查為例[^12],2010年的人口普查資料在刻意重啟再識別攻擊實驗後,就被發現有大量的個人資料能夠被識別出[^14]。因此,對於使用嶄新的資料保護技術儼然成為迫切挑戰,而差分隱私就在這樣的時空背景下作為新一代資料開放的解方。於是,美國人口普查局在2020年所釋出的人口普查資料改以基於“差分隱私”的保護框架來實現對參與普查的用戶資訊之防護。除了政府部門的實例之外,另一個知名案例為Google公司所研發的RAPPOR[^3]。由於Google相關產品遍布海內外,為了更好地通過大數據分析開發出更符合市場需求導向的產品,如何在不侵犯用戶的個人隱私資訊的情況下還能計算出某個地區的用戶統計資訊,成為了增進用戶參與計算意願的關鍵所在。傳統加密或去識別化技術各自有其缺陷在,無論是計算花費過高或是資訊可用性的破壞,對於資訊的即時蒐集與統計計算顯得不合乎現實需求。於是,Google公司研發了RAPPOR,並首先將其應運在即時蒐集用戶資訊,使回傳的資訊具有差分隱私的保障。近幾年,隨著各國政府對於人民個資的警覺意識提升,越來越多相關的法規也推陳出新,許多大企業為了讓自身產品能在各國推廣以及避免觸犯法規而付出天價罰款[^15][^16],差分隱私技術的引入在這其中扮演重要地位。 以差分隱私為核心技術用於資料生成的情境,適合在政府部門或企業本身已具有一份資料集,並打算運用資料集的統計資訊來協助科學分析或作為宣傳的效果。進一步而言,鑑於差分隱私技術需要大量紀錄以維持統計結果的正確性,又或是作為資料生成的演算法設計上存在的限制,現實中評估差分隱私技術適用性的諸多條件可就資料面、架構面及可用性區別。 * 資料面:資料集在日後不會有增刪資料的情況,並且資料集的屬性欄位個數不能過多,因為這會導致資料點在分布中呈稀疏狀態(sparse),進而導致可利用度因維度詛咒而嚴重破壞。尤為重要的一點是為了符合差分隱私定義,資料必須將每筆紀錄視為單一個體而不考慮各筆紀錄之間的關聯性。 * 架構面:演算法設計要能支援多程序以縮短資料處理的時間花費,並且也要考慮記憶體消耗而採用切分批次檔案讀寫的設計,因為資料屬性的資料定義域空間(domain space)通常會非常龐大。 * 可用性:由於差分隱私是屬於將雜訊注入資料或是演算法來獲取資料隱私的方法,最後運算結果輸出(如單行平均、神經網路預測等)總是希望雜訊可以互相抵銷來獲得準確的運算結果。因此一個經驗法則是在給定固定的隱私保證之下,希望要被保護的資料集其資料筆數要能盡可能多,才可能讓雜訊較成功地互相抵銷並讓我們能獲得較好的資料可用性。另外,資料分布若過於發散則造成反效果。 ## 技術施用風險 儘管理想上差分隱私技術用於資料生成可以有很好的可用性以及隱私保護力,但在選用後實際施作上仍有些面相需要考量,例如運行程序所需要投入的軟硬體、運算資源。首先,差分隱私資料生成技術通常需要作資料預處理,先將資料集中屬性的每個值進行數值化(string to integer)和離散化,並且還要建立字典檔以使得最後產生的生成資料可以對應回原始資料集的域(domain),此程序需考慮記憶體和效能上的權衡。綜觀各種差分隱私用於資料生成的算法可以區分成參數化(parametric)與非參數化(non parametric)兩種。前者為常見的神經網路學習方法而後者則是通過統計列聯表(contingency table)做機率採樣產生資料。然而,幾乎所有的神經網路學習方法在大批次樣本學習具有較佳的效果,這意味著GPU記憶體將成為成效表現的關鍵要素;對於統計列聯表來說,資料屬性的資料定義域空間會直接受到CPU記憶體限制而使得演算法設計上得動態追蹤,並受限於作法一般無法利用GPU加速。歸咎其因,非參數化作法為避免定義域空間過大通常會切分成數個屬性組,各自進行差分隱私的列聯表生成後,再重新把這些具雜訊的分布組合成原本的資料集樣子。這期間會有上下承接之過程而存在大量分支(Branch)判斷式,因此無法像參數化訓練模型那樣輕易利用GPU加速運行。 就隱私保護強度而言,所設置的隱私預算(*ε*)標準又該如何制訂規範以及如何驗證所產生的資料確實滿足隱私預算條件,這也是個重要課題。前者建議可參考歐美國家對於資料去識別的標準,而後者就得通過一些模擬攻擊來驗測效果,例如重識別攻擊(re-identification attack)、成員推斷攻擊(membership inference attack)等。以下列出關於隱私預算大小標準的一些案例,在A Wood等人所發表的〈Differential privacy: A primer for a non-technical audience〉一文中,於《Vanderbilt Journal of Entertainment & Technology Law 21 Vand》的第236頁就有提到一些業界採用的範圍以及學者個人建議。以本文的作者來說,他們通過實驗表明ε<1才足夠安全,但對企業而言則會因為可利用度的考量而選擇較大的ε,例如Apple推出的macOS 10.12和iOS 10就使用了6<ε<14。此外,美國政府機關的人口普查局所推出的OnTheMap Employer Data更是使用了ε=8.9。 ## 開源工具與社群(7/14) :::info 本節旨在說明差分隱私之開源工具與社群,使讀者了解差分隱私之開源工具,以及推薦之原因,並能參照本節內容進行安裝與使用。 麻煩老師以表格盤點熱門、常用之開源工具,可由 Github 星星數/fork 數、下游開源專案數、被引用之論文數 、 工具維護狀況 或其他維度作為盤點依據。例如 Github 星星數前 10 名且一年內程式碼有更新之專案。 並請老師在表格之前,以文字描述其盤點開源工具之依據。 而表格包含 5 個欄位: + 工具名稱(連結至 Github 頁面) + 開發語言 + 基本文字介紹(50字內) + 優缺點/擅長解決之問題(條列式簡短說明) + 相關連結 + Quick Start 頁面(快速安裝或使用範例頁面) + 官方文件 如果老師認為表格中有其他適合呈現之欄位的話,可以再行補充。 ::: 以下表格為參考Github中,與差分隱私相關並且星星數前 10 名且一年內程式碼有更新之專案。專案的領域涵蓋差分隱私預算的累計、差分隱私模型的訓練、可利用度分析以及隱私驗證。 <div id="css-table" class="css-table"> <div class="thead"> <div class="tr"> <div class="th">工具名稱</div> <div class="th">開發語言</div> <div class="th">基本文字介紹</div> <div class="th">優缺點/擅長解決之問題</div> <div class="th">相關連結</div> </div> </div> <div class="tbody"> <div class="tr"> <div class="td">google/differential-privacy</div> <div class="td"> C++/Go/Java/Python </div> <div class="td">該套件庫包含用於計算ε或(ε, δ)差分隱私統計資訊的常見函數,例如實現拉普拉斯機制和高斯機制的所要注入的雜訊以及隱私花費的計算。</div> <div class="td"> 1.拉普拉斯機制和高斯機制之累計隱私花費計算。<br />2.多種常見統計函數之全局敏感度計算及對應雜訊生成。 </div> <div class="td"> <a href="https://github.com/google/differential-privacy" target="_blank">https://github.com/google/differential-privacy</a> </div> </div> <div class="tr"> <div class="td"> Opacus </div> <div class="td"> Python </div> <div class="td"> 該套件庫支援PyTorch在具有差分隱私的情況下進行訓練,並且對於整體運算效能影響較小。同時,套件庫也允許即時累計隱私花費的計算(常搭配DP-SGD使用)。此外,服務對象主要針對對象為機器學習的使用者。 </div> <div class="td"> 1.要轉化為差分隱私版本,僅需修改部分程式碼。<br />2.支援累計隱私花費的計算。 </div> <div class="td"> <a href="https://github.com/pytorch/opacus" target="_blank">https://github.com/pytorch/opacus</a> </div> </div> <div class="tr"> <div class="td"> Diffprivlib v0.6 </div> <div class="td"> Python </div> <div class="td"> 該套件庫支援多種差分隱私模型的訓練,包含分群法、分類器、回歸預測等,並且操作上和Scikit-learn套件庫模式一樣而好上手。 </div> <div class="td"> 1.訓練差分隱私模型。<br />2.操作方式與Scikit-learn相同。<br />3.不支援自訂義雜訊添加的方式或調整作用位置。 </div> <div class="td"> <a href="https://github.com/IBM/differential-privacy-library" target="_blank">https://github.com/IBM/differential-privacy-library</a> </div> </div> <div class="tr"> <div class="td"> ARX </div> <div class="td"> Java </div> <div class="td"> 該套件庫為針對個人隱私資訊進行匿名化的綜合開源軟體,如k匿名法、差分隱私語意模型等。同時,該套件庫還提供了匿名化資料的可用性驗證與隱私驗證的方法。 </div> <div class="td"> 1.支援多種經典匿名法對資料進行去識別化。<br />2.支援差分隱私語意模型的訓練。<br />3.匿名化資料的資料可用性分析。<br />4.匿名化資料的重識別風險分析。 </div> <div class="td"> <a href="https://github.com/arx-deidentifier/arx" target="_blank">https://github.com/arx-deidentifier/arx</a> </div> </div> <div class="tr"> <div class="td"> Gretel Synthetics </div> <div class="td"> Python </div> <div class="td"> 該套件庫支援以差分隱私實現匿名化資料的生成,所使用的模型為一般常見的LSTM、ACTGAN、DGAN。套件庫的函數可操作性很大,可以細部調整各種參數,對於差分隱私的進階使用者有很大幫助。 </div> <div class="td"> 1.支援表單式資料的差分隱私資料生成。<br />2.函數的調節參數多元。<br />3.適合對差分隱私有深入了解的用戶。 </div> <div class="td"> <a href="https://github.com/gretelai/gretel-synthetics" target="_blank">https://github.com/gretelai/gretel-synthetics</a> </div> </div> </div> </div> :::spoiler 開源工具程式碼庫(GitHub) 1. [google/differential-privacy](https://github.com/google/differential-privacy) 2. [ Opacus](https://github.com/pytorch/opacus) 3. [Diffprivlib](https://github.com/IBM/differential-privacy-library) 4. [ARX](https://github.com/arx-deidentifier/arx) 5. [OpenDP](https://github.com/opendp/opendp) ::: ## 技術施用流程(8/25) :::info 本節旨在讓讀者了解施用差分隱私技術時的步驟(How To Do)。 麻煩老師參考 [隱私強化技術施用流程](https://hackmd.io/gdtOWoq-R-ObI62H7MuUyQ) 之 **實作階段** 與 **運作階段** 之四道程序: + 建立標準作業程序 + 整備所需資源 + 實作隱私強化技術 + 經隱私保護之資料利用 並依據實做擬真情境的過程,擬定差分隱私技術之施用流程各個步驟。 具體應呈現流程圖,並以文字說明流程圖每步驟之細節。 而關於每步驟之細節,請老師參考 [CNS29100-2 標準](https://www.cnsonline.com.tw/?node=result&generalno=29100-2&locale=zh_TW) 之相關控制措施以及 [此表](https://i.imgur.com/DmNBkkE.png), 撰寫對應的內容。以 **建立標準作業程序** 為例,可對應 CNS29100-2 **編號 A.8.2.9 系列控制措施** ,該系列規定了以下措施: + A.8.2.9.1 - 去識別化作法之前置處理 + A.8.2.9.2 - 依資料型式及不同檔案格式選擇去識別化工具與作法 + ... 麻煩老師參照這些控制措施,撰寫差分隱私施用流程對應的 去識別化作法之前置處理 、 依資料型式及不同檔案格式選擇去識別化工具與作法 ....等等細節。 關於 CNS29100-2 的控制措施所在頁數整理如下,供老師參考: + A.6.3.1 :[P.39](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=41&checksum=87aa39a51c416dde16009c81b3659a0d0381a4f7) + A.6.3.2 :[P.39](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=41&checksum=87aa39a51c416dde16009c81b3659a0d0381a4f7)、[P.40](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=42&checksum=ec5b7561c2cea10024261a68cf321ae97998fc48) + A.8.2.5 :[P.46](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=48&checksum=d9e7de543001d9b8a08ad8bf39801a1829da6911) + A.8.2.7 :[P.47](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=49&checksum=caebe7e68feae8d24f85cf80ea41b00df49a29da)、[P.48](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=50&checksum=e1e6c2913dde2c8079c528b6de897ac118dfb4b2) + A.8.2.9 :[P.48](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=50&checksum=e1e6c2913dde2c8079c528b6de897ac118dfb4b2)、[P.49](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=51&checksum=4b198e8c8f91252dc5555061465b43d3174a8453) + A.8.2.11:[P.50](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=52&checksum=87272db3170ea62c8e3293caff299c91195d084a)、[P.51](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=53&checksum=ddbaef8a8f2c9edbe9f183e8387c09d752a30b64) + A.8.3.1 :[P.52](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=54&checksum=b536ddaca103c994c2b90c6cc6214c408682bde9)、[P.53](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=55&checksum=74f0e58a4c287963c99a02388a803b94addc2ab3) + A.8.3.3 :[P.54](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=56&checksum=de20d45c859cf27f0c251459aca6c57491bcef1d)、[P.55](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=57&checksum=38eaa19e454276df808d4250fe8d0406faebdee4)、[P.56](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=58&checksum=274b5f18f0950638d2fb51db38d67483bc1ab413) + A.8.4.1 :[P.56](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=58&checksum=274b5f18f0950638d2fb51db38d67483bc1ab413) + A.8.4.2 :[P.56](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=58&checksum=274b5f18f0950638d2fb51db38d67483bc1ab413) + A.8.4.3 :[P.56](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=58&checksum=274b5f18f0950638d2fb51db38d67483bc1ab413)、[P.57](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=59&checksum=8f5146804efa89b8517d440740602d17bd46159e) + A.8.4.4 :[P.57](https://www.cnsonline.com.tw/preview/GenerateImage?generalno=29100-2&version=zh_TW&pageNum=59&checksum=8f5146804efa89b8517d440740602d17bd46159e) ::: ## 規格陳述(8/04) :::info 本節旨在透過應用情境說明差分隱私之規格陳述方式,讓讀者了解如何在撰寫招標需求規範書(Request For Proposal)時提出技術需求。 麻煩老師舉差分隱私應用於 **發布資料集與統計數據** 為例,說明以下兩個方面: + 技術需求:說明欲保護的資料為何?保護資料避免被誰存取? + 驗收標準:說明如何驗收 保護力、實用性 的效能。 ::: 為說明差分隱私技術相關應用開發之相關規格,本節將就資料集與統計資訊的發布為例,探討技術需求及驗收標準兩大面向,以作為技術開發之建議。技術需求面為資料集類型與資料使用對象,驗收標準則說明差分隱私技術之參數挑選該有怎樣的保護力及資料可用性。 考慮資料集為縣市人口戶政資料,在去除直接識別個人資料之屬性後,餘下屬性包含有出生年月、婚姻狀況、居住縣市、最高學歷等間接識別個人之資訊。該資料集發布者為政府部門而資料開放對象為大眾,目的為促進社會經濟研究以增進公共利益。然而,儘管資料集已去除直接識別個人資料之屬性,但有心人士仍可能透過資料鏈結技術(privacy preserving record-linkage, PPRL)重新識別紀錄身分,故個人資料保護法第2條第1款規定所列出的這些屬性均應去識別化。於是,先前章節所介紹之差分隱私技術就很適合解決這樣的問題,但具體該以怎樣的標準將技術應用於資料生成,儼然成為關鍵任務之一。雖然人口戶政資料集的紀錄筆數不多,但社會經濟研究所關注的面相大多為統計計算或群眾行為。這些面向的計算具有分布集中特性,故使用的隱私預算(privacy budget,ε)可以介於區間[5, 20]為佳以兼顧隱私性與可用性。此一標準為參考美國國家標準暨技術研究院(National Institute of Standards and Technology, NIST)技術文章[^17]中的小節Setting the Privacy Parameter所描述,並且該文提到美國人口普查局所釋出的2020 Census redistricting data使用ε=19.61。 考慮資料集為企業部門內部資料,並且公司欲將此資料委託第三方數據分析公司進行資料解析或模型訓練以協助企業決策制定。該份資料集由於涵蓋眾多客戶個資,需要進行去識別化後才可以移交給第三方公司,以避免用戶個資直接外洩。相比於先前的例子,公司的客戶可能遍布全球且用戶的紀錄筆數也不限於單筆(如用戶網購紀錄),資料集的資料規模非常大。同樣地,根據技術文章[^17]中的描述,隱私預算的挑選可以介於區間[0, 20],視資料集規模與任務需求而訂以期兼顧隱私性與可用性。該文亦提及Apple公司所使用的差分隱私系統,基於公司欲收集的資料之人數多寡以及任務項目使得隱私預算介於[2, 16]。 ## 標準(7/21) :::info 麻煩老師參考英國 [ICO 指引](https://ico.org.uk/media/about-the-ico/consultations/4021464/chapter-5-anonymisation-pets.pdf)(P.36) 與 [皇家學會指引](https://royalsociety.org/-/media/policy/projects/privacy-enhancing-technologies/From-Privacy-to-Partnership.pdf)(P.50)表格, 以表格呈現常用或公認之技術標準,包括以下欄位: + 標準名稱(連結至官方頁面) + 標準編號 + 發布組織 + 發布日期 + 類型(標準 、 指南 或 尚未發展成標準/指南之專案 三種類型之一) + 標準說明(200 字內),盤點其規範之維度如輸入資料、架構 如果老師認為有其他適合之標準或欄位,可再行補充。 若技術太新尚無相關標準,可以文章式說明技術常見之實做默契, 即實作技術時約定成俗、被廣泛使用的實作架構、方法或設定,或是 技術社群倡議的實作 方式。 ::: | 標準名稱 | 標準編號 | 發布組織 | 類型 | 發布日期 | 標準說明 | | ------------------------------ | -------- | -------- | --- | -------- | -------- | | 隱私增強資料去識別化術語與技術分類(Privacy enhancing data de-identification terminology and classification of techniques)| ISO/IEC 20889:2018| ISO/IEC JTC 1(Information technology)與SC 27 (IT Security techniques)| 標準| 2018-11| 本標準描述了隱私增強資料去識別化技術,並根據ISO/IEC 29100準則設計資料去識別化措施,其中明確定義各種技術之分類並闡述了降低再識別風險的適應性。此標準適用於各類型、規模之組織,包括公有和民營企業、政府部門以及非盈利團體等,並且作為個人可識別資訊(PII)的管控者或代表把關者身分行事之PII管理者,得實施資料去識別化流程以達隱私增強保護目的。| | 資訊技術-安全技術-個人資訊去識別化過程管理系統-要求事項(Information technology − Security techniques − Requirements for a personal information de-identification process management system)| CNS 29100-2:2019| 經濟部標檢局| 標準| 2019-09| 本標準為國內自訂之國家標準,主要遵循我國個人資料保護法及其施行細則,並參考ISO 29100系列、ISO 27018 (資訊技術-安全技術-公用雲PII 處理者保護個人可識別資訊(PII)之作業規範)等國際標準所訂定。| ## 技術驗測方式(8/15) :::info 麻煩老師與團隊說明驗測方式,應包含以下項目之說明: 1. **驗測階段**:說明老師與團隊的驗測方式對應至 [隱私強化技術施用流程](https://hackmd.io/gdtOWoq-R-ObI62H7MuUyQ) 何種階段之 **實作階段** 或 **運作階段**? 3. **驗測目標**:說明可以檢驗什麼問題,例如算法設計缺陷、參數設定錯誤等?或可帶給技術施用者其他益處? 2. **驗測邏輯**:說明老師與團隊的驗測邏輯,界定驗測之輸入、輸出資料為何,並介紹使用之驗測工具(連結至GitHub README)與其原理。此外,還需以流程圖介紹整體架構,並介紹步驟細節與步驟存在的緣由。 4. **結果判讀**:說明老師與團隊的驗測方法,具體輸出為何? 技術施用者如何判讀結果? 5. **驗測實例**:連結至 [此頁](https://hackmd.io/HdNVBvgqSyG2-XXBxrcyWA),內容以擬真情境之實作進行驗測,敘明前述驗測邏輯及結果判讀。 ::: ::: spoiler - [驗測指標適用場景](https://hackmd.io/@pet/ryZto4Q12) - [驗測指標挑選](https://hackmd.io/@pet/HJ9jo47Jn) - [各驗測指標與其對應之開源專案](https://hackmd.io/@pet/B1gKeu3Tj) - [各開源專案與其對應之實作方法](https://hackmd.io/@pet/ryJtxd36s) - [驗測方法論](https://hackmd.io/@pet/BkrS8jdX3) ::: ## 示範性案例 #### 擬真情境案例 + [以差分隱私實現具隱私保護之科研資料共享-以糖尿病預測資料為例](https://hackmd.io/BXl8YLALRPGWmjOYCiGjyw) #### 實際案例 | 參與者 | 描述(角色、資料、流程)| 使用技術 | 開發成熟階段 | |----------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|--------------| | 美國普查局、大眾 | 美國普查局公開普查資料讓大眾使用時,透過差分隱私技術加入雜訊,兼顧隱私保護力與資料實用性。其資料包括美國不同種族人口與住房相關敏感資料。其流程會先依據地理單位由大至小計算統計數據,再依隱私洩漏風險與隱私預算 ε 值加入雜訊。 | 差分隱私之 TopDown 演算法[^18] | 正式上線 | | 韓國政府、私人企業 | 韓國統計局結合同態加密、多方安全運算與差分隱私等技術,在不暴露敏感資訊的狀況下,讓政府各部門的資料可以安全的連結與使用。此應用試辦之資料為韓國統計局登記之各企業詳細資訊,如機構名稱、公司登記號碼與行政區碼。過程中資料會在加密的狀態下進行連結與分析。 | 同態加密、多方安全運算、差分隱私 | 應用試辦 | |醫療或金融機構|醫療或金融機構結合合成資料、差分隱私、同態加密技術,確保將資料上傳至雲端或釋出時符合隱私保護要求。其資料為醫療科學研究相關資料,如年齡、疾病史、體檢資訊等,或是企業不同事業體系間共享客戶的 360 度資料。其流程會先將使用者之資料進行去識別化或加密處理,再上傳至雲端,供後續查詢、釋出或分析等應用。|合成資料、差分隱私、同態加密|應用試辦 ## 參考文獻 [^1]: Dwork, Cynthia, et al. "Calibrating noise to sensitivity in private data analysis." Theory of Cryptography: Third Theory of Cryptography Conference, TCC 2006, New York, NY, USA, March 4-7, 2006. Proceedings 3. Springer Berlin Heidelberg, 2006. [^2]: Machanavajjhala, Ashwin, et al. "Privacy: Theory meets practice on the map." 2008 IEEE 24th international conference on data engineering. IEEE, 2008. [^3]: Erlingsson, Úlfar, Vasyl Pihur, and Aleksandra Korolova. "Rappor: Randomized aggregatable privacy-preserving ordinal response." Proceedings of the 2014 ACM SIGSAC conference on computer and communications security. 2014. [^4]: Abadi, Martin, et al. "Deep learning with differential privacy." Proceedings of the 2016 ACM SIGSAC conference on computer and communications security. 2016. [^5]: [Opinion 05/2014 on Anonymisation Techniques](https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf) [^6]: [一般資料保護規則 - wikipedia](https://zh.wikipedia.org/zh-tw/%E6%AD%90%E7%9B%9F%E4%B8%80%E8%88%AC%E8%B3%87%E6%96%99%E4%BF%9D%E8%AD%B7%E8%A6%8F%E7%AF%84) [^7]: [Apple previews iOS 10, the biggest iOS release ever](https://www.apple.com/newsroom/2016/06/apple-previews-ios-10-biggest-ios-release-ever/) [^8]: [Collecting Telemetry Data Privately](https://www.microsoft.com/en-us/research/publication/collecting-telemetry-data-privately/) [^9]: [Privitar Lens](https://www.privitar.com/products/data-privacy-software/) [^10]: [OpenDP](https://opendp.org/) [^11]: Rogers, Ryan, et al. "LinkedIn's Audience Engagements API: A privacy preserving data analytics system at scale." arXiv preprint arXiv:2002.05839. 2020. [^12]: [2020 US Census](https://www.census.gov/programs-surveys/decennial-census/decade/2020/planning-management/process/disclosure-avoidance/differential-privacy.html) [^13]: [NIST Prize Challenges](https://www.nist.gov/ctl/pscr/open-innovation-prize-challenges/past-prize-challenges) [^14]: [Re-identification Attack on the 2010 Census](https://www.census.gov/data/academy/webinars/2021/disclosure-avoidance-series/simulated-reconstruction-abetted-re-identification-attack-on-the-2010-census.html) [^15]: [EU hits Amazon with record-breaking $887M GDPR fine over data misuse](https://techcrunch.com/2021/07/30/eu-hits-amazon-with-record-breaking-887m-gdpr-fine-over-data-misuse/) [^16]: [1.2 billion euro fine for Facebook as a result of EDPB binding decision](https://edpb.europa.eu/news/news/2023/12-billion-euro-fine-facebook-result-edpb-binding-decision_en) [^17]: [Differential Privacy: Future Work & Open Challenges](https://www.nist.gov/blogs/cybersecurity-insights/differential-privacy-future-work-open-challenges) [^18]: Abowd, J., Ashmead, R., Simson, G., Kifer, D., Leclerc, P., Machanavajjhala, A., & Sexton, W. (2019). Census topdown: Differentially private data, incremental schemas, and consistency with public knowledge. US Census Bureau. :::warning 以下連結為原有知識點,參考用 - [欲解問題](https://hackmd.io/@pet/SJJ7iVXy3) - [技術現況](https://hackmd.io/@pet/Hy67jNmJn) - [歷史沿革](https://hackmd.io/@pet/SJvXluh6i) - [驗測指標挑選](https://hackmd.io/@pet/HJ9jo47Jn) - 適用特性 - [資料](https://hackmd.io/@pet/SJ91ZwqG3) - [傳輸媒介](https://hackmd.io/@pet/r194Wv5f3) - [軟硬體設備](https://hackmd.io/@pet/HJIQZD5M2) - 技術適用場景 - [引入時機](https://hackmd.io/@pet/BJmiZv5Gh) - [引入時程](https://hackmd.io/@pet/SJth-PqM3) - [資料種類](https://hackmd.io/@pet/SJvgMP9fh) - [資料流/系統架構](https://hackmd.io/@pet/BJJC-DcMn) () - [資料](https://hackmd.io/@pet/SJs9EvcG2) - [傳輸媒介](https://hackmd.io/@pet/rklnEP5Gh) - [軟硬體設備](https://hackmd.io/@pet/r1OpEwqfh) ::: :::info 以下連結為原有知識點,參考用 ::: :::success 以下連結為原有知識點,參考用 ::: :::danger 以下連結為原有知識點,參考用 :::