DP View === ###### tags: `differential privacy` ## Code S1 367~377 [argparse](https://docs.python.org/zh-tw/3/howto/argparse.html) 1. float_precision=“round_trip”, 所有資料當作string讀取,解決小數位過長 1. low_memory=False,pandas在讀csv的时候就不分块读了,而是直接将文件全部读取到内存里面,这样只需要对整体进行一次判断,就能得到每一列的类型。 S2 378~398 S3 399~443 S4 444~613 S5 617~628 --- ## DP View http://35.188.140.151/zh-hant/home/ 帳號:asd 密碼:1qazxcvb 1. 就是用上面系統可是試用看看, 基本上input data沒有限制 2. S4的概念基本上就是假設count table在加完雜訊之後有些變成負值這明顯不對(count一定大於等於0)或是非整數, 則加以校正 3. S3程式目前沒有特別print出來或是save成獨立檔案 --- ## 差分隱私的背景 20 世紀90 年代,美國馬薩諸塞州發生了著名的隱私洩露事件。該州集團保險委員會(GIC)發布了“經過匿名化處理的”醫療資料,用於公共醫學研究。在資料發布之前,為了防止隱私洩露問題,特地刪除了資料中所有的個人敏感訊息,例如身份證號、姓名、住址。然而在1997 年,卡內基梅隆大學的博士Latanya Sweeney將匿名化的GIC資料庫(包含了每位患者生日、性別、地址)與選民登記記錄相連後,成功破解了這份匿名資料,並找到了當時的馬薩諸塞州州長William Weld的醫療記錄。 30年後,在2018年又發生了多起隱私資料洩露事件。 Facebook用戶隱私資料洩露被罰款16億美元,圓通10億快遞訊息洩露,萬豪酒店5億用戶開房資訊洩露,華住酒店5億條用戶資料疑似洩露,國泰航空940萬乘客資料等等,隱私洩露問題層出不窮,隱私保護當是重中之重。 ## 隱私保護的目的 我們希望,資料使用隱私保護技術後,可以安全發布,攻擊者難以去匿名化,同時又最大限度的保留原始資料的整體訊息,保持其研究價值。當前的研究重點主要在兩個方面: 隱私保護技術能提供何種強度的保護,能夠抵禦何種強度的攻擊; 如何在保護隱私的同時,最大限度地保留原資料中的有用訊息。 ## 如何實現差分隱私 那具體怎麼實現呢?一個很自然而然的想法是“加雜訊”。差分隱私可以通過加適量的干擾雜訊來實現,目前常用的添加雜訊的機制有**拉普拉斯機制**和**指數機制**。其中拉普拉斯機制用於保護數值型的結果,指數機制用於保護離散型的結果。 那什麼叫適量的雜訊,多少才是合適的,如何衡量呢?加入雜訊的量和資料集是有關係的,年齡資料集的數據間差異就沒有薪水資料集的數據差異大,要添加的雜訊的量就不一致。敏感度是決定該加多少雜訊的重要因素。 ## 常態分布  常態分佈,又名高斯分布(英語:Gaussian distribution)、正規分布,是一個非常常見的連續機率分布。常態分布在統計學上十分重要,經常用在自然和社會科學來代表一個不明的隨機變數。 常態分布的數學期望值或期望值等於位置母數,決定了分布的位置;其變異數的平方或標準差等於尺度母數,決定了分布的幅度。 ## 拉普拉斯分布  拉普拉斯分布 (Laplace distribution) 是以皮耶-西蒙·拉普拉斯的名字命名的一種連續機率分布。 拉普拉斯分佈的密度函數,可以看作是兩個指數分佈函數的概率密度“背靠背”拼接在一起。 (事實上拉普拉斯分佈與指數分佈確實有很密切的關係) 拉普拉斯分布的機率密度函數讓我們聯想到常態分布,但是常態分布是用相對於 μ 平均值的差的平方來表示,而拉普拉斯機率密度用相對於平均值的差的絕對值來表示。因此,拉普拉斯分布的尾部比常態分布更加平坦。 ### SciPy&Numpy 透過[SciPy](https://scipy.org/)我們可以使用裡面的scipy.stats.laplace()。 而安裝前亦要安裝[Numpy](https://numpy.org/)這個套件,以上兩個套件比較偏向資料科學,畢竟分布本來就屬於機率與統計的範疇。 [安裝](http://yhhuang1966.blogspot.com/2020/04/python-scipy.html)完按照[這裡](https://www.geeksforgeeks.org/python-laplace-distribution-in-statistics/?ref=lbp)可以做出一些簡單的拉普拉斯分布。 ### Matplotlib 若是安裝[Matplotlib](https://matplotlib.org/)則可以畫出一些函數,雖然最後成功裝好了但我在安裝過程遇到一些版本問題,若是之後有要安裝可能要注意一下。 若之後有要繼續深入研究可以參考SciPy的[官方文件](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.laplace.html)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up