--- lang: ja-jp tags: Survey --- # データ解析におけるプライバシー保護 ## Chapter 6 $x$を秘密の入力(情報)とし,何らかの集計・問い合わせの演算$f$の結果$y=f\left(x\right)$を公開した場合を考える.攻撃者が$y$を得た時に$x$が**どの程度推測されるか**について考えるためのフレームワークとして**攻撃者モデル**を導入する. 攻撃者が推測を行う際の情報として,たいてい以下の3つを考慮する: - 利用可能な計算資源 - 併せて利用できる背景情報(「名寄せ」など照らし合わせることで推測できる) - アルゴリズム ### $f$の秘匿性 英論文では**sensitivity**と呼ばれている概念のこと. 攻撃者モデルにおいて,攻撃者が推測のために利用する様々なリソースに対して,どれほど秘密の情報$x$を$y=f\left(x\right)$から推測しづらいかを表現する言葉と考えられる. 扱う問題設定に応じて秘匿性の定義は異なるものを取る. #### 差分プライバシーの場合 > 個人属性データを集めた**統計データベース**$x$を入力に取り,統計解析の結果$f\left(x\right)$を出力する問題を扱います.(中略)統計的クエリの秘匿性は,統計量$f\left(x\right)$から,個人属性データ$x$に含まれる値をどれだけ推定できるかによって評価されます. $x$はデータベースであることに注意する. ### 識別不可能性(indistinguishability) $f$が確率的アルゴリズムであった時の場合. > $f$の秘匿性は**識別不可能性**と呼ばれる概念によって特徴づけられます.(中略)識別不可能性とは,2つの異なる値$x\neq x^{\prime}$を入力とする$f$の出力の確率分布$f\left(x\right)$,$f\left(x\right)$を見分けることの困難さを定義します. 例えば差分プライバシーを扱う場合には,統計的クエリは確率分布に従ってその結果が得られるものと解釈できる.データベース$x$と,$x$の1つのレコードのみが異なる$x^{\prime}$という2つのデータベースを考えた時に,そのクエリの結果が従う確率分布が十分に似ていれば識別不可能性が高い言える. ## Chapter 8 差分プライバシーのメカニズム ### Laplace Mechanism ラプラス分布は次のような確率密度関数(平均値$\mu$については省略). $$ \text{Lap}\left(x;R\right) = \frac{1}{2R}\exp\left(-\frac{|x|}{R}\right) $$ #### アルゴリズム - **入力**: - データベース $D$ - プライバシーパラメータ $\epsilon$ - クエリの敏感度 $\Delta_{1, q}$ - **出力**: $y$ 1. $R = \frac{\Delta_{1,q}}{\epsilon}$ 2. $r \sim \text{Lap}\left(R\right)$ 3. $y = q\left(D\right) + r$ #### 正確性の評価 - $y=m_{\text{Lap}}\left(D, q\right)$とする(メカニズムの応答値). - $\delta \in (0, 1]$:任意の引数 とする時,ラプラスメカニズムによるクエリの応答値は次のような正確性を持つ(定理). $$ \text{Pr}\left( \|y-q\left(D\right)\|_{1} \gt \frac{\Delta_{1,q}}{\epsilon} \ln \frac{1}{\delta} \right) \leq \delta $$ ##### 意味するところ ![](https://i.imgur.com/LzJO9sp.png) $\ln \frac{1}{\delta}$は上のグラフのように$(0, 1]$区間で単調に減少する. つまり,確率変数となっている不等式部分の右辺について,この値が大きい時$\delta$の値は小さいことがわかる. 上の定理が意味するところは,ラプラスメカニズムによるクエリの応答値と実際値の誤差は大きくなるほどその大きさの誤差が生まれる確率は低くなり,かつその確率は$\delta$で1対1に結びつけることができるということ. ##### 具体例 平均値のクエリについて,その$l_{1}\text{-sensitivity}$は$\frac{1}{n}$で与えられる.したがってラプラスメカニズムの定理より応答値と実際値の誤差が$\frac{1}{\epsilon n}\ln\frac{1}{\delta}$以内に収まる確率は高々$\delta$以内であると主張できる. $n=1000$,$\epsilon=0.001$である場合を考えると,誤差:$\ln\frac{1}{\delta}$が確率:$\delta$に結びつく.グラフより,誤差が$1$よりも大きくなる確率は$0.38$程度に抑え込めるということ.逆を考えれば,誤差が$1$以内に抑え込める確率が$0.62$ほどであるということ. ==実装を考えれば,どれほどの誤差を許容できるかの設定を行い,それに対応する$\delta$の値が大きい時には警告を出すことが必要になりそう== ## Chapter 9 差分プライバシーと機械学習 **扱う問題設定** > 機械学習は多数の事例から統計的モデルを構築し,そのモデルを用いて将来の事例について予測を与える枠組みです.個人のデータから学習されたモデルを外部公開したときに,そのモデルから個人のデータが推定されるリスクはどの程度あるでしょうか?(中略)訓練事例を個人データ,統計モデルを統計量と捉えれば,機械学習による統計モデリングも差分プライバシーの枠組みで安全性を保証することができます. ### 統計的機械学習 | 式 | 説明 | |:---|:----| | n | 訓練事例に含まれる事例数 | | $J_{\text{emp}\left(\mathbf{w}, D\right)}$ | 経験損失 | | $J_{\text{reg}\left(\mathbf{w}, D\right)}$ | 正則化経験損失 | | $\text{Reg}\left(\mathbf{w}\right)$ | 経験損失に対する正則化項 | | $\lambda$ | 正則化パラメータ | | $l_{\text{sq}}\left(\mathbf{w}, D\right)$ | Sum of Squared Errors (残差平方和)| #### 正則化経験損失 $$ J_{\text{reg}\left(\mathbf{w}, D\right)} = \frac{1}{n}\sum_{\left(\mathbf{x},y\right)\in D}l\left(y, \mathbf{w}^{T}\mathbf{x}\right) + \frac{\lambda}{n}\text{Reg}\left(\mathbf{w}\right) $$ ## memo 株式会社MはCICから得られる個人の異動情報が,自社が提供する金融サービスの延滞の有無に及ぼす影響について調査したい. Gさんは自身の異動情報と滞納履歴についてM社に同意の上で提供. Gさんは異動履歴があり,かつ過去に延滞した記録があるとする時,M社が「異動履歴がある者は延滞の可能性が統計的有意に高い」と発表することは,Gさんのプライバシーを侵害しているといえるか? ## Appendix - あるクラスのデータベースの定義域: $\mathcal{D}$ - 具体的なデータベース: $D, D^{\prime} \in \mathcal{D}$ - 2つのデータベース間で異なるレコード数: $d\left(D, D^{\prime}\right)$ - データベースに対する問合せの定義域: $\mathcal{Q}$ - 具体的なクエリ集合: $Q \in \mathcal{Q}$ - ある一つのクエリ: $q \in Q$ - データベースへの問合せの結果の定義域: $\mathcal{Y}$ - データベース$D$で実行可能なクエリ集合$Q$の結果の値域: $S \subseteq \mathcal{Y}$ - - - - メカニズム: $m\left( q, D \right)$ - 定義: $m: \mathcal{D} \times \mathcal{Q} \rightarrow \mathcal{Y}$ - あるクエリ$q \in Q$をデータベース$D$に投げた出力を生み出す『仕掛け』 - クエリとデータベースを引数に取り,結果を出力する関数を返す - デザインパターンでいう**Decorator**のようなもの ```python= def Mechanism( Q: Query, D: Database ) -> Callable[[Query, Database], Result]: >>> m = Mechanism('集計演算', '関係データベース') >>> m('平均値の式', 'M社の給料') '800万ペリカ' ``` - - - データベース$D$について,$d\left(D, D^{\prime}\right) = 1$なる任意のデータベース$D^{\prime}$に対するクエリ$q \in Q$から得られる出力が以下の関係を満たす時,**メカニズム$m$は$\epsilon$-差分プライバシーを満たす**と表現する. $$ \frac{\text{Pr}\left(m\left(q, D\right)\right)}{\text{Pr}\left(m\left(q, D^{\prime}\right)\right)} \leq \exp\left(\epsilon\right) \approx 1 + \epsilon $$ ### L1 Sensitivity $$ \Delta_{1, q} = \max_{D\sim D^{\prime}} \|q\left(D\right) - q\left(D^{\prime}\right)\|_{1} $$