# 2.5 ノンパラメトリック法 ## ヒストグラム密度推定法 - xをある幅の区間に区切って、i番目の区間に入ったxの観測地の数を数える - $p { i } = \frac { n { i } } { N \Delta _ { i } }$ ### 利点と欠点 - 利点:ヒストグラムさえ求めればデータが破棄できるから、データが大規模な時には便利 - 欠点:こんにちは次元の呪い ### ポイント - 近傍にある他のデータ点を考慮する必要がある(不連続性が発生するため) - 区間の幅=平滑化パラメータ - パラメータは大きすぎても小さすぎてもいけない ## カーネル密度推定法と最近傍法 - 次元の増加に対応できる2つのノンパラメトリック手法の代表例 -- カーネル密度推定法 -- 最近傍法 - $p(\mathbf{x})=\frac{K}{NV}$ ### カーネル密度推定法 - Parzen推定法とも呼ばれる - データxを含む領域Rの体積Vを固定し、R内に含まれているデータ数Kを推定するカーネル推定法 - R内のデータ数Kを数えるための関数=カーネル関数(Parzen窓とも) -- 例1 1辺をhとした立方体 -- 例2 ガウスカーネル - 問題:カーネル幅を決めるパラメータhがすべてのカーネルで一定 -- 密度が高い領域だとhが大きいと困るし、低い領域だと小さくて困る… -- データ空間内の位置に応じてhを変えたい… -- Let's go 最近傍法 ### 最近傍法 - R内に含まれているデータ数Kを固定して、体積Vを推定するK近傍法 - K近傍法 - **クラス分類問題への拡張が可能** ### 利点と欠点 - 利点:次元が増えてもOK - 欠点:データ集合が大きいと計算量も膨大 -- 探索用の木構造を構築すると良い