811 views
## Ridge関数を用いた積分表現 関数 $f:\mathbb{R}^m→ \mathbb{R}$が,あるベクトル$a \in \mathbb{R}^m$と実数$b \in \mathbb{R}$,そして適当な関数$g:\mathbb{R}→\mathbb{R}$を用いて \begin{align} f(x)=g(a \cdot x - b) \tag{1} \end{align} という形に書ける関数を,Ridge関数と言います. Ridge関数は,$\mathbb{R}^m$で特定の方向を向いた超平面上で同じ値を取ります. これはニューラルネットにおけるニューロンの入出力関係,すなわちニューロンの加重和およびシグモイド活性化関数は,式(1)で与えられるRidge関数のクラスに属していると言えます($g$はシグモイド関数と考えてもok).この時,$g$が$\mathbb{R}$上で可積分あっても,$m \geq 2$ならば,$f$は可積分ではないことに注意する必要があります. 以下に,Ridge関数の線形結合を用いて特定の関数$f$を近似する方法について書いていきます. 関数$f:\mathbb{R}^m→\mathbb{R}$が$L^1(\mathbb{R}^m) \cap L^p(\mathbb{R}^m)$ $(1\leq p \lt \infty)$に属しているか,$f$が有界かつ一様に連続していると仮定します.2つの関数$\phi_d,\phi_c \in L^1(\mathbb{R}) \cap L^2(\mathbb{R})$が有界となるとき,以下の条件を満たします. \begin{align} \overline{ \hat{\phi}_d(-\omega) } \hat{\phi}_c(-\omega)=\overline{ \hat{\phi}_d(\omega) } \hat{\phi}_c(\omega) \tag{2} \end{align} \begin{align} \int_0^{\infty} \frac{\vert \overline{ \hat{\phi}_d(\omega) } \hat{\phi}_c(\omega) \vert}{\omega^m}d\omega \lt \infty \tag{3} \end{align} \begin{align} \int_0^{\infty} \frac{\vert \overline{ \hat{\phi}_d(\omega) } \hat{\phi}_c(\omega) \vert}{\omega^m}d\omega \neq 0 \tag{4} \end{align} この時,$\hat{\cdot}$はフーリエ変換で,$\overline{\cdot}$は複素共役を表します.添字$d,c$は分解(decompose)と構成(compose)カーネルを意味します. ここで,$C_{\phi_d,\phi_c}$を次のように定義します. \begin{align} C_{\phi_d,\phi_c}= \int_{\mathbb{R}} \frac{\vert \overline{ \hat{\phi}_d(\omega) } \hat{\phi}_c(\omega) \vert}{\vert \omega \vert^m}d\omega \left(=2\int_0^{\infty} \frac{\vert \overline{ \hat{\phi}_d(\omega) } \hat{\phi}_c(\omega) \vert}{\omega^m}d\omega \right) \tag{5} \end{align} カーネル$\phi_d$,$\phi_c$に対する関数$f$の変換$T$は,以下の式によって定義されます. \begin{align} T(a,b)=\frac{1}{(2\pi)^mC_{\phi_d,\phi_c}} \int_{\mathbb{R}^m} \overline{\phi_d (a \cdot x - b)}f(x)dx \tag{6} \end{align} そして,式(6)で与えられた変換$T$を用いると,関数$f$に以下の反転公式が成り立ちます. \begin{align} f(x)=\lim_{\varepsilon→0} \int_{\mathbb{R}^{m+1}} T(a,b) \phi_c(a \cdot x - b) e^{-\varepsilon \vert a \vert^2}dadb \tag{7} \end{align} もし$f\in L^1(\mathbb{R}^m) \cap L^p(\mathbb{R}^m)$ $(1\leq p \lt \infty)$の場合,式(7)の$f(x)$は$L^p$ノルムの意味に収束し,$f \in L^1(\mathbb{R}^m)$が有界で一様に連続する場合,$L^{\infty}$ノルムの意味で収束します. $T(a,b)$は有界かつ$\phi_c \in L^1(\mathbb{R})$ですが,式(7)から極限を取り除いた式 \begin{align} f(x)= \int_{\mathbb{R}^{m+1}} T(a,b) \phi_c(a \cdot x - b)dadb \tag{8} \end{align} は収束するとは限りません.したがって,式(7)における積分は,収束因子$e^{-\varepsilon\vert a \vert^2}$によって保証されます. (8)式はRidge関数による近似の普遍性を意味します.つまり,任意の関数$f(x)$は,ニューラルネットにおける重みと閾値に対応するパラメータ$a,b$を持つRidge関数をたくさん足し合わせれば近似することを示しています.