# 期待値に関する不等式 ###### tags: `probability-theory` ## 準備 ### 凸関数 #### 下に凸な関数 凸関数とは一般には、下に凸な関数を指していう。図の緑色の曲線が関数$y=g\left(x\right)$の軌跡とする。 ![](https://hackmd.io/_uploads/HyKXY0HE2.png) この関数は任意の2点$x_1, x_2$を取ると、$0\leq t\leq 1$を満たす実数$t$に対して $$ g\left(tx_1+\left(1-t\right)x_2\right) \leq t g\left(x_1\right)+\left(1-t\right) g\left(x_2\right) $$ が成り立つ。内点の関数の値は、関数の値の等分より大きくなる。この性質を下に凸という。 下に凸な関数の、任意の点$x_0$での接線を考える。 ![](https://hackmd.io/_uploads/ryb3v0rEn.png) この接線を $h\left(x\right)=a x+b$ と置く。するとすべての点において $$ \forall x, h\left(x\right)\leq g\left(x\right) $$ が成り立つ。等号は$x=x_0$の点のみで成り立つ。 下に凸な関数は局所最小となる点を一つしか持たない。その点は大域的な最小値を与える。 #### 上に凸な関数 関数$g\left(x\right)$が上に凸の場合はすべての不等号の向きが反対になるだけで、同様の性質を持つ。 ![](https://hackmd.io/_uploads/SytZ5ASEn.png) ![](https://hackmd.io/_uploads/SJhZdAHVh.png) ## 内積と外積 $p$次元ユークリッド空間の中のベクトル同士の内積は、ベクトルを直交座標系で表現すると $$ \left<\boldsymbol{a}, \boldsymbol{b}\right> = \sum_{i=1}^p a_i b_i $$ と計算できる ![](https://hackmd.io/_uploads/S1lHQJIEh.png) 赤いベクトル$a$と青いベクトル$b$の内積は、$b$から$a$に向けておろした垂線の足$\overrightarrow{OD}$の長さと$a$の長さの積になる。 $$ \left<a, b\right> = \left\lVert a\right\rVert \left\lVert b\right\rVert \cos\theta $$ 赤いベクトル$a$と青いベクトル$b$の外積の長さは、$b$から$a$に向けておろした垂線$\overrightarrow{BD}$の長さと$a$の長さの積になり、これは$a$と$b$が作る平行四辺形の面積に一致する。またこれは、$b$を原点の周りに$\pi/2$だけ回転したベクトル$b^{\prime}$と、$a$を原点の周りに$\pi$だけ回転したベクトル$a^{\prime\prime}$との内積に等しい。 ## Jensenの不等式 下に凸な関数$g\left(x\right)$について $$ g\left(E\left[X\right]\right)\leq E\left[g\left(X\right)\right] $$ が成り立つ。 $X$を確率変数、$g\left(x\right)$を$X$の標本空間上で下に凸な関数とする。$g\left(x\right)$に対して、$x=E\left[X\right]$において接する直線$h\left(x\right)$を考える。$g$が下に凸なので、この直線の切片$a$と傾き$b$は $$ h\left(E\left[X\right]\right) = aE\left[X\right]+b = g\left(E\left[X\right]\right) $$ および $$ \forall x\in \mathscr{X}, g\left(x\right) \geq ax+b $$ を満たすように定めることができる。 $X$の期待値が有限なとき、$g\left(X\right)\geq h\left(X\right)$より $$ \begin{align} E\left[g\left(X\right)\right] \geq E\left[h\left(X\right)\right] \end{align} $$ が成り立つ。さらに右辺は $$ \begin{align} E\left[h\left(X\right)\right] & = E\left[aX+b\right] \notag \\ & = aE\left[X\right] +b \notag \\ & = h\left(E\left[X\right]\right) \notag \\ & = g\left(E\left[X\right]\right) \end{align} $$ なので、最初の不等式が示される。この不等式が成り立つための十分条件は$E\left[X\right]$が有限なことである。 なお、上に凸な関数$g\left(x\right)$については $$ g\left(E\left[X\right]\right)\geq E\left[g\left(X\right)\right] $$ が成り立つ。 ### 例1 Jensenの不等式において、$h\left(x\right)=\left|x\right|$と置くと、 $$ \left|E\left[X\right]\right|\leq E\left[\left|X\right|\right] $$ を得る。また、$h\left(x\right)=x^2$と置くと $$ \left\{E\left[X\right]\right\}^2 \leq E\left[X^2\right] $$ さらに両辺の平方根を求めて、 $$ \left|E\left[X\right]\right| \leq \sqrt{E\left[X^2\right]} $$ を得る。以上から $$ \left|E\left[X\right]\right| \leq \min \left\{E\left[\left|X\right|\right], \sqrt{E\left[X^2\right]}\right\} $$ となる。 ところで、Jensenの不等式からではないが $$ E\left[\left|X\right|\right]\leq E\left[X^2\right] + 1 $$ が示せる。これも合わせると、 $$ \left|E\left[X\right]\right|\leq E\left[\left|X\right|\right]\leq E\left[X^2\right] + 1 $$ となる。 絶対値の期待値についての不等式は、$-1\leq x\leq 1$の範囲で$\left|x\right|$が$1$より小さいことと、それ以外の範囲では$\left|x\right|\leq x^2$となることを用いて、次のように示される。 $$ \begin{align} E\left[\left|X\right|\right] & = \int_{-\infty}^{\infty} \left|x\right| f\left(x\right)dx \notag \\ & = \int_{-\infty}^{-1} \left|x\right| f\left(x\right)dx + \int_{-1}^{-1} \left|x\right| f\left(x\right)dx + \int_{1}^{\infty} \left|x\right| f\left(x\right)dx \notag \\ & \leq \int_{-\infty}^{-1} \left|x\right|^2 f\left(x\right)dx + \int_{-1}^{-1} \left|x\right| f\left(x\right)dx + \int_{1}^{\infty} \left|x\right|^2 f\left(x\right)dx \notag \\ & = \int_{-\infty}^{-1} x^2 f\left(x\right)dx + \int_{-1}^{1} \left|x\right| f\left(x\right)dx + \int_{1}^{\infty} x^2 f\left(x\right)dx \notag \\ & \leq \int_{-\infty}^{-1} x^2 f\left(x\right)dx + \int_{-1}^{1} f\left(x\right)dx + \int_{1}^{\infty} x^2 f\left(x\right)dx \notag \\ & \leq \int_{-\infty}^{\infty} x^2 f\left(x\right)dx + \int_{-1}^{1} f\left(x\right)dx \notag \\ & \leq \int_{-\infty}^{\infty} x^2 f\left(x\right)dx + \int_{-\infty}^{\infty} f\left(x\right)dx \notag \\ & = E\left[X^2\right] + 1 \end{align} $$ 不等式に等号が含まれてはいるが、左辺に対して右辺で $$ \int_{-\infty}^{-1} \left(x^2-\left|x\right|+1\right)f\left(x\right)dx+\int_{-1}^{1} \left(1-\left|x\right|+x^2\right) f\left(x\right)dx + \int_{1}^{\infty} \left(x^2-\left|x\right|+1\right)f\left(x\right)dx $$ だけ加えているので、これら3項のすべてが$0$でなければ等号は成立しない。 ### 例2 算術平均と幾何平均と調和平均の大小関係 (その1) 三つの期待値を \begin{align} m_S &= E\left[X\right] \notag \\ m_M &= \exp E\left[\log X\right] \notag \\ m_I &= \frac{1}{\displaystyle E\left[\frac{1}{X}\right]} \notag \end{align} と定める。これらの大小関係を考える。 $$ E\left[\log X\right]\leq \log E\left[X\right] $$ より、 $$ m_M = \exp E\left[\log X\right] \leq E\left[X\right] = m_S $$ を得る。また $$ E\left[\log\left(\frac{1}{X}\right)\right]\leq\log E\left[\frac{1}{X}\right] $$ より、 $$ \frac{1}{m_M}=\exp\left\{-E\left[\log X\right]\right\}=\exp\left\{E\left[\log\left(\frac{1}{X}\right)\right]\right\}\leq E\left[\frac{1}{X}\right]=\frac{1}{m_I} $$ すなわち $$ m_I\leq m_M $$ を得る。 以上から $$ m_I\leq m_M\leq m_S $$ を得る。 ### 例3 算術平均と幾何平均と調和平均の大小関係 (その2) $X$を確率$1/n$で$n$個の点$x_1, \ldots, x_n$のいずれかを取る確率変数とする。すると上の3つの量はそれぞれ $$ \begin{align} m_S &= \frac{1}{n}\left(x_1+x_2+\cdots+x_n\right) \notag \\ m_M &= \left(x_1\times x_2\times\cdots \times x_n\right)^{1/n} \notag \\ m_I &= \frac{1}{\displaystyle \frac{1}{n}\left(\frac{1}{x_1}+\frac{1}{x_2}+\cdots+\frac{1}{x_n}\right)} \notag \end{align} $$ のように標本平均、幾何平均、調和平均となる。これらの大小関係は例2と同じく $$ m_I\leq m_M \leq m_S $$ となる。 ## Cauchy-Schwarzの不等式 内積空間の中の任意の2点について $$ \left|\left<a,b\right>\right|\leq \left\lVert a\right\rVert\left\lVert b\right\rVert $$ が成り立つ。ただしノルム$\lVert\cdot\rVert$は、内積から導かれる$\lVert{a}\rVert=\sqrt{\left<a,a\right>}$とする。 これがCauchy-Shwartzの不等式である。これは一般の内積空間で成り立つ。 * $\mathscr{R}^2$と$\left<\boldsymbol{a}, \boldsymbol{b}\right>=a_1b_1+a_2b_2$の場合、$$ \left|a_1b_1+a_2b_2\right|\leq\sqrt{a_1^2+a_2^2}\sqrt{b_1^2+b_2^2} $$ * $L^2$と$\left<f,g\right>=\int_x f\left(x\right)g\left(x\right)dx$の場合、$$ \left|\int_x f\left(x\right)g\left(x\right)dx\right|\leq \sqrt{\int_x f\left(x\right)^2 dx}\sqrt{\int_x g\left(x\right)^2dx} $$ * 確率変数の空間の内積を$E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right]$の場合、$$Cov\left(X, Y\right) = \sqrt{V\left(X\right)V\left(Y\right)}$$ 2つの互いに直交しない要素$a, b$を考える。$b$から$a$に向けて降ろした垂線の足は $$ \frac{\left<a,b\right>}{\left\lVert a \right\rVert}a $$ となる。垂線を$c$と置くと、 $$ c = b - \frac{\left<a,b\right>}{\left\lVert a \right\rVert^2}a $$ であり、点のノルムは$0$以上となる。この関係から $$ \begin{align} \left\lVert c \right\rVert ^2 & = \left<b - \frac{\left<a,b\right>}{\left\lVert a \right\rVert^2}a, b - \frac{\left<a,b\right>}{\left\lVert a \right\rVert^2}a\right> \notag \\ & = \left<b,b\right> - 2 \frac{\left<a,b\right>}{\left\lVert a \right\rVert^2} \left<a, b\right> + \frac{\left<a,b\right>^2}{\left\lVert a \right\rVert^4} \left<a, a\right> \notag \\ & = \left\lVert{b}\right\rVert^2 - \frac{\left<a,b\right>^2}{\left\lVert a \right\rVert^2} \notag \\ & \geq 0 \end{align} $$ を得る。よって $$ \left<a,b\right>^2 \leq \left\lVert a \right\rVert^2\left\lVert{b}\right\rVert^2 \notag $$ すなわち $$ \left<a,b\right> \leq \sqrt{\left\lVert a \right\rVert^2}\sqrt{\left\lVert{b}\right\rVert^2} \notag $$ を得る。等式は$a$と$b$が$b=ka$と平行な関係にある場合に成り立つ。 ### 例3 相関係数 任意の2つの確率変数の相関係数は$-1$と$1$の間の値を取る。 $$ -1\leq \rho\left(X, Y\right)\leq 1 $$ これは上の不等式と、相関係数の定義 $$ \rho\left(X, Y\right) = \frac{Cov\left(X, Y\right)}{\sqrt{V\left(X\right)V\left(Y\right)}} $$ から明らか。 別の証明として、$X+aY$の分散を考える方法もある。 $$ \begin{align} V\left(X+aY\right) &= E\left[\left(X+aY-E\left[X+aY\right]\right)^2\right] \notag \\ &= E\left[\left(X-E\left[X\right]+a\left(Y-E\left[Y\right]\right)\right)^2\right] \notag \\ &= V\left(X\right)+a^2 V\left(Y\right) - 2a E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right] \notag \end{align} $$ 最後の式を平方完成させると更に $$ \begin{align} V\left(X+aY\right) &= V\left(Y\right)\left(a^2-2a\frac{Cov\left(X, Y\right)}{V\left(Y\right)}\right)+V\left(X\right) \notag \\ &= V\left(Y\right)\left(a-\frac{Cov\left(X, Y\right)}{V\left(Y\right)}\right)^2 + V\left(X\right)-\frac{Cov\left(X, Y\right)^2}{V\left(Y\right)} \end{align} $$ となる。もともと分散$V\left(X+aY\right)$は非負であり、初項は必ず非負なので、この第2項と第3項から $$ V\left(X\right)-\frac{Cov\left(X, Y\right)^2}{V\left(Y\right)} \geq 0 $$ が導かれる。これを整理して $$ \frac{Cov\left(X, Y\right)^2}{V\left(X\right)V\left(Y\right)} \leq 1 $$ を得る。 ### 例4 標本相関係数 Cauchy-Schwarzの不等式 $$ \left|\sum_{i=1}^n \left(x_i-\overline{x}_n\right)\left(y_i-\overline{y}_n\right)\right| \leq \sqrt{\sum_{i=1}^n \left(x_i-\overline{x}_n\right)^2}\sqrt{\sum_{i=1}^n \left(y_i-\overline{y}_n\right)} $$ より、 $$ \frac{\left|\frac{1}{n}\sum_{i=1}^n \left(x_i-\overline{x}_n\right)\left(y_i-\overline{y}_n\right)\right|}{\sqrt{\frac{1}{n}\sum_{i=1}^n \left(x_i-\overline{x}_n\right)^2}\sqrt{\frac{1}{n}\sum_{i=1}^n \left(y_i-\overline{y}_n\right)}} \leq 1 $$ ## 参考 * [GeoGebra](https://www.geogebra.org/graphing?lang=ja)