# 期待値に関する不等式
###### tags: `probability-theory`
## 準備
### 凸関数
#### 下に凸な関数
凸関数とは一般には、下に凸な関数を指していう。図の緑色の曲線が関数$y=g\left(x\right)$の軌跡とする。

この関数は任意の2点$x_1, x_2$を取ると、$0\leq t\leq 1$を満たす実数$t$に対して
$$
g\left(tx_1+\left(1-t\right)x_2\right) \leq t g\left(x_1\right)+\left(1-t\right) g\left(x_2\right)
$$
が成り立つ。内点の関数の値は、関数の値の等分より大きくなる。この性質を下に凸という。
下に凸な関数の、任意の点$x_0$での接線を考える。

この接線を $h\left(x\right)=a x+b$ と置く。するとすべての点において
$$
\forall x, h\left(x\right)\leq g\left(x\right)
$$
が成り立つ。等号は$x=x_0$の点のみで成り立つ。
下に凸な関数は局所最小となる点を一つしか持たない。その点は大域的な最小値を与える。
#### 上に凸な関数
関数$g\left(x\right)$が上に凸の場合はすべての不等号の向きが反対になるだけで、同様の性質を持つ。


## 内積と外積
$p$次元ユークリッド空間の中のベクトル同士の内積は、ベクトルを直交座標系で表現すると
$$
\left<\boldsymbol{a}, \boldsymbol{b}\right> = \sum_{i=1}^p a_i b_i
$$
と計算できる

赤いベクトル$a$と青いベクトル$b$の内積は、$b$から$a$に向けておろした垂線の足$\overrightarrow{OD}$の長さと$a$の長さの積になる。
$$
\left<a, b\right> = \left\lVert a\right\rVert \left\lVert b\right\rVert \cos\theta
$$
赤いベクトル$a$と青いベクトル$b$の外積の長さは、$b$から$a$に向けておろした垂線$\overrightarrow{BD}$の長さと$a$の長さの積になり、これは$a$と$b$が作る平行四辺形の面積に一致する。またこれは、$b$を原点の周りに$\pi/2$だけ回転したベクトル$b^{\prime}$と、$a$を原点の周りに$\pi$だけ回転したベクトル$a^{\prime\prime}$との内積に等しい。
## Jensenの不等式
下に凸な関数$g\left(x\right)$について
$$
g\left(E\left[X\right]\right)\leq E\left[g\left(X\right)\right]
$$
が成り立つ。
$X$を確率変数、$g\left(x\right)$を$X$の標本空間上で下に凸な関数とする。$g\left(x\right)$に対して、$x=E\left[X\right]$において接する直線$h\left(x\right)$を考える。$g$が下に凸なので、この直線の切片$a$と傾き$b$は
$$
h\left(E\left[X\right]\right) = aE\left[X\right]+b = g\left(E\left[X\right]\right)
$$
および
$$
\forall x\in \mathscr{X}, g\left(x\right) \geq ax+b
$$
を満たすように定めることができる。
$X$の期待値が有限なとき、$g\left(X\right)\geq h\left(X\right)$より
$$
\begin{align}
E\left[g\left(X\right)\right] \geq E\left[h\left(X\right)\right]
\end{align}
$$
が成り立つ。さらに右辺は
$$
\begin{align}
E\left[h\left(X\right)\right]
& = E\left[aX+b\right] \notag \\
& = aE\left[X\right] +b \notag \\
& = h\left(E\left[X\right]\right) \notag \\
& = g\left(E\left[X\right]\right)
\end{align}
$$
なので、最初の不等式が示される。この不等式が成り立つための十分条件は$E\left[X\right]$が有限なことである。
なお、上に凸な関数$g\left(x\right)$については
$$
g\left(E\left[X\right]\right)\geq E\left[g\left(X\right)\right]
$$
が成り立つ。
### 例1
Jensenの不等式において、$h\left(x\right)=\left|x\right|$と置くと、
$$
\left|E\left[X\right]\right|\leq E\left[\left|X\right|\right]
$$
を得る。また、$h\left(x\right)=x^2$と置くと
$$
\left\{E\left[X\right]\right\}^2 \leq E\left[X^2\right]
$$
さらに両辺の平方根を求めて、
$$
\left|E\left[X\right]\right| \leq \sqrt{E\left[X^2\right]}
$$
を得る。以上から
$$
\left|E\left[X\right]\right| \leq \min \left\{E\left[\left|X\right|\right], \sqrt{E\left[X^2\right]}\right\}
$$
となる。
ところで、Jensenの不等式からではないが
$$
E\left[\left|X\right|\right]\leq E\left[X^2\right] + 1
$$
が示せる。これも合わせると、
$$
\left|E\left[X\right]\right|\leq E\left[\left|X\right|\right]\leq E\left[X^2\right] + 1
$$
となる。
絶対値の期待値についての不等式は、$-1\leq x\leq 1$の範囲で$\left|x\right|$が$1$より小さいことと、それ以外の範囲では$\left|x\right|\leq x^2$となることを用いて、次のように示される。
$$
\begin{align}
E\left[\left|X\right|\right]
& = \int_{-\infty}^{\infty} \left|x\right| f\left(x\right)dx \notag \\
& = \int_{-\infty}^{-1} \left|x\right| f\left(x\right)dx + \int_{-1}^{-1} \left|x\right| f\left(x\right)dx + \int_{1}^{\infty} \left|x\right| f\left(x\right)dx \notag \\
& \leq \int_{-\infty}^{-1} \left|x\right|^2 f\left(x\right)dx + \int_{-1}^{-1} \left|x\right| f\left(x\right)dx + \int_{1}^{\infty} \left|x\right|^2 f\left(x\right)dx \notag \\
& = \int_{-\infty}^{-1} x^2 f\left(x\right)dx + \int_{-1}^{1} \left|x\right| f\left(x\right)dx + \int_{1}^{\infty} x^2 f\left(x\right)dx \notag \\
& \leq \int_{-\infty}^{-1} x^2 f\left(x\right)dx + \int_{-1}^{1} f\left(x\right)dx + \int_{1}^{\infty} x^2 f\left(x\right)dx \notag \\
& \leq \int_{-\infty}^{\infty} x^2 f\left(x\right)dx + \int_{-1}^{1} f\left(x\right)dx \notag \\
& \leq \int_{-\infty}^{\infty} x^2 f\left(x\right)dx + \int_{-\infty}^{\infty} f\left(x\right)dx \notag \\
& = E\left[X^2\right] + 1
\end{align}
$$
不等式に等号が含まれてはいるが、左辺に対して右辺で
$$
\int_{-\infty}^{-1} \left(x^2-\left|x\right|+1\right)f\left(x\right)dx+\int_{-1}^{1} \left(1-\left|x\right|+x^2\right) f\left(x\right)dx + \int_{1}^{\infty} \left(x^2-\left|x\right|+1\right)f\left(x\right)dx
$$
だけ加えているので、これら3項のすべてが$0$でなければ等号は成立しない。
### 例2 算術平均と幾何平均と調和平均の大小関係 (その1)
三つの期待値を
\begin{align}
m_S &= E\left[X\right] \notag \\
m_M &= \exp E\left[\log X\right] \notag \\
m_I &= \frac{1}{\displaystyle E\left[\frac{1}{X}\right]} \notag
\end{align}
と定める。これらの大小関係を考える。
$$
E\left[\log X\right]\leq \log E\left[X\right]
$$
より、
$$
m_M = \exp E\left[\log X\right] \leq E\left[X\right] = m_S
$$
を得る。また
$$
E\left[\log\left(\frac{1}{X}\right)\right]\leq\log E\left[\frac{1}{X}\right]
$$
より、
$$
\frac{1}{m_M}=\exp\left\{-E\left[\log X\right]\right\}=\exp\left\{E\left[\log\left(\frac{1}{X}\right)\right]\right\}\leq E\left[\frac{1}{X}\right]=\frac{1}{m_I}
$$
すなわち
$$
m_I\leq m_M
$$
を得る。
以上から
$$
m_I\leq m_M\leq m_S
$$
を得る。
### 例3 算術平均と幾何平均と調和平均の大小関係 (その2)
$X$を確率$1/n$で$n$個の点$x_1, \ldots, x_n$のいずれかを取る確率変数とする。すると上の3つの量はそれぞれ
$$
\begin{align}
m_S &= \frac{1}{n}\left(x_1+x_2+\cdots+x_n\right) \notag \\
m_M &= \left(x_1\times x_2\times\cdots \times x_n\right)^{1/n} \notag \\
m_I &= \frac{1}{\displaystyle \frac{1}{n}\left(\frac{1}{x_1}+\frac{1}{x_2}+\cdots+\frac{1}{x_n}\right)} \notag
\end{align}
$$
のように標本平均、幾何平均、調和平均となる。これらの大小関係は例2と同じく
$$
m_I\leq m_M \leq m_S
$$
となる。
## Cauchy-Schwarzの不等式
内積空間の中の任意の2点について
$$
\left|\left<a,b\right>\right|\leq \left\lVert a\right\rVert\left\lVert b\right\rVert
$$
が成り立つ。ただしノルム$\lVert\cdot\rVert$は、内積から導かれる$\lVert{a}\rVert=\sqrt{\left<a,a\right>}$とする。
これがCauchy-Shwartzの不等式である。これは一般の内積空間で成り立つ。
* $\mathscr{R}^2$と$\left<\boldsymbol{a}, \boldsymbol{b}\right>=a_1b_1+a_2b_2$の場合、$$ \left|a_1b_1+a_2b_2\right|\leq\sqrt{a_1^2+a_2^2}\sqrt{b_1^2+b_2^2} $$
* $L^2$と$\left<f,g\right>=\int_x f\left(x\right)g\left(x\right)dx$の場合、$$ \left|\int_x f\left(x\right)g\left(x\right)dx\right|\leq \sqrt{\int_x f\left(x\right)^2 dx}\sqrt{\int_x g\left(x\right)^2dx} $$
* 確率変数の空間の内積を$E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right]$の場合、$$Cov\left(X, Y\right) = \sqrt{V\left(X\right)V\left(Y\right)}$$
2つの互いに直交しない要素$a, b$を考える。$b$から$a$に向けて降ろした垂線の足は
$$
\frac{\left<a,b\right>}{\left\lVert a \right\rVert}a
$$
となる。垂線を$c$と置くと、
$$
c = b - \frac{\left<a,b\right>}{\left\lVert a \right\rVert^2}a
$$
であり、点のノルムは$0$以上となる。この関係から
$$
\begin{align}
\left\lVert c \right\rVert ^2
& = \left<b - \frac{\left<a,b\right>}{\left\lVert a \right\rVert^2}a, b - \frac{\left<a,b\right>}{\left\lVert a \right\rVert^2}a\right> \notag \\
& = \left<b,b\right> - 2 \frac{\left<a,b\right>}{\left\lVert a \right\rVert^2} \left<a, b\right> + \frac{\left<a,b\right>^2}{\left\lVert a \right\rVert^4} \left<a, a\right> \notag \\
& = \left\lVert{b}\right\rVert^2 - \frac{\left<a,b\right>^2}{\left\lVert a \right\rVert^2} \notag \\
& \geq 0
\end{align}
$$
を得る。よって
$$
\left<a,b\right>^2 \leq \left\lVert a \right\rVert^2\left\lVert{b}\right\rVert^2
\notag
$$
すなわち
$$
\left<a,b\right> \leq \sqrt{\left\lVert a \right\rVert^2}\sqrt{\left\lVert{b}\right\rVert^2}
\notag
$$
を得る。等式は$a$と$b$が$b=ka$と平行な関係にある場合に成り立つ。
### 例3 相関係数
任意の2つの確率変数の相関係数は$-1$と$1$の間の値を取る。
$$
-1\leq \rho\left(X, Y\right)\leq 1
$$
これは上の不等式と、相関係数の定義
$$
\rho\left(X, Y\right) = \frac{Cov\left(X, Y\right)}{\sqrt{V\left(X\right)V\left(Y\right)}}
$$
から明らか。
別の証明として、$X+aY$の分散を考える方法もある。
$$
\begin{align}
V\left(X+aY\right)
&= E\left[\left(X+aY-E\left[X+aY\right]\right)^2\right] \notag \\
&= E\left[\left(X-E\left[X\right]+a\left(Y-E\left[Y\right]\right)\right)^2\right] \notag \\
&= V\left(X\right)+a^2 V\left(Y\right) - 2a E\left[\left(X-E\left[X\right]\right)\left(Y-E\left[Y\right]\right)\right] \notag
\end{align}
$$
最後の式を平方完成させると更に
$$
\begin{align}
V\left(X+aY\right)
&= V\left(Y\right)\left(a^2-2a\frac{Cov\left(X, Y\right)}{V\left(Y\right)}\right)+V\left(X\right) \notag \\
&= V\left(Y\right)\left(a-\frac{Cov\left(X, Y\right)}{V\left(Y\right)}\right)^2 + V\left(X\right)-\frac{Cov\left(X, Y\right)^2}{V\left(Y\right)}
\end{align}
$$
となる。もともと分散$V\left(X+aY\right)$は非負であり、初項は必ず非負なので、この第2項と第3項から
$$
V\left(X\right)-\frac{Cov\left(X, Y\right)^2}{V\left(Y\right)} \geq 0
$$
が導かれる。これを整理して
$$
\frac{Cov\left(X, Y\right)^2}{V\left(X\right)V\left(Y\right)} \leq 1
$$
を得る。
### 例4 標本相関係数
Cauchy-Schwarzの不等式
$$
\left|\sum_{i=1}^n \left(x_i-\overline{x}_n\right)\left(y_i-\overline{y}_n\right)\right| \leq \sqrt{\sum_{i=1}^n \left(x_i-\overline{x}_n\right)^2}\sqrt{\sum_{i=1}^n \left(y_i-\overline{y}_n\right)}
$$
より、
$$
\frac{\left|\frac{1}{n}\sum_{i=1}^n \left(x_i-\overline{x}_n\right)\left(y_i-\overline{y}_n\right)\right|}{\sqrt{\frac{1}{n}\sum_{i=1}^n \left(x_i-\overline{x}_n\right)^2}\sqrt{\frac{1}{n}\sum_{i=1}^n \left(y_i-\overline{y}_n\right)}} \leq 1
$$
## 参考
* [GeoGebra](https://www.geogebra.org/graphing?lang=ja)