【他妈的各种分布】
## 常见的分布
【质点 Point Mass Distribution】记号:$X\sim \delta_a$ $\mathbb{P}(X = a) = 1$
PDF: $F(x)= \begin{cases}0, & x<a \\ 1, & x \geqslant a .\end{cases}$
【Discrete Uniform Distribution】$f(x)= \begin{cases}1 / k, & x=1, \cdots, k \\ 0, & \text { elsewhere }\end{cases}$ 称离散随机变量 $X$ 在 $\{1, \cdots, k\}$ 上服从均匀分布.
【伯努利 Bernoulli Distribution (0-1 Distribution)】X 表示硬币的正反。 $\mathbb{P}(X=1)=p$ and $\mathbb{P}(X=0)=1-p$ for some $p \in[0,1] .$ 记号: $X \sim \operatorname{Bernoulli}(p)$.
PMF:$f(x)=p^{x}(1-p)^{1-x}$ for $x \in\{0,1\}$.
【二项分布 Binomial Distribution】$\mathbb{P}(X \mid_{x = k}) = {n \choose k} p^k (1 - p)^{n-k}$ 设硬币正面概率 $p$ for some $0 \leq p \leq 1$. 投掷 $n$ times,设 $X$ 为正面次数. 记号:$X \sim \operatorname{Binomial}(n, p)$
E: $np$ V: $np(1-p)$ PMF $P(X=k) = p^{x}(1-p)^{n-x} $
性质:If $X_{1} \sim \operatorname{Binomial}\left(n_{1}, p\right)$ and $X_{2} \sim \operatorname{Binomial}\left(n_{2}, p\right)$ then $X_{1}+X_{2} \sim \operatorname{Binomial}\left(n_{1}+n_{2}, p\right)$.
【几何分布 Geometric Distribution】随机变量 $X$ 表示投硬币第一次正面出现所经历的次数 $p$ 是正面概率。$X \sim \operatorname{Geom}(p)$,
E: $1/p$ V: $(1-p)/p^2$ PMF: $(1-p)^{k-1}p$ CDF:$1-(1-p)^k$ $M_X = {\frac {pe^{t}}{1-(1-p)e^{t}}}$
【Poisson Distribution】
E: $\lambda $ V: $\lambda $
PMF: $\mathbb{P}(X = k) =\frac{\lambda^k e^{-\lambda}}{k!}$
矩估计似然都是均值。(指数分布两个都是均值分之一)
性质 If $X_{1} \sim \operatorname{Poisson}\left(\lambda_{1}\right)$ and $X_{2} \sim \operatorname{Poisson}\left(\lambda_{2}\right)$ then $X_{1}+X_{2} \sim \operatorname{Poisson}\left(\lambda_{1}+\lambda_{2}\right)$
**下面是连续随机变量分布**
【均匀分布 Uniform Distribution】$X$ has a Uniform $(a, b)$ distribution, written $X \sim$ Uniform $(a, b)$, PDF: $1/(b-a)$ CDF: $F(x)= \begin{cases}0 & x<a \\ \frac{x-a}{b-a} & x \in[a, b] \\ 1 & x>b\end{cases}$ E: $\dfrac{a + b}{2}$ V: $\dfrac{1}{12} ( a - b ) ^{2}$
【高斯 Normal (Gaussian) Distribution】
$X$ has a Normal (or Gaussian) distribution with parameters $\mu$ and $\sigma$, denoted by $X \sim N\left(\mu, \sigma^{2}\right)$,
PDF: $f(x)=\frac{1}{\sigma \sqrt{2 \pi}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}, \quad x \in \mathbb{R}$
(i) If $X \sim N\left(\mu, \sigma^{2}\right)$, then $Z=(X-\mu) / \sigma \sim N(0,1)$.
(ii) If $Z \sim N(0,1)$, then $X=\mu+\sigma Z \sim N\left(\mu, \sigma^{2}\right)$.
(iii) If $X_{i} \sim N\left(\mu_{i}, \sigma_{i}^{2}\right), i=1, \ldots, n$ are independent, then
$$
\sum_{i=1}^{n} X_{i} \sim N\left(\sum_{i=1}^{n} \mu_{i}, \sum_{i=1}^{n} \sigma_{i}^{2}\right)
$$
It follows from (i) that if $X \sim N\left(\mu, \sigma^{2}\right)$, then
$$
\begin{aligned}
\mathbb{P}(a<X<b) &=\mathbb{P}\left(\frac{a-\mu}{\sigma}<Z<\frac{b-\mu}{\sigma}\right) \\
&=\Phi\left(\frac{b-\mu}{\sigma}\right)-\Phi\left(\frac{a-\mu}{\sigma}\right)
\end{aligned}
$$
【伽马 Gamma Distribution.】
伽玛函数定义为:${\displaystyle \Gamma (z)=\int _{0}^{\infty }x^{z-1}\mathrm {e} ^{-x}{\rm {{d}x}}}$
$\forall \alpha>0$, Gamma 函数定义为 $\Gamma(\alpha)=\int_{0}^{\infty} \lambda ^{\alpha-1} e^{-\lambda } \mathrm{d}\lambda $
Gamma 分布表示:要等 $n$ 个 IID 随机事件都发生,需要多长时间。
Gamma 分布的记号: $X\sim \Gamma (\alpha ,\beta )或{\displaystyle X\sim \Gamma (\alpha ,\lambda )}$ (${\displaystyle {{\lambda ={\frac {1}{\beta }}}}}$ )
$$
{\displaystyle f\left(x\right)={\frac {x^{\left(\alpha -1\right)}{\lambda }^{\alpha }e^{\left(-{\lambda }x\right)}}{\Gamma \left(\alpha \right)}}={\frac {x^{\left(\alpha -1\right)}e^{\left(-{{\frac {1}{\beta }}}x\right)}}{{\beta }^{\alpha }\Gamma \left(\alpha \right)}}}
$$
其中 $\alpha, \beta >0$,
$\beta $ 和在泊松过程中的 $\lambda$ 含义类似,代表速率 。
$\alpha $ 则称为形状参数。
若 $X_{i} \sim \operatorname{Gamma}\left(\alpha_{i}, \beta \right)$ 独立, 则 $\sum_{i=1}^{n} X_{i} \sim \operatorname{Gamma}\left(\sum_{i=1}^{n} \alpha_{i}, \beta \right)$.
E: $\mathbb{E}(X) = \alpha / \lambda = \alpha \beta$ V: $\mathbb{V}(X) = \alpha / \lambda ^{2} = \alpha \beta ^{2}$
【Exponential Distribution】
$$
\mathbb{P}(X \mid_{x = k}) = \lambda e^{-\lambda x}
$$
> 指数分布即形状参数 α 为 1 的伽玛分布。
其中 $λ > 0$ 是分布的参数,即每单位时间发生该事件的次数。
> 比如 $\lambda = 2$ 表示平均每小时接到两次电话,则期望为 $\beta = \dfrac{1}{\lambda } $ 表示接到一次电话的平均等待时间是 $\dfrac{1}{2} $ 小时。
【Beta Distribution】
$X$ has a Beta distribution with parameters $\alpha>0$ and $\beta>0$, denoted by $X \sim \operatorname{Beta}(\alpha, \beta)$, if
$$
f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1}, \quad 0<x<1
$$
【题】令 $\mathrm{X}$ 的 $\mathrm{CDF}$ 为 $\mathrm{F}$, 求 $X^{+}=\max \{0, X\}$ 的 CDF.
${F_{X}(x)=\operatorname {P} (X\leq x)} = F$
${F_{X^+}(x)=\operatorname {P} (\max \{0, X\}\leq x)} = F$
显然 $x < 0$ 时 $F_{X^+} = 0$
$x > 0$ 时,$F_{X^+}(x) = P \{\omega \in \Omega ; X(\omega ) \leq x \wedge 0 \leq x\} = P \{\omega \in \Omega ; X(\omega ) \leq x \} = F_X(x)$
【题】 $X \sim \operatorname{Poisson}(\lambda)$ $Y \sim \operatorname{Poisson}(\mu)$, $X$ $Y$ 独立, 证明在给定 $\mathrm{X}+\mathrm{Y}=n$ 的情况 下, $X$ 服从 $\operatorname{Binomial}(n, \pi)$, 其中, $\pi=\lambda /(\lambda+\mu)$
提示 1:如果 $X \sim \operatorname{Poisson}(\lambda), Y \sim \operatorname{Poisson}(\mu)$, 则 $X$ 和 $Y$ 独立,且 $X+Y \sim \operatorname{Poisson}(\lambda+\mu)$
提示 2:注意到 $\{X=x, X+Y=n\}=\{X=x, Y=n-x\}$
$P(X=k\mid X+Y=n) = \frac{\frac{\lambda^{k}\mu^{n-k}}{k!(n-k)!}}{P(X+Y = n)}=
\frac{\frac{\lambda^{k}\mu^{n-k}}{k!(n-k)!}}{\sum_{i=1}^{n} \frac{\lambda^{i}\mu^{n-i}}{i!(n-i)!}}$
$\sum_{i=0}^{n} \binom{n}{i} \lambda^i \mu^{n-i} = \left( \lambda + \mu\right)^n$ $\sum_{i=0}^{n} \frac{n!}{i! (n-i)!} \lambda^i \mu^{n-i} = \left( \lambda + \mu\right)^n$ $\sum_{i=0}^{n} \frac{ \lambda^i \mu^{n-i}}{i! (n-i)!} = \frac{\left( \lambda + \mu\right)^n}{n!}$
$P(X=k\mid X+Y = n) = P (\tilde{X} = k), \tilde{X} \sim B\left (n ,\frac{\lambda}{\lambda + \mu}\right )$
【题】 $$
f_{X, Y}(x, y)= \begin{cases}c\left(x+y^{2}\right), & 0 \leqslant x \leqslant 1,0 \leqslant y \leqslant 1 \\ 0, & \text { 其他. }\end{cases}
$$
求 $\mathbb{P}\left(X<\frac{1}{2} \mid Y=\frac{1}{2}\right)$
$$
P = \dfrac{P(X < \frac{1}{2}, Y = \frac{1}{2})}{P(Y = \frac{1}{2})}
= \dfrac{
\int_{0}^{1/2} x + \frac{1}{4}\mathrm{d}x
}{
\int_{0}^{1} x + \frac{1}{4}\mathrm{d}x
} = 1/3
$$
【题】令 $X \sim N(0,1)$, 且 $Y=e^{X}$, 求 $E(Y)$ 和 $V(Y)$ 答:$M_X = e^{\frac{t^{2}}{2}} \quad \therefore E(Y)=E\left(e^{x}\right)=\sqrt{e}$
$V(Y)=V\left(e^{x}\right)=E\left(e^{2 x}\right)-E\left(e^{x}\right)^{2}=e^{2}-e$
【题】求 $\mathbb{V}(2 X-3 Y+8)$ 令 $r(x,y) = 2x - 3y$ IINT得 $E(R)=-23/9,E(R^2)=86/9,V(R)=245/81
【题】$X_{1}, \ldots, X_{n}$ 服从 $\beta$ 指数分布, 求 $X_{i}$ 的MGF, 证 $\sum_{i=1}^{n} X_{i}$ 服从 $n, \beta$ Gamma 分布.ANS:
指数分布的 MGF 为 $\frac{1}{1 - \beta t}$. 对于 $X' = X_1, \cdots, X_n$,独立所以 $\mathbb{E}(e^{tX'}) = \mathbb{E}(X_1) \cdots \mathbb{E}(X_n) = (\frac{1}{1 - \beta t})^n$ ,是伽马分布的 MGF.
【题】令 $X_{1} \ldots, X_{n} \sim N(0,1)$, 使用米尔不等式求 $\mathbb{P}\left(\left|\bar{X}_{n}\right|>t\right)$ 的界, 其中, $\overline{X_{n}}=n^{-1} \sum_{i=1}^{n} X_{i}$, 并与切比雪夫界作比较.
中心极限定理,$P(|\bar{X_n}| > t)=P(\bar{z}\geqslant t \sqrt{n}) \geqslant \sqrt{\pi /2} \frac{1}{t \sqrt{n}}\exp (-t^2 n / 2)$
【题】$X_{1}, \ldots, X_{n} \sim \operatorname{Bernoulli}(\mathrm{p})$, 证明$\dfrac{1}{n} \sum_{i=1}^{n} X_{i}^{2} \stackrel{\mathrm{qm}}{\rightarrow} p$ 答 令 $Y_i = X_i^2$则 $\left(\frac{1}{n}\sum_{i}X_{i}^{2}-p\right)^{2}=\frac{1}{n^{2}}\sum_{i}X_{i}^{4}+\frac{1}{n^{2}}\sum_{i,j\colon i\neq j}X_{i}^{2}X_{j}^{2}-\frac{2}{n}p\sum_{i}X_{i}^{2}+p^{2}.$
$$
\begin{multline}
\mathbb{E}\left[\left(\frac{1}{n}\sum_{i}X_{i}^{2}-p\right)^{2}\right]=\frac{1}{n}\mathbb{E}\left[X_{1}^{4}\right]+\frac{n-1}{n}\mathbb{E}\left[X_{1}^{2}\right]\mathbb{E}\left[X_{2}^{2}\right]-2p\mathbb{E}\left[X_{1}^{2}\right]+p^{2}\\
=\frac{1}{n}p+\frac{n-1}{n}p^{2}-p^{2}\rightarrow p^{2}-p^{2}=0.
\end{multline}
$$
【题】令 $Z_{1}, Z_{2}, \ldots$ 为 IID 随机变量, 其密度函数为 $\mathrm{f}$, 假设 $ \mathbb{P}\left(Z_{i}>0\right)=1$ 且 $\lambda=\lim _{x \downarrow 0} f(x)>0$, 令
$X_{n}=n \times \min \left\{Z_{1}, \ldots, Z_{n}\right\}$
证明 $X_{n} \rightsquigarrow Z$, 其中, $z$ 服从均值 $\dfrac{1}{\lambda}$ 指数分布
注意到 $F_{X_{n}}(x)=\mathbb{P}(\min\left\{ Z_{1},\ldots,Z_{n}\right\} \leq x/n)=1-\mathbb{P}(Z_{1}\geq x/n)^{n}.$ 当 $x > 0$, $\begin{multline}
\mathbb{P}(Z_{1}\geq x/n)^{n}=\left(1-\mathbb{P}(Z_{1}\leq x/n)\right)^{n}=\left(1-\int_{0}^{x/n}f(z)dz\right)^{n}\\
=\left(1-f(c_{n})\frac{x}{n}\right)^{n}=\left(e^{-f(c_{n})x/n}+O(n^{-2})\right)^{n}\rightarrow e^{-\lambda x}.
\end{multline}$
【题】令 $X_{1}, \cdots, X_{n} \sim \operatorname{Uniform}(0, \theta), \hat{\theta}=\max \left\{X_{1}, \cdots, X_{n}\right\}$, 求估计量 的 bias, se 和 MSE.
为了求 $\hat{\theta }$ 可以求其分布。则 $\mathbb{P}(\theta < y) = P(X_1 < y,\cdots , x_n < y) = (P(X_1<y))^n = (\frac{y}{\theta })^ n$ ,则 $f'(y)=n (\frac{1}{\theta })^n y^{n-1}$ 则 $E(\theta ) = E(y) = \int_{0}^{\theta } y n (\frac{1}{\theta })^n y^{n-1} dy= \frac{n}{n+1} \theta$ $E(y^2) = \int_{0}^{\theta } y^2 n (\frac{1}{\theta })^n y^{n-1} dy = \frac{n}{n+2}\theta ^{2}$ $V(y) = \frac{\theta^{2} n}{2 \pi n}-\frac{\theta^{2} n^{2}}{(n+1)^{2}}$
【题】令 $X_{1}, X_{2}, \ldots, X_{n} \sim \operatorname{Gamma}(\alpha, \beta)$, 求出 $\alpha, \beta$ 的矩估计.
解,由 MGF 可得:$\begin{equation} \left\{\begin{array}{l}a_{1}=\alpha \beta \\ a_{2}=\alpha(\alpha+1) \beta^2\end{array}\right. \end{equation}$ 解得 $\alpha = \frac{a_2}{a_1} - 1$ ,$\beta = \frac{a_1 ^{2}}{a_2 - a_1}$
【极大 Bernoulli】假设有不均匀硬币,观测向量 $\mathbf{A} = X_1, \cdots ,X_n$($X_i = 1$ 表示正面向上,$X_i = 0$ 表示反面向上 )。显然 $\mathbf{A}$ 发生的概率是是每次投掷事件的概率的乘积。假设正面概率是 $p$ ,则:$\mathbb{P}(X = \mathbf{A}) = p^k(1 -p)^{n-k}$ 我们的目标是求出 $\mathbb{P}(X = \mathbf{A})$ 最大时,参数 $p$ 的值。方便起见,**求对数(因为不影响其单调性)**:$\mathcal{L}_n(p) = \ln ( \mathbb{P}(A) ) = k \ln p + (n-k)\ln (1-p)$
为了求其极值时 $p$ 的取值,求导(注意 1 - p 求导后符号改变)。$\mathcal{L}_n'(p) = \dfrac{k}{p} + \dfrac{n-k}{ \color{dark}{p-1} } = 0 \Leftrightarrow -k + kp + np - kp = 0 \Leftrightarrow p = \dfrac{k}{n}$ 而 $k = \sum_{i = 1}^{n} X_i$ (因为 $X_i = 1$ 表示正面向上) 因此极大似然估计为$\hat{\theta }_n = \dfrac{\sum_{i = 1}^{n} X_i}{n}$
【极大 Poisson】令 $X_{1}, X_{2}, \ldots, X_{n} \sim \operatorname{Poisson}(\lambda)$, 求 $\lambda$ 的极大似然估计。解:我们要求出观测向量 $A = X_1, \cdots ,X_n$ 概率最大时的 $\lambda$,而要使观测向量整体作为一个事件发生,则各个事件 $X_i$ 都要发生。这种我们用乘积表示。即概率表示为 $\mathbb{P}(A) = \mathbb{P}(X = X_1; \lambda )\mathbb{P}(X = X_2; \lambda ) \cdots \mathbb{P}(X = X_n; \lambda )$ 而泊松分布的分布列 $P(X = X_i) = \dfrac{\lambda ^{X_i} e ^ {-\lambda }}{X_i !}$ 代入并取对数:$\ell _n (\lambda ) = \sum_{i = 1}^{n} \ln (\dfrac{\lambda ^ {X_i} e ^{-\lambda }}{X_i!}) =\sum_{}^{} X_i \ln \lambda - \lambda - \ln X_i!$ 求个导:$\ell ^\prime (\lambda ) = -n + \sum_{}^{} \dfrac{X_i}{\lambda }$ 令它为 $0$ $\sum_{}^{} \dfrac{X_i}{\lambda } - \dfrac{1}{X_i!} = 0$ 解得 $\hat{\lambda } = \bar{X}$
【知识点-概率】
**和的概率**引理:$P(A+B) = P(A)+P(B) - P(AB)$
条件概率:$P(A|B) = \dfrac{P(AB)}{P(B)}$ 引理:$\mathbb{P}(A B)=\mathbb{P}(A \mid B) \mathbb{P}(B)$ $=\mathbb{P}(B \mid A) \mathbb{P}(A)$
独立事件:若 $P(AB) = P(A)P(B)$ 则事件 $A, B$ 独立。
贝叶斯:$\mathbb{P}\left(A_{i} \mid B\right)=\dfrac{\mathbb{P}\left(B \mid A_{i}\right) \mathbb{P}\left(A_{i}\right)}{\sum_{j} \mathbb{P}\left(B \mid A_{j}\right) \mathbb{P}\left(A_{j}\right)}$ **先验概率** (prior probability): 上式中的 $P(A_i)$
例子;$P(A)$ 吃华莱士的概率 $P(A^C)$ 没吃华莱士的概率 $P(B|A)$ 吃华莱士的情况下拉肚子的概率 $P(B|A^C)$ 没吃华莱士的情况下拉肚子的概率 则拉肚子之前吃过华莱士的概率是:$
P(A|B) = \dfrac{P(B|A) P(A)}{P(B)} = \dfrac{P(B|A) P(A)}{P(B|A) P(A) + P(B|A^C)P(A^C)}$
【不等式】
(马尔可夫 (Markov) 不等式) 令 $ X $ 为非负随机变量,$ \mathbb{E}(X) $ 存在,则对任意 $ t>0 $ 有 $\mathbb{P}(X>t) \leqslant \dfrac{\mathbb{E}(X)}{t}$
(切比雪夫 (Chebyshev) 不等式) 令 $ \mu=\mathbb{E}(X), \sigma^{2}=\mathbb{V}(X) $, 则
$\mathbb{P}(|X-\mu| \geqslant t) \leqslant \dfrac{\sigma^{2}}{t^{2}}, \quad \mathbb{P}(|Z| \geqslant k) \leqslant \dfrac{1}{k^{2}}$
其中, $ Z=(x-\mu) / \sigma $, 特别地, $ \mathbb{P}(|Z|>2) \leqslant 1 / 4, \mathbb{P}(|Z|>3) \leqslant 1 / 9 $.
(霍夫丁 (Hoeffding) 不等式) 令 $ Y_{1}, \cdots, Y_{n} $ 为独立观察值, 满足 $ \mathbb{E}\left(Y_{i}\right)=0 $, 且 $ a_{i} \leqslant Y_{i} \leqslant b_{i} $. 今 $ \varepsilon>0 $, 则对于任意 $ t>0 $ 有 $
\mathbb{P}\left(\sum_{i=1}^{n} Y_{i} \geqslant \varepsilon\right) \leqslant \mathrm{e}^{-t \varepsilon} \prod_{i=1}^{n} \mathrm{e}^{t^{2}\left(b_{i}-a_{i}\right)^{2} / 8} .$
【定理】令 $ X_{1}, \cdots, X_{n} $ 服从参数为 $ p $ 的伯势利分布, 则对于任意 $ \varepsilon>0 $ 有 $ \mathbb{P}\left(\left|\bar{X}_{n}-p\right|>\varepsilon\right) \leqslant 2 \mathrm{e}^{-2 n \varepsilon^{2}} $,
其中, $ \bar{X}_{n}=n^{-1} \sum_{i=1}^{n} X_{i} $.
(c (Mill) 不等式) 令 $ Z \sim N(0,1) $, 则 $\mathbb{P}(|Z|>t) \leqslant \sqrt{\dfrac{2}{\pi}} \dfrac{\mathrm{e}^{-t^{2} / 2}}{t} $