# 3.1 Introduction
Q:我們如何得到 data?
> $\rightarrow$ data 來自一個我們沒辦法完全清楚的 process,這樣的未知意味著這個 process 是一個 ++random process++。
>
> $\Rightarrow$ 或許其實這個 process 是 deterministic 的,但是因為我們沒辦法完整的瞭解它,所以我們將它 model 為 random 的,再用機率的理論去分析。
舉例來說,擲硬幣是一個 random process。
我們沒辦法預測下一次我們去擲一個硬幣會得到的是正面還是反面,我們唯一能知道的只有所有的可能結果就只有這兩種。
也許可以說,假設我們知道一些額外的資訊,像是這個硬幣一開始在什麼樣的位置、投擲的力度和方向、硬幣掉下來的時候我們接住的姿勢又是如何⋯⋯,或許我們就可以真的去預測擲出來的結果。
但是這些都是我們無法去 access 的資訊,它們也叫做 <font color = "snake">unobservable variables</font> ==$z$==;相對的,能夠 access 的資訊就叫做 <font color = "snake">observable variables</font> ==$x$==。
> 在上面擲硬幣的例子裡,我們唯一的 observable variable 就只有擲出來的結果。
在現實中, unobservable variables $z$ 和 observable variables $x$ 的關係是:
$x=f(z)$
> 其中 $f(·)$ 是一個 deterministic function,會去定義 unobservable 的資訊所得出來的結果。
因為我們沒辦法用上述這樣的方式去 model 整個 process,所以我們把 outcome $X$ 定義成一個++從 probability distribution $P(X=x)$ 得來的 random variable++,來描述這整個 process。
舉例來說,在擲硬幣時我們可以定義一個 random variable $X$,其中 $X$ 的值 $\in \{0, \ 1\}$,當我們擲到 head 時 $X=1$,擲到 tail 時 $X=0$。
這樣的 $X$ 是 <font color = "snake">Bernoulli-distributed</font>,其中 distribution ==$p_0$== 這個 parameter 是++擲出來的結果是 head 的機率++。
> Bernoulli distribution 的一個非正式的解釋是:
>
> 我們可以把這樣的 distribution 想像成對一個只會問 yes / no 問題的實驗,它所有可能 outcomes 所成的 set 所形成的 model。
> 因為這個實驗只有 yes / no,所以 outcomes 的值就是 boolean 的。

假設我們被要求要去預測下一次擲硬幣的結果,如果 $p_0>0.5$ 那麼我們就猜是 heads,否則猜 tail,因為我們要去選擇比較有可能的情況,並且讓 probability of error(也就是 $1$ 減掉我們的選擇的機率)最小。
如果我們不知道 $P(X)$(此例中即不知道擲到 heads 和 tail 的機率),而我們想要從某個 sample 去估計這個值,那我們就可以用到一些統計的技巧。
假設我們有一個 <font color = "snake">sample</font> ==$X$==,$X$ 裡面包含的是可以被觀測到的 ++$x^t$ 的 probability distribution++(用 ==$p(x)$== 表示),我們的目標是用 $X$ 去找到一個 <font color = "snake">approximator</font> ==$\hat{p}(x)$==。
在擲硬幣的例子裡,我們的 sample $X$ 就包含了過去 $N$ 次擲硬幣的結果。而藉由 $X$,我們就可以去估計 $p_0$:

> $p_0$ 的估計值 $\hat{p}(x)$ 就是所有投擲次數裡面擲到 heads 的比例。
如果用數字去表示,如果第 $t$ 次投擲是 heads,那麼 $x^t=1$,是 tails 則 $x^t=0$。
舉例來說我們的 sample($h$: heads, $t$: tail):
$\{h,\ h,\ h,\ t,\ h,\ t,\ t,\ h,\ h\}$
那麼 $X=\{1,\ 1,\ 1,\ 0,\ 1,\ 0,\ 0,\ 1,\ 1\}$
$\Rightarrow$ 我們估計出來的擲到 heads 的機率 $\hat{p}(x)$ 即為:
