# 數據分析學習筆記
## 一維數據分析
### 算術平均數
- 假設$n$個數字$x_1,x_2,x_3,...,x_n$
- 算術平均數$\mu=\cfrac{1}{n}(x_1+x_2+x_3+...+x_n)$
### 加權平均數
- 假設$n$個數字$x_1,x_2,x_3,...,x_n$,其中$x_i$對應到的加權為$w_i$
- 加權平均數$W=\cfrac{x_1w_1+x_2w_2+...+x_nw_n}{w_1+w_2+...+w_n}$
### 幾何平均數
- 假設$n$個數字$x_1,x_2,x_3,...,x_n$
- 幾何平均數$G=\sqrt[n]{x_1\times x_2\times x_3\times ...\times x_n}$
- 應用:假設某物$n$年的成長率分別為$r_1,r_2,r_3,...r_n$,其平均成長率$x=\sqrt[n]{(1+r_1)\times (1+r_2)\times (1+r_3)\times ...\times (1+r_n)}-1$
- 證明:假設平均成長率為$x$,過了$n$年後,其總成長率為$(1+x)^n=(1+r_1)(1+r_2)(1+r_3)(1+r_4)$
- 經過化簡可得$x=\sqrt[n]{(1+r_1)\times (1+r_2)\times (1+r_3)\times ...\times (1+r_n)}-1$
### 百分位數
- 第$m$百分位數$P_m\;(1\le m\le 99)$:至少有$m\%$的數據$\le P_m$,至少有$(100-m)\%$的數據$\ge P_m$,
- 假設一筆升冪排序過後的資料有$n$個數據$x_1$~$x_n$
- $I=n\times \cfrac{m}{100}$
- $I\notin \mathbb{N},P_m=x_{\lceil I\rceil}$($\lceil I\rceil為>I$之最小整數)
- $I\in\mathbb{N},P_m=ave(x_I,x_{I+1})$
### 數據的離散程度
- 設$n$個數據$x_1,x_2,...,x_n$,其算術平均數為$\mu$
- 全距:一堆數據中,最大值與最小值的差
- 離均差:$x_i$之離均差為$x_i-\mu$,$\displaystyle\sum^n_{i=1}(x_i-\mu)=0$
- 變異數$\sigma^2=ave(\displaystyle\sum^n_{i=1}(x_i-\mu))$
- 標準差$\sigma :\;$離均差平方的平均之平方根(~~好饒舌~~)
### 數據的伸縮與平移
- 給定$n$個數據$x_1,x_2,x_3...,x_n$,其算術平均數為$\mu$,標準差$\sigma$
- 若$y_i=ax_i+b,$則$\mu_y=a\mu_x+b,\sigma_y=|a|\sigma_x$
### 標準化數據
- 將數據標準化後可得Z分數或是標準分數,可看出比原平均多/少幾個標準差
- $Z_i=\cfrac{x_i-\mu}{\sigma}$
- Z分數之特性
1.$\mu_z=0$
2.$\sigma_z=1$
## 二維數據分析
- 用以觀察兩種數據之間的關係
- $i.e.$ 睡眠時數與罹患慢性病的比例
### 相關係數
- 設有$n$筆資料$(x_1,x_2),(x_2,y_2),...,(x_n,y_n)$
- $x',y'$代表經標準化後的數據
- 相關係數$r=\cfrac{\displaystyle\sum^n_{i=1}x_i'y_i'}{n}$
- 若數據未經標準化,則相關係數$r=\cfrac{\displaystyle\sum^n_{i=1}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\displaystyle\sum^n_{i=1}(x_i-\overline{x})^2\displaystyle\sum^n_{i=1}(y_i-\overline{y})^2}}$
### 迴歸直線
- 最小平方法:尋找最小的殘差平方和
- 迴歸直線方程式
- 標準化數據:$y'=rx',r:\;$相關係數
- 未經標準化:$y-\overline{y}=m(x-\overline{x})$
- $m=r\cdot\cfrac{\sigma_y}{\sigma_x}$
- 迴歸直線必過點$(\mu_x,\mu_y)=(\overline{x},\overline{y})$
### 迴歸直線公式整理
- 設$S_{xy}=\displaystyle\sum^n_{i=1}(x_i-\mu_x)(y_i-\mu_y),S_{xx}=\displaystyle\sum^n_{i=1}(x_i-\mu_x)^2$
- $y'=rx'$
- $y-\overline{y}=r\cdot\cfrac{\sigma_y}{\sigma_x}(x-\overline{x})$
- $y-\overline{y}=\cfrac{S_{xy}}{S_{xx}}(x-\overline{x})$