---
tags: 應用統計
---
# 應用統計 R 101-1
對於連續型變數, 一般使用適當統計量數或圖表做資料分布的整理
### **統計量數-平均數**
$$
母體平均數和樣本平均數分別以\ μ\ 和\ \bar{x}\ 表示
\\μ=\dfrac{\sum\limits_{i = 1}^n{x_i}}{n},母體
\\ \bar{x}=\dfrac{\sum\limits_{i = 1}^n{x_i}}{n},樣本
$$
1.簡化作用: 簡化資料成為一個特徵量數而不喪失資料的訊息,
2.代表作用: 平均數是一組資料的「中心」數值,
3.比較作用: 因具有代表整組資料的特徵意義
4.各資料點 x_i 對x 呈現一平衡狀態, 差異總和等於零.
5.平均數和其他任意實數 a 相比較之下, 具有「差距平方總和」最小的特性
### 統計量數-變異數 標準差
$$
母體變異數和樣本變異數分別以\ σ^2\ 或\ \hat{σ}^2=s^2\ 表示
\\σ^2=\dfrac{\sum\limits_{i = 1}^n{(x_i-μ)^2}}{n},母體變異數
\\\hat{σ}^2=\dfrac{\sum\limits_{i = 1}^n{(x_i-\bar{x})^2}}{n},樣本變異數
\\母體標準差和樣本標準差分別以\ σ\ 或\ \hat{σ}=s\ 表示
$$
#### 練習
$$
1.已知 f(x)=(x−3)^2+(x−4)^2+(x−6)^2. f(x) 在何處有最小值, x?
\\x=4.333...
\\2.若 {x_i},i=1,…,n 已知, 且 f(x)=\sum\limits_{i = 1}^n(x−x_i)^2. f(x) 在何處有最小值?
\\x=μ
$$
### 經驗法則 (Empirical Rule) 與柴比雪夫定理 (Chebyshev's Theorem)
$$
經驗法則或稱 68−95−99.7 法則: 若一組測量值的分布近似於鐘形對稱(或接近常態)
\\柴比雪夫不等式: 若測量值 (X) 的平均數 μ, 標準差 σ,
\\則對任意常數 k > 0,
P(|X−μ|<kσ)≥1−\dfrac{1}{k^2}
\\若 k=2, 資料落在 μ±2σ 區間的比例至少有75\%
\\若 k=3, 資料落在 μ±3σ 區間的比例至少有89\%
\\對資料的分布無特別條件, Chebyshev′s Theorem 的結論提供當保守的下界.
$$
### 中位數: 不易受極端值的影響
中位數的計算: 資料 x1,…,xn. 設 x(1)≤x(2)≤…≤x(n) 為排序後資料,
$$
中位數 Me=
\begin{cases}
x_{(n+1)/{2}},當 n 為奇數\\
\dfrac{x_{(n)/{2}}+x_{(n+1)/{2}}}{2},當 n 為偶數
\end{cases}
$$
1.若一組數據中, 如果數據有數值偏離較大, 那麼選擇中位數來表達這組數據的「集中趨勢」比較適合.
### 百分位數 P_k
給於一組資料 x1,…,xn, 第 k 個百分位數 Pk 的求法:
1.排列資料 x(1)≤…≤x(n),
2.計算 Pk 約略的足標
$$
i=\dfrac{n}{100}*k
\\其中 \dfrac{n}{100} 是指把資料分100份; 每一份有多少資料點.
$$
3.若要取第 k 份, 則 Pk 所在的位置約在排序資料中的第 (n/100)×k 個.
(1)如果 i 不為整數, 則取大於 i 的最小整數當足標 i~, x(i~) = Pk.
(2)如果 i 為整數,則 Pk 等於 x(i) 和 x(i+1) 的平均數.
### 四分位數 Qk
排列後資料, x(1)≤x(2)≤…≤x(n), 分成四等份時所安插進去的分割數. 因此四分位數有三個:
第 1 四分位數 Q1, 第 2 四分位數 Q2 和第 3 四分位數 Q3
1.Q1 等同於第25百分位數 P25: 資料中有25%小於第 1 四分位數.
2.Q2 等同於中位數 Me, P50: 資料中有50%小於第 2 四分位數.
3.Q3 等同於第75百分位數 P75: 資料中有75%小於第 3 四分位數.
### 偏斜係數(skewness)
$$
sk=\dfrac{\sum\limits_{i = 1}^n{(x_i-\bar{x})^3}/N}{s^3},s為樣本標準差
\\sk>0時為右偏分配(左邊較高)\ 反之為左偏分配(右邊較高)
\\或者是 平均數>中位數\ 為右偏分配
$$
### 峰態係數(kurtosis)
$$
kurt=\dfrac{\sum\limits_{i = 1}^n{(x_i-\bar{x})^4}/N}{s^4}
\\或kurt=\dfrac{\sum\limits_{i = 1}^n{(x_i-\bar{x})^4}/N}{s^4}-3
\\量測資料分佈形狀峰度有多高的指標稱為峰態係數
$$
### 箱形圖 (boxplot):描述分位數位置與整體資料分布
四分位數距 (InterQuartile Range, IQR): IQR=Q3−Q1
(時間序列)折線圖: 呈現的重點是顯示資料與時間次序的特徵. 當資料具有時間序列屬性,折線圖將是重要的視覺訊息表現.

```
x=read.csv('D:/xlung_cancer_study.csv',stringsAsFactors = T) //讀取csv
attach(x) //可直接使用 AGE(x的factor) 不用打x$AGE
->with(x,AGE) 建議修改
x=rnorm(200,157,7) //rnorm(個數,平均,標準差) 從隨機常態分布中抽幾個數
hist(x, prob = T) //直方圖
mean(x) //取平均數
mean(x,na.rm = T) //忽略遺失值(NA)
var(x) //變異數
sd(x) //標準差 標準差^2=變異數
median(x) //取中位數 if(|x|%2==0){median=x_(n+1)/2} else{median=(x_n/2+x_(n+1)/2)}
range(x) //全距
quantile(SURVIVAL_MONTHS,c(0.37,0.5,0.9),na.rm = T) //第幾百分位數
IQR(x) //四分位距
mean(x)>median(x) //右偏分配 反之為左偏分配
skewness(x) //偏斜係數 >0 右偏分配
偏斜係數(skewness) (sigma 1 to n (x-x_i)^3)/n/s^3
峰態係數(kurtosis) (sigma 1 to n (x-x_i)^4)/n/s^4-3 >0->高峰態(峰值高 遞減快 尾部強)
```