--- tags: 應用統計 --- # 應用統計 R 101-1 對於連續型變數, 一般使用適當統計量數或圖表做資料分布的整理 ### **統計量數-平均數** $$ 母體平均數和樣本平均數分別以\ μ\ 和\ \bar{x}\ 表示 \\μ=\dfrac{\sum\limits_{i = 1}^n{x_i}}{n},母體 \\ \bar{x}=\dfrac{\sum\limits_{i = 1}^n{x_i}}{n},樣本 $$ 1.簡化作用: 簡化資料成為一個特徵量數而不喪失資料的訊息, 2.代表作用: 平均數是一組資料的「中心」數值, 3.比較作用: 因具有代表整組資料的特徵意義 4.各資料點 x_i 對x 呈現一平衡狀態, 差異總和等於零. 5.平均數和其他任意實數 a 相比較之下, 具有「差距平方總和」最小的特性 ### 統計量數-變異數 標準差 $$ 母體變異數和樣本變異數分別以\ σ^2\ 或\ \hat{σ}^2=s^2\ 表示 \\σ^2=\dfrac{\sum\limits_{i = 1}^n{(x_i-μ)^2}}{n},母體變異數 \\\hat{σ}^2=\dfrac{\sum\limits_{i = 1}^n{(x_i-\bar{x})^2}}{n},樣本變異數 \\母體標準差和樣本標準差分別以\ σ\ 或\ \hat{σ}=s\ 表示 $$ #### 練習 $$ 1.已知 f(x)=(x−3)^2+(x−4)^2+(x−6)^2. f(x) 在何處有最小值, x? \\x=4.333... \\2.若 {x_i},i=1,…,n 已知, 且 f(x)=\sum\limits_{i = 1}^n(x−x_i)^2. f(x) 在何處有最小值? \\x=μ $$ ### 經驗法則 (Empirical Rule) 與柴比雪夫定理 (Chebyshev's Theorem) $$ 經驗法則或稱 68−95−99.7 法則: 若一組測量值的分布近似於鐘形對稱(或接近常態) \\柴比雪夫不等式: 若測量值 (X) 的平均數 μ, 標準差 σ, \\則對任意常數 k > 0, P(|X−μ|<kσ)≥1−\dfrac{1}{k^2} \\若 k=2, 資料落在 μ±2σ 區間的比例至少有75\% \\若 k=3, 資料落在 μ±3σ 區間的比例至少有89\% \\對資料的分布無特別條件, Chebyshev′s Theorem 的結論提供當保守的下界. $$ ### 中位數: 不易受極端值的影響 中位數的計算: 資料 x1,…,xn. 設 x(1)≤x(2)≤…≤x(n) 為排序後資料, $$ 中位數 Me= \begin{cases} x_{(n+1)/{2}},當 n 為奇數\\ \dfrac{x_{(n)/{2}}+x_{(n+1)/{2}}}{2},當 n 為偶數 \end{cases} $$ 1.若一組數據中, 如果數據有數值偏離較大, 那麼選擇中位數來表達這組數據的「集中趨勢」比較適合. ### 百分位數 P_k 給於一組資料 x1,…,xn, 第 k 個百分位數 Pk 的求法: 1.排列資料 x(1)≤…≤x(n), 2.計算 Pk 約略的足標 $$ i=\dfrac{n}{100}*k \\其中 \dfrac{n}{100} 是指把資料分100份; 每一份有多少資料點. $$ 3.若要取第 k 份, 則 Pk 所在的位置約在排序資料中的第 (n/100)×k 個. (1)如果 i 不為整數, 則取大於 i 的最小整數當足標 i~, x(i~) = Pk. (2)如果 i 為整數,則 Pk 等於 x(i) 和 x(i+1) 的平均數. ### 四分位數 Qk 排列後資料, x(1)≤x(2)≤…≤x(n), 分成四等份時所安插進去的分割數. 因此四分位數有三個: 第 1 四分位數 Q1, 第 2 四分位數 Q2 和第 3 四分位數 Q3 1.Q1 等同於第25百分位數 P25: 資料中有25%小於第 1 四分位數. 2.Q2 等同於中位數 Me, P50: 資料中有50%小於第 2 四分位數. 3.Q3 等同於第75百分位數 P75: 資料中有75%小於第 3 四分位數. ### 偏斜係數(skewness) $$ sk=\dfrac{\sum\limits_{i = 1}^n{(x_i-\bar{x})^3}/N}{s^3},s為樣本標準差 \\sk>0時為右偏分配(左邊較高)\ 反之為左偏分配(右邊較高) \\或者是 平均數>中位數\ 為右偏分配 $$ ### 峰態係數(kurtosis) $$ kurt=\dfrac{\sum\limits_{i = 1}^n{(x_i-\bar{x})^4}/N}{s^4} \\或kurt=\dfrac{\sum\limits_{i = 1}^n{(x_i-\bar{x})^4}/N}{s^4}-3 \\量測資料分佈形狀峰度有多高的指標稱為峰態係數 $$ ### 箱形圖 (boxplot):描述分位數位置與整體資料分布 四分位數距 (InterQuartile Range, IQR): IQR=Q3−Q1 (時間序列)折線圖: 呈現的重點是顯示資料與時間次序的特徵. 當資料具有時間序列屬性,折線圖將是重要的視覺訊息表現. ![](https://i.imgur.com/V9EAt2q.png) ``` x=read.csv('D:/xlung_cancer_study.csv',stringsAsFactors = T) //讀取csv attach(x) //可直接使用 AGE(x的factor) 不用打x$AGE ->with(x,AGE) 建議修改 x=rnorm(200,157,7) //rnorm(個數,平均,標準差) 從隨機常態分布中抽幾個數 hist(x, prob = T) //直方圖 mean(x) //取平均數 mean(x,na.rm = T) //忽略遺失值(NA) var(x) //變異數 sd(x) //標準差 標準差^2=變異數 median(x) //取中位數 if(|x|%2==0){median=x_(n+1)/2} else{median=(x_n/2+x_(n+1)/2)} range(x) //全距 quantile(SURVIVAL_MONTHS,c(0.37,0.5,0.9),na.rm = T) //第幾百分位數 IQR(x) //四分位距 mean(x)>median(x) //右偏分配 反之為左偏分配 skewness(x) //偏斜係數 >0 右偏分配 偏斜係數(skewness) (sigma 1 to n (x-x_i)^3)/n/s^3 峰態係數(kurtosis) (sigma 1 to n (x-x_i)^4)/n/s^4-3 >0->高峰態(峰值高 遞減快 尾部強) ```