Try   HackMD

一、敘述統計學

tags: 統計學

敘述統計學做的事情是「描述或總結觀察量的基本情況」,其內容包含:

  • 製作圖表(略);
  • 分析數據:集中趨勢、分散趨勢、分布形態;
  • 描述個別值的相對位置:相對量數、標準分數。

1.1 集中趨勢量數

1.1.1 算術平均數

把變數

X 個別值定義為
Xi
,則算數平均數(簡稱平均數)定義為
μ=X=1ni=1nXi.

  • 由一群母體用某種方式 抽取一些樣本。上式使用於母體數據時,
    N
    代表母體大小,使用於樣本數據時,
    N
    代表樣本大小
  • 為便於區分,樣本平均數常用
    X
    表示,母體平均數常用
    μ
    表示。
  • 實務上,甚少作
    100%
    檢驗,母體平均數
    μ
    是無法窮盡獲得的量數,而必須採用抽樣檢驗,計算樣本平均數
    X
  • Excel 函數 AVERAGEAVERAGEIFAVERAGEIF

1.1.2 加權平均數

在算數平均數的計算過程中增加一個權數

Wi 來進行加權,則可定義加權平均數,如下:
XW=i=1NWiXii=1NWi=i=1NPiXi,
其中
Pi=Wii=1NWi
稱為權數的比重,且滿足
i=1NPi=1

X 為離散隨機變數,則
Pi
稱為
X=Xi
的機率,上述定義的加權平均數也叫做期望值,記為
E(X)

在Excel中可利用函數 SUMPRODUCT 計算加權平均數,參考所有方法

1.1.3 幾何平均數

幾何平均數定義為

XG=i=1NXiN=X1X2XNN, 多用於比率資料,如速率、成長率、良率等。Excel 函數 GEOMEAN

1.1.4 調和平均數

調和平均數定義為

XH=(1Ni=1N1Xi)1=N1X1+1X2++1XN, 用於並聯電阻的阻值計算、約化質量的計算。Excel 函數 HARMEAN

1.1.5 中位數

等於

P50、第二四分位數
Excel 函數 MEDIAN

1.1.6 眾數

眾數就是一組數據中出現次數最多的數據值。
Excel 函數 MODE

  • 在離散機率分布中,眾數是指機率質量函數有最大值 的數據。
  • 在連續機率分布中,眾數是指機率密度函數有最大值 的數據。
  • 對於離散型均勻分布來說,所有的點都是眾數。
  • 機率密度函數有數個峰(局部最大值)者,稱為多峰分布。多峰分布的所有峰值都稱為眾數
    • 有兩個峰的稱為雙峰分布
  • 機率密度函數只有單一局部最大值者,稱為單峰分布
    • 對稱單峰分布(例如常態分布)的眾數和平均數、中位數會重合。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

1.2 分散趨勢量數

1.2.1 全距

全距是一組數據最大值與最小值之差

Range=XmaxXmin.

1.2.2 四分位距與四分差

四分位距是第三四分位數

Q3 與第一四分位數
Q1
的差:
IQR=Q3Q1.

四分差是之算術平均四分位距的一半:
QD=Q3Q12.

1.2.3 平均差

個別值

Xi離均差定義為
XiX

平均差則定義為「離均差絕對值的平均」

MD=|XiX|N. 平均差對於極端值的偵測比較不敏銳

1.2.4 變異數與標準差

離均差的平方和

SS=i=1N(Xiμ)2, 另一計算公式為
SS=i=1N(Xiμ)2=i=1N(2xi22Xiμ+μ2)=i=1N(Xi2)2μi=1N(Xi)+Nμ2=i=1N(Xi2)2Nμ2+Nμ2=i=1N(Xi2)Nμ2.

變異數定義為「離均差平方的平均」:
Var(X)=σ2=SSN=i=1N(Xiμ)2N;

變異數的另一種計算公式為

σ2=1N(i=1NXi2)μ2.

標準差定義為 「離均差平方的平均再開根號」:

σ=SSN=1Ni=1N(Xiμ)2;

標準差的另一種計算公式為

σ=1N(i=1NXi2)μ2.

  • 注意:樣本變異數(或標準差)不是母體(或標準差)的不偏估計,因為樣本來計算變異數(或標準差),會出現低估的情形。
  • 為了改善這點,樣本變異數需改以下式計算:
    s2=σ^2=SSN1=i=1N(Xiμ)2N1,
    樣本標準差需改以下式計算:
    s=σ^=SSN1=i=1N(Xiμ)2N1.
  • 以上公式中的分母
    N1
    自由度。在離均差的計算上,自由度為樣本數減
    1
    。對於小樣本而言,自由度的影響非常明顯。
  • 標準差的使用時機
    Image Not Showing Possible Reasons
    • The image file may be corrupted
    • The server hosting the image is unavailable
    • The image path is incorrect
    • The image format is not supported
    Learn More →

1.2.5 變異係數

單位對於離散量數的放大作用,可利用變異係數(或稱相對標準差)來消除,其定義為

CV=sX

1.3 分布形態

1.3.1 偏態

偏態可以描述數據分布的對稱性。依方向可分為負偏態(左偏,左側有偏離值)、正偏態(右偏,右側有偏離值)、與對稱(常態)三種情形。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

負偏態與地板效應有關,天花板效應與正偏態與有關。

樣本偏態係數的一種計算公式為

Skewness=g1=1Ni=1N(XiX)3[1Ni=1N(XiX)2]3/2

1.3.2 峰度

峰度可以描述數據集中部分的陡峭成度。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

樣本峰度係數的一種計算公式為

Kurtosis=g2=1Ni=1N(XiX)4[1Ni=1N(XiX)2]23

1.4 動差

數學上所謂的動差源自物理學中的。在實數體

R 上的實連續機率密度函數
f(x)
相對於值
c
n
階矩就定義成積分式
μn=(xc)nf(x)dx.
相對於
0
的矩稱為原動差,相對於平均數的矩稱為中心動差

  1. 期望值是一階原動差
    E(x)=xf(x)dx.

    例如量子力學中,對於狀態
    Ψ
    的粒子, 位置
    x
    的期望值為
    x=Ψ|x|Ψ=x|Ψ|2dx.
    粒子動量
    p
    的期望值為
    p=mdxdt=Ψ|ix|Ψ=Ψ(ix)Ψdx.
  2. 質心是質量分布的一階原動差
    xCM=xρ(x)dV,
    其中
    x
    是位置向量,
    ρ(x)
    是質量密度分布,
    dV
    是體積元素。
  3. 變異數是機率分布的二階中央動差
    Var(x)=(xμ)2f(x)dx.
  4. 轉動慣量質量分布的二階原動差
    I=(|x|2E3xx)ρ(x)dV,
    其中
    x
    是位置向量,
    E3
    是三階單位矩陣,
    是張量積,
    ρ(x)
    是質量密度分布,
    dV
    是體積元素。
  5. 偏態是機率分布的三階中央動差
    S(x)=(xμ)3f(x)dx.
  6. 峰態是機率分布的四階中央動差
    S(x)=(xμ)4f(x)dx.

1.5 相對量數

1.5.1 百分等級與百分位數

Excel 函數 PERCENTRANK
Excel 函數 PERCENTILE

1.5.2 四分位數

第一百分位數

Q1=P25
第二百分位數
Q2=P50=Mdn

第三百分位數
Q3=P75

Excel 函數 QUARTILE

同理,也可定義十分位數⋯⋯

1.6 標準分數

將一組線性數據轉換成不具單位、集中性的標準化(物理學稱歸一化)分數

1.6.1
z
分數

將原始分數減去平均數,再除以標準差,即得

z 分數。對於樣本數據,
z=XXs,
對於母體數據,
z=Xμσ.

  • z
    分數的平均數平移至
    0
    ,單位消失,標準差為
    1
  • 「轉換後為
    zi
    值」代表「原始數據
    Xi
    與平均數
    X
    相距
    |zi|
    個標準差」。
  • z
    分數不會改變分布形態。
  • 如果某一變數服從常態分布,則其
    z
    分數也服從常態分布,稱為稱為標準常態分布
    Image Not Showing Possible Reasons
    • The image file may be corrupted
    • The server hosting the image is unavailable
    • The image path is incorrect
    • The image format is not supported
    Learn More →

    P(1z1)=.6826=68.26%

    P(2z2)=.9544=95.44%

    P(3z3)=.9974=99.74%

    Excel 函數 NORMDIST 可找出機率值。

1.6.2
T
分數

因為

z 分數多介於
±3
之間,計算時多半有一至二位的小數點,再加上低於平均數的
z
分數帶有負號,實際使用上較為不便,因此在教育與測驗領域中,常使用
T
分數
,其定義為
T=50+10z.

詞彙中英對照

描述統計學 descriptive statistics
樣本, sample
樣本大小, sample size
樣本平均數, sample mean
樣本標準差, sample standard deviation
母體, population
母體大小, population size
母體平均數, population mean
集中趨勢, central tendency
分散趨勢, dispersion
集中趨勢量數, measures of central tendency
平均數, mean (M)
算術平均數, arithmetic mean (AM)
期望值, expected value
加權平均數, weighted mean
權數, weight
幾何平均數, geometric mean (GM)
調和平均數, harmonic mean (HM)
矩、動差, moment

n 階矩,
n
-th moment
原動差, raw moment
中央動差, central moment
中位數, median
四分位數, quartile
眾數, mode
離散型均勻分布, discrete uniform distrubution
單峰性, unimodality
單峰分布, unimodal distrubution
雙峰分布, bimodal distrubution
多峰分布, multimodal distrubution
分散趨勢量數, measures of dispersion
全距, range
四分位距,interquartile range (IQR)
四分差, quartile deviation (QD)
離均差, deviation from mean
平均差, mean deviation
平方和, sum of square (SS)
變異數, variation
標準差, standard deviation (SD)
母體標準差, population standard deviation
不偏估計數, unbiased estimator
變異係數, coefficient of varation (CV)
相對標準差, relative standard deviation (RSD)
標準誤, standard error (SE)
樣本平均數的標準誤, standard error of the sample mean (SEM)
分布形態, shape of distribution
偏態, skewness
負偏態、左偏態, negative skew
正偏態、右偏態, positive skew
峰度, kurtosis
高狹峰, leptokurtic
低闊峰, platykurtic
常態峰, mesokurtic
相對量數, measures
百分等級, percentile rank (PR)
百分位數, percentile point
四分位數, quartile
十分位數, decicile
標準分數, standard score
標準化、歸一化, normalized