Try   HackMD

數據分析學習筆記

一維數據分析

算術平均數

  • 假設
    n
    個數字
    x1,x2,x3,...,xn
  • 算術平均數
    μ=1n(x1+x2+x3+...+xn)

加權平均數

  • 假設
    n
    個數字
    x1,x2,x3,...,xn
    ,其中
    xi
    對應到的加權為
    wi
  • 加權平均數
    W=x1w1+x2w2+...+xnwnw1+w2+...+wn

幾何平均數

  • 假設
    n
    個數字
    x1,x2,x3,...,xn
  • 幾何平均數
    G=x1×x2×x3×...×xnn
  • 應用:假設某物
    n
    年的成長率分別為
    r1,r2,r3,...rn
    ,其平均成長率
    x=(1+r1)×(1+r2)×(1+r3)×...×(1+rn)n1
  • 證明:假設平均成長率為
    x
    ,過了
    n
    年後,其總成長率為
    (1+x)n=(1+r1)(1+r2)(1+r3)(1+r4)
  • 經過化簡可得
    x=(1+r1)×(1+r2)×(1+r3)×...×(1+rn)n1

百分位數

  • m
    百分位數
    Pm(1m99)
    :至少有
    m%
    的數據
    Pm
    ,至少有
    (100m)%
    的數據
    Pm
  • 假設一筆升冪排序過後的資料有
    n
    個數據
    x1
    ~
    xn
  • I=n×m100
  • IN,Pm=xI
    (
    I>I
    之最小整數)
  • IN,Pm=ave(xI,xI+1)

數據的離散程度

  • n
    個數據
    x1,x2,...,xn
    ,其算術平均數為
    μ
  • 全距:一堆數據中,最大值與最小值的差
  • 離均差:
    xi
    之離均差為
    xiμ
    i=1n(xiμ)=0
  • 變異數
    σ2=ave(i=1n(xiμ))
  • 標準差
    σ:
    離均差平方的平均之平方根(好饒舌)

數據的伸縮與平移

  • 給定
    n
    個數據
    x1,x2,x3...,xn
    ,其算術平均數為
    μ
    ,標準差
    σ
  • yi=axi+b,
    μy=aμx+b,σy=|a|σx

標準化數據

  • 將數據標準化後可得Z分數或是標準分數,可看出比原平均多/少幾個標準差
  • Zi=xiμσ
  • Z分數之特性
    1.
    μz=0

    2.
    σz=1

二維數據分析

  • 用以觀察兩種數據之間的關係
  • i.e.
    睡眠時數與罹患慢性病的比例

相關係數

  • 設有
    n
    筆資料
    (x1,x2),(x2,y2),...,(xn,yn)
  • x,y
    代表經標準化後的數據
  • 相關係數
    r=i=1nxiyin
  • 若數據未經標準化,則相關係數
    r=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2

迴歸直線

  • 最小平方法:尋找最小的殘差平方和
  • 迴歸直線方程式
  • 標準化數據:
    y=rx,r:
    相關係數
  • 未經標準化:
    yy=m(xx)
  • m=rσyσx
  • 迴歸直線必過點
    (μx,μy)=(x,y)

迴歸直線公式整理

  • Sxy=i=1n(xiμx)(yiμy),Sxx=i=1n(xiμx)2
  • y=rx
  • yy=rσyσx(xx)
  • yy=SxySxx(xx)