---
tags: 【學習統計】
---
# 【學習統計 - 1】 - 什麼是統計?/敘述統計
> 此篇筆記使用【這樣的統計分析才準確】

## 筆者前言
---
這個系列文章是因為認為需要把統計的知識做一個整理,寫出來讓自己用簡單的方式記得,但還是會盡力把裡面的公式寫出來以及做一個解釋。
# 什麼是統計?
---
現在大家都可以接觸到許多的「資訊」,大部分都是從
- 電視、廣播等大眾傳播
- 報紙、雜誌、書籍等文章記事
- 網路、手機及傳真等通訓方式
從以上這些資訊來源可以得到需多「統計資訊」,如
- 電視節目的收視率:
收集 **時間、節目、收視家庭數** 等資料,
藉此來得知某個時段有多少家庭在看同一檔節目。
- CD銷售排行榜:
收集CD店等 **銷售資料** ,調查目前CD受歡迎的程度。
- 天氣預報:
收集過去的天氣圖,以及**天氣、氣溫**等資料,來預測之後天氣的狀況。
所以我們可以從上訴例子得知,統計是將
* 某數值資料為對象,來檢視資料的走向及特徵,從這之中發現一些有用的資訊。
以電視節目的收視率為例:
* 電視節目的收視率 -> 統計的主題(目的)
* **時間、節目、收視家庭數** -> 統計(數據資料)
所以統計是根據**某個目的收集數據資料的活動**,而進一步
- 資料**整理、運算**,有時加上**統計圖**的方式並**找出有益的資訊**
這就是統計分析
## 統計的流程
---
1. **統計的目的** 與 **統計(數值)**
- (目的) 得知A公司的股價變化,獲得有益的訊息
- (統計) 日期、股價資料
2. 選定達成統計目的的方法(統計分析的方法)
> 為了得到A公司的股價變化,採用以下方法
- 求最大最小值
- 畫出折線圖
3. 根據選定的方法進行分析
- 得到**最小值**和**最大值**
- 得到折線圖
5. 從分析結果讀出股價的變化
- 從最小值與最大值得知,股價在他們之間幅度的範圍(兩者相減),
以最小值當100%以及最大值的%數來了解A公司股價的上漲下跌。
## 資料的定義/分類
---
資料大致分兩種
- 量化資料(數值)
- 質化資料(文字)
- 文字資料數據化:男、女(0、1),晴、陰、雨(1、0、-1)
資料若把**時間**作為切入點,可以分為
### 時序列資料
如:樹苗的成長紀錄
**不可** 將表的內容上下對調,會破壞資料本身的特性。
### 橫斷面資料
如:薪資資料
每筆資料**各自獨立**,上下筆**資料間也沒有關聯**,即使**對調也不會影響表格的意義**。
## 資料的收集和資料的基準
---
### 名目尺度(質的資料)
> 這裡的數字 **沒有大小關係** **沒有數字差距**,只是一個編號
- 男、女(0、1)
- 晴、陰、雨(1、0、-1)
- 有、無(0、1)
### 順序尺度(質的資料)
> 這裡的數字 **有大小關係** **有數字差距**,
但 非常好(5)與好(4) 跟 好(4)與普通(3) 它們的**差距不一定是一樣**的
- 問卷調查->喜歡:3,普通:2,討厭:1
- 成績的5階段查詢->非常好:5,好:4,普通:3,在加一點油:2,加油:1
### 區間尺度(量的資料)
> 這裡的數字 **有大小關係** **有數字差距**,
但氣溫10$^{\circ}C$和20$^{\circ}C$不能說是差兩倍,
所以區間尺度是**不能表示比例的**
- 氣溫->10$^{\circ}C$、20$^{\circ}C$、30$^{\circ}C$
- 考試->10分、20分、30分
- 年曆->2001年、2002年、2003年
### 比例尺度(量的資料)
> 這裡的數字 **有大小關係** **有數字差距**,
可以像一般數字一樣,如:1kg的兩倍可以表示為2kg
- 重->1kg、2kg、3kg
- 體重->10kg、20kg、30kg
- 速度(時速)->10km、20km、30km
- 長->1m、2m、3m
## 資料分類整理
---
數值資料有時會分成幾個群組來整理,一個群組可以叫做一個**等級**,而等級範圍叫做**組距**
### 等級數(群組數)
學理上沒有資料分組的固定方法,
- 過多 不容易掌握分析重點
- 過少 顯得粗糙
等級數量參考標準如下表
| 資料數 | 等級數 |
| -------- | ------- |
| ~100 | 5~7 |
超出100~1000|8~10|
超出1000|11~15|
### 組距(數值的範圍)
組距是包含資料內的最小值到最大值在內的範圍,以等級數除出來的數值為參考標準。
- 組距的參考標準=(最大值 - 最小值) / 等級數量
> 假設組距為5,那從最小值10 到 最大值50
> 就是這樣排 (10 ~ 15) , (15 ~ 20) , (25 ~ 30) ... (45 ~ 50)
### 等級分法
- 資料的數量為 36
- 等級數參考標準為 5~7 (我們取6)
- 最低得分點 41 最高得分點 95
- 資料最大值 - 資料最小值 = 全距
可以瞭解資料分布情形
95-41=54 54全距
所以組距的參考標準為 (95-41)/6=9
但直接用9當組距等級會變成
- (41 ~ 50), (50 ~ 59)
這樣會變複雜,所以我們改成10當組距,並將最小值41改成40。
這樣就可以
- (40 ~ 50), (50 ~ 60), (60 ~ 70)
### 等級值
等級值是等級的 **中位數**,將等級的上限跟下限加起來除2,
以(40 ~ 50)這樣說明就不用用
- ✘40以上,未達50的等級
用(40+50)/2=45
- ✔等級值45 來說明
> 要注意的是
> **包含**40(40 ~ 50)**不包含**50,**包含**50(50 ~ 60)**不包含**60
### 頻率分布
同一個等級裡的資料量叫做 **頻率**,就是發生次數
並將所有等級區分出來頻率集中狀況叫做 **頻率分布(也叫次數分配)**
> 發生次數最多的數值叫 **眾數**
### 直方圖 / 長條圖
#### 直方圖

#### 長條圖

這剛開始都會不清楚他們差別在哪
> 直方圖則可以是文字,必須對齊文字,來表示某個地區發生次數。
> 長條圖X軸都是數值,不必對齊X軸的文字,來表示一組資料的分布
## (平均數)無法精確掌握資料狀態的平均概念
---
**平均**是日常生活中最常用的統計學,這部分會好好說明
### 何謂平均
平均就是代表一個範圍的數值
- 平均數=數值資料的總計/數值資料的個數
但平均數我認為不是好用的,因為平均數容易受到極端值的影響導致數值不準確
> **極端值** 就是較偏的數值,可以想成與其他數值差距很大
## (中位數)找出最中央的資料
---
### 何謂中位數(Median)
中位數就是資料按照順序並排時最中間的值
- 資料數為奇數
- 1 2 3 4 5 6 7 8 9
中位數為5
- 資料數為偶數
- 1 2 3 4 5 6 7 8
中位數為(4+5)/2=4.5
## (眾數)找出最常見的數值
### 所謂眾數(Mode)
眾數就是資料中最常出現的數值,要從龐大的資料中找出眾數很辛苦和麻煩
所以就可以用我們前面說到的直方圖來看,就可以找出眾數了
## (變異數、標準差)調查資料的分布情形
### 變異數-表示離散程度的指標
- 變異數($S^2$)=((每個資料數值-平均數)$^2$的合計 / 資料個數)
- (每個資料數值-平均數) = **離差**
- (每個資料數值-平均數)$^2$的合計 = **離差平方合**
> 這裡為甚麼要平方?
> 如果只是單純將離差加起來會產生正負號抵銷的效果,
> 這樣就不能顯示分散情形的指標了,
> 所以平方就是為了把負號取消掉。
- 母體變異數($S^2$)=((每個資料數值-平均數)$^2$的合計 / 資料個數)
- 樣本變異數($S^2$)=((每個資料數值-平均數)$^2$的合計 / 資料個數 **-1** )
> 樣本小於30才需要-1
### 標準差-表示離散程度的指標
- 變異數平方根就是 **標準差**
> 將變異數($S^2$)的$^2$拿掉變成為標準差(S)
### 變異數、標準差小結
如果有兩個公司分別為A、B,拿他們各自30樣產品來做檢驗,
這叫做 **樣本**
標準差分別為
| A公司 | B公司 |
| -------- | -------- |
| 4.24 | 2.31 |
這時候我們可以用4.24/2.31約等1.8倍,來說明
A公司較B公司約有1.8倍的離散情形,但可能只是這次檢查碰巧的結果,之後還必須進行同樣的驗證,
如果B公司都比A公司離散還要大的話,有必要檢討B公司的機械維修方式。
## (資料標準化)比較單位不同的資料
### 資料標準化
資料標準化就是將不同資料的**平均數**或**標準差**換成**平均數(0)、標準差(1)**的**標準化常態分配**
例如:社區游泳協會女性會員的年齡資料和平均數分別為
> 社區游泳協會女性會員的**年齡**資料 15人
38 40 45 46 48 51 53 55
55 55 60 65 68 71 75
| 平均數 | 中位數 | 眾數 | 標準差|
| -------- | -------- | -------- | --------|
| 55歲 | 55歲 | 55歲 | 11歲|
(抱歉畫得不是很好)

先將平均數55歲當成基準點,而左右間距是用標準差11歲。
為了將他們**標準化**變成像這樣

那我們就先算出資料的離差
#### Step 1
年齡的離差(歲)=年齡(X歲)-平均年($\bar{X}$歲)
#### Step 2
接著為了將標準差11變換成1,而以標準差來除
標準差修正 = 1/S(歲)
> S=標準差
#### Step 3
那上面都算好之後
- Z = $\frac{X-\bar{X}}{S}$ = $\frac{年齡的離差(歲)}{年齡的標準差(歲)}$
這個Z就是叫**標準化資料**,這樣年齡的單位利用分母分子互相打消掉之後,就可以得到和**單位無關的值**不管哪個資料只要進行標準化,單位的影響都會消失可以單純進行數值的大小比較。
#### 標準化的概念
標準化資料按照平均數0、標準差1的資料分布時,就可從標準化資料的數值大略瞭解原本的資料是甚麼樣的資料。
標準化資料的特徵
| 標準化資料(Z) | 原本資料的特徵 |
| -------- | -------- |
| Z=0 | 資料和平均數具有同樣的數值 |
| 0<Z<1 | 資料筆平均數 **大**,但在標準差的範圍內 |
| Z>1 | 資料愈超出標準差範圍,就愈 **大於平均數** 的數值 |
| -1>Z>0 | 資料筆平均數 **小**,但在標準差的範圍內 |
| Z<-1 | 資料愈超出標準差範圍,就愈 **小於平均數** 的數值 |
筆者認為簡單說就是,先準備好一個箱子(標準化)將我們要的資料轉成標準化資料,並放到那個箱子(標準化)裡
這樣就可以知道資料的分布狀態了,任何資料都可以。
# 敘述統計 和 推論統計
## 敘述統計 介紹
目的在 **整理收集好** 的資料,掌握資料整體的 **性質或特徵、傾向** 。為了掌握整個資料的 **趨勢** ,會要找出 **平均數或標準差** 等的平均數,並畫出圖表。
## 推論統計 介紹
目的在從 **全部資料(母體)** 中取出 **一部分的資料(樣本)** ,並以此資料為基準,來**掌握資料整體的性質或特徵、趨勢**。
> 有人會覺得不需要特別從全部資料裡取出一部分資料,
> 但有時會因為資料的內容,從整個調查對象中收集資料大多會很困難,因此從整個資料中取出一部分的資料對現實而言,就變成收集全部的資料很困難,只能收集一部分的資料(如:總統大選的民調)
- 利用 **很少的資訊(樣本)** 畫出 **背後整體的樣子(母體)** 這就是推論統計
# 敘述統計
## 所謂相關性
### 正相關
一邊數值 **增加** ,另一邊資料數值也具有一定規則性 **增加** 這叫 **有正相關**
- 氣溫高$\uparrow$,冰淇淋就賣得好$\uparrow$
- 廣告次數增加$\uparrow$,集客率就高$\uparrow$
- A便當銷售的好$\uparrow$,B飲料就大賣$\uparrow$
### 負相關
一邊數值 **增加** ,另一邊資料數值也具有一定規則性 **減少** 這叫 **有負相關**
- 氣溫下降$\downarrow$,關東煮就很好賣$\uparrow$
- 離車站越遠$\uparrow$,租金就下降$\downarrow$
- 女性的就業率變高$\uparrow$,出生率就下降$\downarrow$
## 相關性的強度和散佈圖
根據兩種資料的關聯性強度,可用 **相關性強** 或是 **相關性弱**
- 相關性強的話,一方面資料如果 **增加** ,其他方面的資料就會顯著 **增加**
- 相關性弱的話,一方面資料如果 **減少** ,其他方面的資料就會顯著 **減少**
### 相關性的強度和散佈圖
將兩種資料分成縱軸和橫軸,用點表示每個相對值的圖表,看到點的分布情況就可透過視覺來判斷是否相關。

> QC七大手法之一:散佈圖
會發現 正相關的圖都是從 **左下** 到 **右上**
而 負相關的圖則相反是從 **左上** 到 **右下**
而 不相關的圖則是 分布很不均,無法確定方向性
### 相關性的強度和共變異數
隨然只看散佈圖可以看得出有沒有關聯,但關係有多深呢?
圖上還不能具體的表示出來,所以數值表示關係強度的指標叫 **共變異數**
用「念書時間長,成績就好」的例子來看看共變異數。
#### 共變異數
因為是 **變異數** ,所以要找出資料的離差。而共變異數的 **共** 為 **兩種** 的意思,兩種資料的離差可如下表示。
- 念書時間的離差=念書時間-平均念書時間
- 成績的離差=成績-平均成績
前面有說過離差合計常變成0,無法作為有用的指標,所以用平方離差後除以資料的個數。
但此次資料有兩種所以**不進行平方而用相乘合計**來替代,讓他無法變0。所以 **共變異數的公式**
- 念書時間和成績的共變異數 = $\frac{(念書時間的離差*成績的離差)的合計}{資料的組數}$
共變異數的定義基本上是讓 **資料的離差變大** ,互乘離差的值也按照比例變大,而 **資料的組數不是指各自的資料個數合計** ,而是 **一對** 的組數
> 資料組數簡單講,就是這 **兩個資料的資料數目要相同**。
### 共變異數和相關係數
有了共變異數並不是解決了所有問題,實際上共變異數裡有「依據資料的單位,數值會愈變愈大」的問題
針對念書時間和成績的例子
| 編號 | 用功時間 | 成績 |
| -------- | -------- | -------- |
| 1 | 0 | 10 |
| 2 | 20 | 35 |
| 3 | 30 | 30 |
| 4 | 45 | 50 |
| 5 | 70 | 55 |
| 6 | 80 | 85 |
| 7 | 90 | 75 |
| 8 | 90 | 95 |
| 9 | 120 | 90 |
| 10 | 150 | 100 |
| 平均 | 70 | 63 |
- 念書時間和成績的共變異數 = 1216.25分鐘、分數
換成小時
- 念書時間和成績的共變異數 = 20.27小時、分數
換成秒
- 念書時間和成績的共變異數 = 72975秒、分數
這樣單位不同數值也不同,無法知道相關性強弱
## 相關係數
- 念書時間和成績的相關係數 = $\frac{念書時間和成績的共變異數(分鐘、分數)}{念書時間的標準差(分鐘)*成績的標準差(分數)}$
簡單說
- 相關係數 = $\frac{資料1和資料2的共變異數}{資料1的標準差*資料2的標準差}$
這樣就可以像標準化一樣把單位打消掉了,但它產生出來的相關係數是只能介於在 **-1 到 1** 之間的數值。
相關係數1(正相關)的圖都是從 **左下** 到 **右上**
相關係數-1(負相關)的圖都是從 **左上** 到 **右下**
相關係數0(無相關)的圖都是從 分布很不均,無法確定方向性

> QC七大手法之一:散佈圖
## 回歸直線
### 什麼是回歸直線
我們可以透過散佈圖來大略瞭解資料的趨勢。但這些都是以點來表示,有時候也會沒有資料的部分。
這時我們就照著趨勢畫一條直線,直線上的數值變成**預測值**,那麼就可以 **預測沒有資料部分** 得數值了
> 但不是隨便就畫一條直線
### 畫回歸直線
以徒手去畫線可能會因為每個人的看法不同,進而造成改變了直線的斜率。
所以畫回歸直線的時候要遵守以下兩點
1. 能和各點的**偏差最小**來畫
2. 通過2種資料的**各自平均值**來畫
如果先不看第二點,第一點看起來很簡單卻很難,為了能達到第一點就必須使用 **最小平方法** 的2次方程式或偏微分的數學方法算
- 最小平方法: y=ax+b
- y = 預測值 、 a = 直線的 **斜率** 、 x = 每筆資料的值 、 b = 截距
- 斜率(a)怎麼算呢?
- a = r * $\frac{\sigma_y}{\sigma_x}$
- 將A產品、B產品的標準差分別放入X、Y後面乘上相關係數R就是斜率了
- 截距(b)怎麼算呢?
- b = $\bar{y}$ - a * $\bar{x}$
- a=斜率 、 $\bar{x}$$\bar{y}$分別是X、Y的平均數
- 說明一下
- ax 是 x+1 等於會增加多少 a
- 殘差
- 回歸直線(預測值y)和實際值得差距就叫 **殘差**
## 多重迴歸分析
### **單一迴歸分析** 是兩種資料做預測迴歸分析
以2種資料所構成的迴歸方程式,以橫軸x、縱軸y直線、斜率為a、截距為b的話,公式在**畫回歸直線**有說明了
- y=ax+b
這個數學公式是為了要找出**相對於x的y**,簡單說就是「相對於豆腐單價(X)的銷售數量(y)」或「相對於念書時間(X)的成績(y)」,統計學裡將
- 相當於x的資料叫 **自變數**
- 相當於y的資料叫做 **因變數**
### **多重迴歸分析** 是三種以上資料做預測迴歸分析
使用3種以上的資料時,公式如下
- y=$a_1x+a_2u+a_3v+...+b$
- $a_n$ n代表有多少資料
- 這裡面 x , u , v 一樣是自變數,這是為了找出預測值(y)的資料
- 說明一下
1. $a_1x$ 是 x+1 等於會增加多少$a_1$
2. $a_2u$ 是 u+1 等於會增加多少$a_2$
3. $a_3v$ 是 v+1 等於會增加多少$a_3$
使用多重迴歸分析的時候,要記得所有資料都必須是要有 **相關的**,這樣才可以提高預測的準確度
## 迴歸分析的精確度-檢查迴歸線是否合適
劃出散佈圖和迴歸直線時,雖然可透過視覺來判斷預測,但不一定每個人都可以進行同樣的判斷。
每個人認為的迴歸直線是不一樣的,所以我們需要有個能做同樣判斷的統計指標。
### 決定係數
這裡需要不管是誰看了都可以客觀判斷迴歸分析精確度的指標。此指標叫做 **決定係數** 。
- 決定係數=$\frac{預測值的變異數}{實測值的變異數}$
- 但實測值其實就是等於 實測值=預測值+殘差
- 所以公式就可以變 決定係數=$\frac{預測值的變異數}{(預測值+殘差)的變異數}$
這樣我們仔細看,會發現這個公式
- 沒有 **殘差** 的話 **決定係數就等於1**
- **殘差 過大 決定係數就會接近0**
所以**沒有殘差**的話就是說**預測值和實測值是一致**的意思,所以**決定係數越接近1**不就代表可以畫出可用於預測得好線
總結:
瞭解了
- 統計的目的、流程、定義、分類
- 資料蒐集和資料的基準、分類、整理
- 平均數、中位數、眾數、變異數、標準差、資料標準化
敘述統計中的
- 相關性、相關係數、迴歸直線、多重迴歸直線、決定係數