--- tags: 【學習統計】 --- # 【學習統計 - 1】 - 什麼是統計?/敘述統計 > 此篇筆記使用【這樣的統計分析才準確】 ![](https://i.imgur.com/fErXcUJ.png) ## 筆者前言 --- 這個系列文章是因為認為需要把統計的知識做一個整理,寫出來讓自己用簡單的方式記得,但還是會盡力把裡面的公式寫出來以及做一個解釋。 # 什麼是統計? --- 現在大家都可以接觸到許多的「資訊」,大部分都是從 - 電視、廣播等大眾傳播 - 報紙、雜誌、書籍等文章記事 - 網路、手機及傳真等通訓方式 從以上這些資訊來源可以得到需多「統計資訊」,如 - 電視節目的收視率: 收集 **時間、節目、收視家庭數** 等資料, 藉此來得知某個時段有多少家庭在看同一檔節目。 - CD銷售排行榜: 收集CD店等 **銷售資料** ,調查目前CD受歡迎的程度。 - 天氣預報: 收集過去的天氣圖,以及**天氣、氣溫**等資料,來預測之後天氣的狀況。 所以我們可以從上訴例子得知,統計是將 * 某數值資料為對象,來檢視資料的走向及特徵,從這之中發現一些有用的資訊。 以電視節目的收視率為例: * 電視節目的收視率 -> 統計的主題(目的) * **時間、節目、收視家庭數** -> 統計(數據資料) 所以統計是根據**某個目的收集數據資料的活動**,而進一步 - 資料**整理、運算**,有時加上**統計圖**的方式並**找出有益的資訊** 這就是統計分析 ## 統計的流程 --- 1. **統計的目的** 與 **統計(數值)** - (目的) 得知A公司的股價變化,獲得有益的訊息 - (統計) 日期、股價資料 2. 選定達成統計目的的方法(統計分析的方法) > 為了得到A公司的股價變化,採用以下方法 - 求最大最小值 - 畫出折線圖 3. 根據選定的方法進行分析 - 得到**最小值**和**最大值** - 得到折線圖 5. 從分析結果讀出股價的變化 - 從最小值與最大值得知,股價在他們之間幅度的範圍(兩者相減), 以最小值當100%以及最大值的%數來了解A公司股價的上漲下跌。 ## 資料的定義/分類 --- 資料大致分兩種 - 量化資料(數值) - 質化資料(文字) - 文字資料數據化:男、女(0、1),晴、陰、雨(1、0、-1) 資料若把**時間**作為切入點,可以分為 ### 時序列資料 如:樹苗的成長紀錄 **不可** 將表的內容上下對調,會破壞資料本身的特性。 ### 橫斷面資料 如:薪資資料 每筆資料**各自獨立**,上下筆**資料間也沒有關聯**,即使**對調也不會影響表格的意義**。 ## 資料的收集和資料的基準 --- ### 名目尺度(質的資料) > 這裡的數字 **沒有大小關係** **沒有數字差距**,只是一個編號 - 男、女(0、1) - 晴、陰、雨(1、0、-1) - 有、無(0、1) ### 順序尺度(質的資料) > 這裡的數字 **有大小關係** **有數字差距**, 但 非常好(5)與好(4) 跟 好(4)與普通(3) 它們的**差距不一定是一樣**的 - 問卷調查->喜歡:3,普通:2,討厭:1 - 成績的5階段查詢->非常好:5,好:4,普通:3,在加一點油:2,加油:1 ### 區間尺度(量的資料) > 這裡的數字 **有大小關係** **有數字差距**, 但氣溫10$^{\circ}C$和20$^{\circ}C$不能說是差兩倍, 所以區間尺度是**不能表示比例的** - 氣溫->10$^{\circ}C$、20$^{\circ}C$、30$^{\circ}C$ - 考試->10分、20分、30分 - 年曆->2001年、2002年、2003年 ### 比例尺度(量的資料) > 這裡的數字 **有大小關係** **有數字差距**, 可以像一般數字一樣,如:1kg的兩倍可以表示為2kg - 重->1kg、2kg、3kg - 體重->10kg、20kg、30kg - 速度(時速)->10km、20km、30km - 長->1m、2m、3m ## 資料分類整理 --- 數值資料有時會分成幾個群組來整理,一個群組可以叫做一個**等級**,而等級範圍叫做**組距** ### 等級數(群組數) 學理上沒有資料分組的固定方法, - 過多 不容易掌握分析重點 - 過少 顯得粗糙 等級數量參考標準如下表 | 資料數 | 等級數 | | -------- | ------- | | ~100 | 5~7 | 超出100~1000|8~10| 超出1000|11~15| ### 組距(數值的範圍) 組距是包含資料內的最小值到最大值在內的範圍,以等級數除出來的數值為參考標準。 - 組距的參考標準=(最大值 - 最小值) / 等級數量 > 假設組距為5,那從最小值10 到 最大值50 > 就是這樣排 (10 ~ 15) , (15 ~ 20) , (25 ~ 30) ... (45 ~ 50) ### 等級分法 - 資料的數量為 36 - 等級數參考標準為 5~7 (我們取6) - 最低得分點 41 最高得分點 95 - 資料最大值 - 資料最小值 = 全距 可以瞭解資料分布情形 95-41=54 54全距 所以組距的參考標準為 (95-41)/6=9 但直接用9當組距等級會變成 - (41 ~ 50), (50 ~ 59) 這樣會變複雜,所以我們改成10當組距,並將最小值41改成40。 這樣就可以 - (40 ~ 50), (50 ~ 60), (60 ~ 70) ### 等級值 等級值是等級的 **中位數**,將等級的上限跟下限加起來除2, 以(40 ~ 50)這樣說明就不用用 - ✘40以上,未達50的等級 用(40+50)/2=45 - ✔等級值45 來說明 > 要注意的是 > **包含**40(40 ~ 50)**不包含**50,**包含**50(50 ~ 60)**不包含**60 ### 頻率分布 同一個等級裡的資料量叫做 **頻率**,就是發生次數 並將所有等級區分出來頻率集中狀況叫做 **頻率分布(也叫次數分配)** > 發生次數最多的數值叫 **眾數** ### 直方圖 / 長條圖 #### 直方圖 ![](https://i.imgur.com/vuIwu6u.png) #### 長條圖 ![](https://i.imgur.com/aUN0r45.png) 這剛開始都會不清楚他們差別在哪 > 直方圖則可以是文字,必須對齊文字,來表示某個地區發生次數。 > 長條圖X軸都是數值,不必對齊X軸的文字,來表示一組資料的分布 ## (平均數)無法精確掌握資料狀態的平均概念 --- **平均**是日常生活中最常用的統計學,這部分會好好說明 ### 何謂平均 平均就是代表一個範圍的數值 - 平均數=數值資料的總計/數值資料的個數 但平均數我認為不是好用的,因為平均數容易受到極端值的影響導致數值不準確 > **極端值** 就是較偏的數值,可以想成與其他數值差距很大 ## (中位數)找出最中央的資料 --- ### 何謂中位數(Median) 中位數就是資料按照順序並排時最中間的值 - 資料數為奇數 - 1 2 3 4 5 6 7 8 9 中位數為5 - 資料數為偶數 - 1 2 3 4 5 6 7 8 中位數為(4+5)/2=4.5 ## (眾數)找出最常見的數值 ### 所謂眾數(Mode) 眾數就是資料中最常出現的數值,要從龐大的資料中找出眾數很辛苦和麻煩 所以就可以用我們前面說到的直方圖來看,就可以找出眾數了 ## (變異數、標準差)調查資料的分布情形 ### 變異數-表示離散程度的指標 - 變異數($S^2$)=((每個資料數值-平均數)$^2$的合計 / 資料個數) - (每個資料數值-平均數) = **離差** - (每個資料數值-平均數)$^2$的合計 = **離差平方合** > 這裡為甚麼要平方? > 如果只是單純將離差加起來會產生正負號抵銷的效果, > 這樣就不能顯示分散情形的指標了, > 所以平方就是為了把負號取消掉。 - 母體變異數($S^2$)=((每個資料數值-平均數)$^2$的合計 / 資料個數) - 樣本變異數($S^2$)=((每個資料數值-平均數)$^2$的合計 / 資料個數 **-1** ) > 樣本小於30才需要-1 ### 標準差-表示離散程度的指標 - 變異數平方根就是 **標準差** > 將變異數($S^2$)的$^2$拿掉變成為標準差(S) ### 變異數、標準差小結 如果有兩個公司分別為A、B,拿他們各自30樣產品來做檢驗, 這叫做 **樣本** 標準差分別為 | A公司 | B公司 | | -------- | -------- | | 4.24 | 2.31 | 這時候我們可以用4.24/2.31約等1.8倍,來說明 A公司較B公司約有1.8倍的離散情形,但可能只是這次檢查碰巧的結果,之後還必須進行同樣的驗證, 如果B公司都比A公司離散還要大的話,有必要檢討B公司的機械維修方式。 ## (資料標準化)比較單位不同的資料 ### 資料標準化 資料標準化就是將不同資料的**平均數**或**標準差**換成**平均數(0)、標準差(1)**的**標準化常態分配** 例如:社區游泳協會女性會員的年齡資料和平均數分別為 > 社區游泳協會女性會員的**年齡**資料 15人 38 40 45 46 48 51 53 55 55 55 60 65 68 71 75 | 平均數 | 中位數 | 眾數 | 標準差| | -------- | -------- | -------- | --------| | 55歲 | 55歲 | 55歲 | 11歲| (抱歉畫得不是很好) ![](https://i.imgur.com/fqIhaoN.png) 先將平均數55歲當成基準點,而左右間距是用標準差11歲。 為了將他們**標準化**變成像這樣 ![](https://i.imgur.com/gBGxizJ.png) 那我們就先算出資料的離差 #### Step 1 年齡的離差(歲)=年齡(X歲)-平均年($\bar{X}$歲) #### Step 2 接著為了將標準差11變換成1,而以標準差來除 標準差修正 = 1/S(歲) > S=標準差 #### Step 3 那上面都算好之後 - Z = $\frac{X-\bar{X}}{S}$ = $\frac{年齡的離差(歲)}{年齡的標準差(歲)}$ 這個Z就是叫**標準化資料**,這樣年齡的單位利用分母分子互相打消掉之後,就可以得到和**單位無關的值**不管哪個資料只要進行標準化,單位的影響都會消失可以單純進行數值的大小比較。 #### 標準化的概念 標準化資料按照平均數0、標準差1的資料分布時,就可從標準化資料的數值大略瞭解原本的資料是甚麼樣的資料。 標準化資料的特徵 | 標準化資料(Z) | 原本資料的特徵 | | -------- | -------- | | Z=0 | 資料和平均數具有同樣的數值 | | 0<Z<1 | 資料筆平均數 **大**,但在標準差的範圍內 | | Z>1 | 資料愈超出標準差範圍,就愈 **大於平均數** 的數值 | | -1>Z>0 | 資料筆平均數 **小**,但在標準差的範圍內 | | Z<-1 | 資料愈超出標準差範圍,就愈 **小於平均數** 的數值 | 筆者認為簡單說就是,先準備好一個箱子(標準化)將我們要的資料轉成標準化資料,並放到那個箱子(標準化)裡 這樣就可以知道資料的分布狀態了,任何資料都可以。 # 敘述統計 和 推論統計 ## 敘述統計 介紹 目的在 **整理收集好** 的資料,掌握資料整體的 **性質或特徵、傾向** 。為了掌握整個資料的 **趨勢** ,會要找出 **平均數或標準差** 等的平均數,並畫出圖表。 ## 推論統計 介紹 目的在從 **全部資料(母體)** 中取出 **一部分的資料(樣本)** ,並以此資料為基準,來**掌握資料整體的性質或特徵、趨勢**。 > 有人會覺得不需要特別從全部資料裡取出一部分資料, > 但有時會因為資料的內容,從整個調查對象中收集資料大多會很困難,因此從整個資料中取出一部分的資料對現實而言,就變成收集全部的資料很困難,只能收集一部分的資料(如:總統大選的民調) - 利用 **很少的資訊(樣本)** 畫出 **背後整體的樣子(母體)** 這就是推論統計 # 敘述統計 ## 所謂相關性 ### 正相關 一邊數值 **增加** ,另一邊資料數值也具有一定規則性 **增加** 這叫 **有正相關** - 氣溫高$\uparrow$,冰淇淋就賣得好$\uparrow$ - 廣告次數增加$\uparrow$,集客率就高$\uparrow$ - A便當銷售的好$\uparrow$,B飲料就大賣$\uparrow$ ### 負相關 一邊數值 **增加** ,另一邊資料數值也具有一定規則性 **減少** 這叫 **有負相關** - 氣溫下降$\downarrow$,關東煮就很好賣$\uparrow$ - 離車站越遠$\uparrow$,租金就下降$\downarrow$ - 女性的就業率變高$\uparrow$,出生率就下降$\downarrow$ ## 相關性的強度和散佈圖 根據兩種資料的關聯性強度,可用 **相關性強** 或是 **相關性弱** - 相關性強的話,一方面資料如果 **增加** ,其他方面的資料就會顯著 **增加** - 相關性弱的話,一方面資料如果 **減少** ,其他方面的資料就會顯著 **減少** ### 相關性的強度和散佈圖 將兩種資料分成縱軸和橫軸,用點表示每個相對值的圖表,看到點的分布情況就可透過視覺來判斷是否相關。 ![](https://i.imgur.com/hLfjsKn.png) > QC七大手法之一:散佈圖 會發現 正相關的圖都是從 **左下** 到 **右上** 而 負相關的圖則相反是從 **左上** 到 **右下** 而 不相關的圖則是 分布很不均,無法確定方向性 ### 相關性的強度和共變異數 隨然只看散佈圖可以看得出有沒有關聯,但關係有多深呢? 圖上還不能具體的表示出來,所以數值表示關係強度的指標叫 **共變異數** 用「念書時間長,成績就好」的例子來看看共變異數。 #### 共變異數 因為是 **變異數** ,所以要找出資料的離差。而共變異數的 **共** 為 **兩種** 的意思,兩種資料的離差可如下表示。 - 念書時間的離差=念書時間-平均念書時間 - 成績的離差=成績-平均成績 前面有說過離差合計常變成0,無法作為有用的指標,所以用平方離差後除以資料的個數。 但此次資料有兩種所以**不進行平方而用相乘合計**來替代,讓他無法變0。所以 **共變異數的公式** - 念書時間和成績的共變異數 = $\frac{(念書時間的離差*成績的離差)的合計}{資料的組數}$ 共變異數的定義基本上是讓 **資料的離差變大** ,互乘離差的值也按照比例變大,而 **資料的組數不是指各自的資料個數合計** ,而是 **一對** 的組數 > 資料組數簡單講,就是這 **兩個資料的資料數目要相同**。 ### 共變異數和相關係數 有了共變異數並不是解決了所有問題,實際上共變異數裡有「依據資料的單位,數值會愈變愈大」的問題 針對念書時間和成績的例子 | 編號 | 用功時間 | 成績 | | -------- | -------- | -------- | | 1 | 0 | 10 | | 2 | 20 | 35 | | 3 | 30 | 30 | | 4 | 45 | 50 | | 5 | 70 | 55 | | 6 | 80 | 85 | | 7 | 90 | 75 | | 8 | 90 | 95 | | 9 | 120 | 90 | | 10 | 150 | 100 | | 平均 | 70 | 63 | - 念書時間和成績的共變異數 = 1216.25分鐘、分數 換成小時 - 念書時間和成績的共變異數 = 20.27小時、分數 換成秒 - 念書時間和成績的共變異數 = 72975秒、分數 這樣單位不同數值也不同,無法知道相關性強弱 ## 相關係數 - 念書時間和成績的相關係數 = $\frac{念書時間和成績的共變異數(分鐘、分數)}{念書時間的標準差(分鐘)*成績的標準差(分數)}$ 簡單說 - 相關係數 = $\frac{資料1和資料2的共變異數}{資料1的標準差*資料2的標準差}$ 這樣就可以像標準化一樣把單位打消掉了,但它產生出來的相關係數是只能介於在 **-1 到 1** 之間的數值。 相關係數1(正相關)的圖都是從 **左下** 到 **右上** 相關係數-1(負相關)的圖都是從 **左上** 到 **右下** 相關係數0(無相關)的圖都是從 分布很不均,無法確定方向性 ![](https://i.imgur.com/hLfjsKn.png) > QC七大手法之一:散佈圖 ## 回歸直線 ### 什麼是回歸直線 我們可以透過散佈圖來大略瞭解資料的趨勢。但這些都是以點來表示,有時候也會沒有資料的部分。 這時我們就照著趨勢畫一條直線,直線上的數值變成**預測值**,那麼就可以 **預測沒有資料部分** 得數值了 > 但不是隨便就畫一條直線 ### 畫回歸直線 以徒手去畫線可能會因為每個人的看法不同,進而造成改變了直線的斜率。 所以畫回歸直線的時候要遵守以下兩點 1. 能和各點的**偏差最小**來畫 2. 通過2種資料的**各自平均值**來畫 如果先不看第二點,第一點看起來很簡單卻很難,為了能達到第一點就必須使用 **最小平方法** 的2次方程式或偏微分的數學方法算 - 最小平方法: y=ax+b - y = 預測值 、 a = 直線的 **斜率** 、 x = 每筆資料的值 、 b = 截距 - 斜率(a)怎麼算呢? - a = r * $\frac{\sigma_y}{\sigma_x}$ - 將A產品、B產品的標準差分別放入X、Y後面乘上相關係數R就是斜率了 - 截距(b)怎麼算呢? - b = $\bar{y}$ - a * $\bar{x}$ - a=斜率 、 $\bar{x}$$\bar{y}$分別是X、Y的平均數 - 說明一下 - ax 是 x+1 等於會增加多少 a - 殘差 - 回歸直線(預測值y)和實際值得差距就叫 **殘差** ## 多重迴歸分析 ### **單一迴歸分析** 是兩種資料做預測迴歸分析 以2種資料所構成的迴歸方程式,以橫軸x、縱軸y直線、斜率為a、截距為b的話,公式在**畫回歸直線**有說明了 - y=ax+b 這個數學公式是為了要找出**相對於x的y**,簡單說就是「相對於豆腐單價(X)的銷售數量(y)」或「相對於念書時間(X)的成績(y)」,統計學裡將 - 相當於x的資料叫 **自變數** - 相當於y的資料叫做 **因變數** ### **多重迴歸分析** 是三種以上資料做預測迴歸分析 使用3種以上的資料時,公式如下 - y=$a_1x+a_2u+a_3v+...+b$ - $a_n$ n代表有多少資料 - 這裡面 x , u , v 一樣是自變數,這是為了找出預測值(y)的資料 - 說明一下 1. $a_1x$ 是 x+1 等於會增加多少$a_1$ 2. $a_2u$ 是 u+1 等於會增加多少$a_2$ 3. $a_3v$ 是 v+1 等於會增加多少$a_3$ 使用多重迴歸分析的時候,要記得所有資料都必須是要有 **相關的**,這樣才可以提高預測的準確度 ## 迴歸分析的精確度-檢查迴歸線是否合適 劃出散佈圖和迴歸直線時,雖然可透過視覺來判斷預測,但不一定每個人都可以進行同樣的判斷。 每個人認為的迴歸直線是不一樣的,所以我們需要有個能做同樣判斷的統計指標。 ### 決定係數 這裡需要不管是誰看了都可以客觀判斷迴歸分析精確度的指標。此指標叫做 **決定係數** 。 - 決定係數=$\frac{預測值的變異數}{實測值的變異數}$ - 但實測值其實就是等於 實測值=預測值+殘差 - 所以公式就可以變 決定係數=$\frac{預測值的變異數}{(預測值+殘差)的變異數}$ 這樣我們仔細看,會發現這個公式 - 沒有 **殘差** 的話 **決定係數就等於1** - **殘差 過大 決定係數就會接近0** 所以**沒有殘差**的話就是說**預測值和實測值是一致**的意思,所以**決定係數越接近1**不就代表可以畫出可用於預測得好線 總結: 瞭解了 - 統計的目的、流程、定義、分類 - 資料蒐集和資料的基準、分類、整理 - 平均數、中位數、眾數、變異數、標準差、資料標準化 敘述統計中的 - 相關性、相關係數、迴歸直線、多重迴歸直線、決定係數