# 版權與著作權聲明 本系列統計教學文章為我根據自身學習經驗、參考文獻與統計老師指導所整理的學習筆記與實務心得,僅供學術研究與學習交流使用。若內容有誤,歡迎指正,我將盡快進行修正與補充。 :::info **若您希望引用、轉載、節錄本文,請務必遵守以下規範:** * 註明文章出處 * 附上此文章原始連結 * 並標示作者:每天都是研究日(today is researchday @today-is-researchday) * 範例格式: 本文轉載自「每天都是研究日」的統計教學系列: [原始連結網址] ::: :::danger **❗️侵權與法律責任❗️** 若經查證未經授權抄襲、轉載或變造文章內容、圖片、或作為商業用途與非商業用途使用,將依法追究法律責任。 ::: 如有合作、授權、教學邀約等需求,歡迎來信聯絡: 📩 [信箱:todayisresearchday@gmail.com] 🔸 [IG:https://www.instagram.com/today_is_researchday/] # 統計方法 統計學中有兩個主要分支:描述統計和推論統計 我們常聽到的t檢定、ANOVA這些分析方法是屬於推論統計的 我將社會科學領域常見的分析方法畫成下圖 其實分析方法還有很多啦,但這些是lab可能會比較常用到的(應該到迴歸分析就用不太到了) ![image](https://hackmd.io/_uploads/rkDiSrJdeg.png) ![image](https://hackmd.io/_uploads/SJdrHH1dll.png) ![image](https://hackmd.io/_uploads/rkl_rS1uee.png) ![image](https://hackmd.io/_uploads/ByPKSBJOge.png) 對統計來說,每種分析方法都有自己需要符合的先決條件(如:常態分配、同質性檢定、變數型態等等) 之後的文章都會有教學,我盡量寫成連討厭數學的小白都能懂的說法了>< [統計分析方法大圖](https://drive.google.com/file/d/1DyhZCTX33gCUbLGF1rNRrIF_Dbb05ZwY/view?usp=sharing) 更多統計基本知識,請看下面文章 [要不要考研究所_統計-統計基礎知識](/Rju2hFg8R3KEHpyM5gFaBw) ## 描述/敘述統計 相較於推論統計,描述性統計是比較簡單的統計(? 描述統計主要是針對資料(資訊)進行描述,只是介紹數據大概整體的樣子,不會對數據去做進一步的假設與推論 常見的描述性統計會說明:樣本數(N)、平均數(M/Mean)、標準差(SD)、標準誤(SE)、百分比、中位數跟信賴區間(CI)等等 :::danger 每個領域的描述性統計需要的欄位不同,可以多看看paper都放了什麼 ::: 之前在寫paper的時候,老師就建議我在開始分析前,都建議跑一個描述性統計 舉例來說:我有用t檢定跟ANOVA分析不同性別跟學期的學生,對A面向有沒有影響 所以在每個分析前,我都放了一個描述性統計(如下圖) ![image](https://hackmd.io/_uploads/HymCkG7_eg.png) 但要不要放或是描述性統計需要哪些欄位,就看指導教授說了算 沒有絕對一定要放,但常見有放的就是樣本數、平均數、標準差、標準誤 ## 資料整理 在開始進行描述性統計前,都要先整理一下原始數據,之後不管用哪套統計軟體跑都會比較好跑 要把那些數據清掉,可以問指導教授 每一次的清洗數據狀況都不同,只要合裡在論文中交代清楚就好 :::success **例如,我論文都會寫我依據以下內容清洗數據** **1. 同學校、學號、電子信箱且30分鐘內回答2次之重複回答 2. 反向題答錯者(如果有設計反向題,反向題填錯的)(雖然我很少設計反向題) 3. 缺漏值 (我的領域很常遇到受試者跳題或是沒填到問題,通常是當下回收時會馬上檢查,有缺就馬上補 如果過好幾天/月才發現,去補問,這種我都覺得數據會有問題,我都會直接刪掉) 4. 亂回答問卷(這個是指,全部都填1這種的,我會當亂回答)** ::: 清好數據後,接下來要整理資料 為了避免資料丟進統計軟體變亂碼,我建議 1. 資料去識別化,所有可以看出填答者身分的資料都要刪掉(例如:學號、姓名、信箱或其他個資等),建議都轉成ID識別 2. 題目/題項變成全英文 3. 選項盡量都用代碼,例如性別的男女,變成1跟2(男生=1,女生=2)這樣 ![image](https://hackmd.io/_uploads/BkclTTLF-e.png) ## 統計常見名詞解釋 * 平均數 所有數字加起來,再除以數量 :::info 例子: 5個人的成績: 80、90、70、60、100 平均數: (80 + 90 + 70 + 60 + 100) ÷ 5 = 80 所以平均成績是 80分 ::: * 標準誤 指代表樣本平均數與母體平均數間的誤差程度(白話文:樣本平均數有多準確 如果標準誤很小:代表這個平均值很可靠 如果很大: 代表平均值不太穩定 :::success 更多關於標準誤的解釋與舉例,可以去看[四個步驟徹底學習標準誤:它跟標準差到底有什麼不同?](https://haosquare.com/standard-error/) ::: * 標準差 每一個數到平均數之間的距離 ![image](https://hackmd.io/_uploads/B1MLtGdtWl.png) * 變異數 描述性統計通常不太會寫,但ANOVA就是拿變異數算的 表示一組數值資料中的各數值,相對於該組數值資料的平均數分散程度 :::success 我覺得解釋的很好的變異數與標準差關係的文章 [統計急救箱─樣本變異數與標準差](https://vocus.cc/article/64c63eebfd89780001848da6) ::: * 信賴區間(通常是95%) 信賴區間可以自己調整,但通常是定義在95%(醫學相關的好像會訂在99%) 信賴區間的範圍很重要,研究有沒有顯著,其實是從信賴區間看的 ![image](https://hackmd.io/_uploads/rkZJ_cCYbg.png) 講信賴區間之前,要先講假設檢定 我們在設定統計問題時,通常會建立假設 會建立虛無假設(H0)與對立假設(H1) 如:性別對購買意願的影響(自變項:性別;依變項:購買意願) H0:性別不會影響購買意願 H1:性別會影響購買意願 :::info **.虛無假設(null hypothesis)H0:** 1️⃣ 先假設自變項不會對依變項有影響(假設兩者不會有差異) 2️⃣ 再用資料去 推翻這個假設。 **.對立假說(alternative hypothesis)H1:** 研究者真正想證明的事情,會跟虛無假設的立場相反,當拒絕虛無假設時(p<.05),即可接受對立假說,證實研究者的主張。 ::: 搞懂了虛無假設跟對立假設,接下來就要說信賴區間了 從上圖可以看到,**有接受域跟拒絕域**,接受域就是當今天t值或z值等值落在接受域範圍,則接受虛無假設,代表虛無假設成立 如果落在拒絕域,則不接受虛無假設,代表虛無假設不成立,對立假設成立 而接受域是可以自行訂定的(但通常都是定接受域:47.5+47.5=95;拒絕域:0.025+0.025=0.05) 所以p=1.83(不顯著),就是代表落在接受域,那麼研究的對立假設就不成立 p=0.04(顯著),落在拒絕域,拒絕H0,研究成立 :::danger 總結來說,在做量化的流程大致上會有: 1️⃣ 設定假設 H₀:沒有差異 H₁:有差異 2️⃣ 收集資料(問卷/量表調查) 3️⃣ 進行統計檢定(t檢定或ANOVA等等) 得到:p = 0.03 4️⃣ 判斷結果 因為:p < 0.05,落在拒絕域 👉 拒絕虛無假設 代表:性別對購買意願有顯著影響 ::: :::success 想要知道信賴區間怎麼算的 可以參考[信賴區間的意義和計算](https://drfishstats.com/inferential-stats/confidence-interval-with-sigma/) ::: ## 用excel跑描述性統計 很多人都以為只有專業的統計軟體才能跑,但excel做為平民好工具,他其實也有資料分析的工具 甚至很多統計分析,只要你懂計算邏輯,你下函式或是用加減乘除,也可以用excel算出那些 ~~(當時老師上課用excel算ANOVA,都覺得老師是個狠人)~~ ### 資料分析工具箱 點選資料>資料分析>叫出資料分析工具箱 ![image](https://hackmd.io/_uploads/ryefm0LKbl.png) 如果找不到這個工具箱怎麼辦呢? 點選檔案>選項 ![image](https://hackmd.io/_uploads/S1xiQ0IFbg.png) 點選增益集>找到資料分析工具箱>點選執行>確定 ![image](https://hackmd.io/_uploads/HyAAX0Ut-l.png) 還是不知道怎麼用的,請看以下 [微軟載入資料分析工具箱教學](https://support.microsoft.com/zh-tw/office/%E5%9C%A8-excel-%E4%B8%AD%E8%BC%89%E5%85%A5%E5%88%86%E6%9E%90%E5%B7%A5%E5%85%B7%E7%AE%B1-6a63e598-cd6d-42e3-9317-6b40ba1a66b4) ### excel跑描述性統計 下載工具箱後,點選資料>資料分析>叫出資料分析工具箱>點選敘述統計 1. 選取要分析的資料範圍 2. 如果第一列是題目記得要勾 **類別軸標記是在第一列上** 什麼叫題目?這個叫題目,如果選取的資料範圍有包含題目,記得要勾 ![image](https://hackmd.io/_uploads/r1ZGF0It-x.png) 3. 選擇輸出範圍 4. 一定要勾紅框處的兩個地方,這樣excel才會去計算 ![image](https://hackmd.io/_uploads/H1AK_0LKZx.png) --- 確定之後會跑出結果,就可以把結果填入到剛剛看到的描述性統計的表中 ![image](https://hackmd.io/_uploads/rJJr5CLYZg.png) ## 用SPSS跑描述性統計 ### 匯入資料 打開SPSS,點選開啟>資料 ![image](https://hackmd.io/_uploads/B1mwwjCtWl.png) 找不到檔案,點選檔案類型,選擇所有檔案 ![image](https://hackmd.io/_uploads/HyH92oRFZe.png) ### 編輯變數型態與標籤名稱 資料匯入成功!先點選變數選項,我們先來改變數型態跟名稱 ![image](https://hackmd.io/_uploads/By6D2sAKZg.png) 我會調整的只有下面紅色欄位 ![image](https://hackmd.io/_uploads/SJloRjAtbg.png) * 類型:我通常只會用到字串或數值 * 小數:我會設定是幾位小數或是整數 * 值:可以設定資料標籤,如:1=女性 * 測量:統計中資料的型態很重要,通常有名義、次序跟尺度,通常要跑推論統計(ANOVA那些)資料形態一定要是尺度(可以被計算的),如果是名義就只能跑名義能跑的統計(如:卡方檢定) 不知道什麼是測量尺度的話,請參考 [要不要考研究所_統計-統計基礎知識](/Rju2hFg8R3KEHpyM5gFaBw) 選擇你要編輯的資料標籤的值,點選... ![image](https://hackmd.io/_uploads/SJwvxnRtZl.png) 把資料整理時的數字,再還原成中文或英文的資料標籤,並點選新增 ![image](https://hackmd.io/_uploads/r1ZixhAYbl.png) 輸入完畢後,按下確認送出 ![image](https://hackmd.io/_uploads/SJM6ghRYWl.png) ### 跑描述性統計 點選分析>描述性統計>描述性統計量 ![image](https://hackmd.io/_uploads/r1neb30YZg.png) 你會發現,有些欄位不見了,因為字串是不能被計算的 所以前面是字串的那些欄位,就不會出現 像學期跟年級,能被計算,本身就是一件很奇怪的事情(如:平均2.78個學期) 所以在設定資料欄位時,一定要想清楚,這個欄位被計算後,是不是合理的 ![image](https://hackmd.io/_uploads/Sy9D-2AYbe.png) 將要分析的內容,丟到變數,點選旁邊的選項 ![image](https://hackmd.io/_uploads/rJK_MnCtZg.png) 把這些都勾起來 ![image](https://hackmd.io/_uploads/r1mjz2Ctbx.png) :::info 補充統計名詞英文 數量=N 平均數=M 標準差=SD 標準誤=SE 信賴區間=CI ::: 跑完之後就會出現結果囉 ![image](https://hackmd.io/_uploads/Hk_IQnCY-l.png) ### 次數分配表 如果有人問我,如果還是想要知道字串分別有多少(如:男女生分別有幾位),可以怎麼算? 其實,SPSS還有個叫做次數分配表的也能算出描述性統計XDD 他可以同時算字串跟數值 所以相比剛剛另一個,我更常用這個XDD 一次算完 點選分析>敘述統計>次數分配表 ![image](https://hackmd.io/_uploads/HklFHr2Atbx.png) 把所有要跑的資料都丟到變數 ![image](https://hackmd.io/_uploads/B1UKHhCY-e.png) 點選旁邊的統計量,勾下面這些(或是你想勾的也可以勾起來) ![image](https://hackmd.io/_uploads/Skh483Rt-e.png) 如果你想看圖,也可以到圖表中點選想看的圖 ![image](https://hackmd.io/_uploads/B1vUU2AY-e.png) 可以發現,數值就會跑出平均數那些,但字串只會顯示個數 ![image](https://hackmd.io/_uploads/BkroUhRK-x.png) 下面也有個別的個數與百分比資料 如果資料標籤沒有設定好,就會依照原始數據的內容顯示 ![image](https://hackmd.io/_uploads/B1RRIn0KWl.png) ## 用JASP跑描述性統計 ### 匯入資料與資料欄位編輯 點選漢堡(那三條槓)>開啟>電腦>找到你的檔案 ![image](https://hackmd.io/_uploads/rJHS_h0F-e.png) 如果欄位名稱不是英文,或想改成中文 在紅框處點兩下 ![image](https://hackmd.io/_uploads/Sy3c_2RYbx.png) 會跳出資料欄位編輯視窗,可以在這裡編輯,編輯時下面的資料是同步改變的 資料欄位名稱 資料型態(次序、尺度跟名義) 資料標籤,1=??? ![image](https://hackmd.io/_uploads/r1WMFhAtWg.png) ### 跑描述性統計 編輯好資料,點選上面的分析,開始進行統計分析 ![image](https://hackmd.io/_uploads/SJDbj2RF-e.png) 點選描述性統計>描述性統計量 ![image](https://hackmd.io/_uploads/HJlBjnRKWx.png) 把所有要分析的資料丟到變量 ![image](https://hackmd.io/_uploads/ByDss3RY-g.png) 點選你要勾選的項目 通常就是平均數、標準差、標準誤還有信賴區間(要選平均數的信賴區間!) 阿要跑常態檢定也是在這裡跑 勾好之後,資料就會在旁邊跑出來囉! ![image](https://hackmd.io/_uploads/HJCIhhAKbg.png) # 描述性統計論文中撰寫方式 老闆說表格中要放什麼,你就放什麼 沒有說就放個數(N)、平均數(M)、標準差(SD)、標準誤(SE)、信賴區間上界、信賴區間下界 ![image](https://hackmd.io/_uploads/HymCkG7_eg.png) :::danger 從上表發現,在學期一時,A(M=2.76)、B(M=2.97)、 C(M=2.74)、D(M=2.89)跟E(M=2.90),平均皆未達 3,表 示許多大學生在學期一時不擅長使用或操作數位工具。 ::: 只能描述你看到的數字 不能進行過多的推論!!!! 描述性統計不是推論統計,他只是在計算平均,告訴你數據分散的狀況還有平均 不能說看到 女性平均數>男性平均數就說,女性消費能力顯著高於男性 --- # 一些碎碎念 自從上次發完考量的部分,看了朋友的書審後,朋友跟我考上同學校了(開心撒花) 消失這段時間,我ㄎ一ㄣˊ了我自己的研究進度,一整個大躍進(還有ㄎ一ㄣˊ了學弟的畢業進度,真的要瘋掉了) 看了N本論文,也寫了幾篇paper投出去了 後續再慢慢分享給大家,包含我研究的內容應該也可以分享了(??? 謝謝我的學弟,跟我合作搞出了這個東東 :::info **補充一下** **如果你的研究,一開始沒有想好這個題目要怎麼分析 你在寫研究結果時,就會炸裂(我也會炸裂,雖然很多時候我是笑出來)** **最近,看了很多學弟妹碩論在分析質性的內容(我們家很常做質性分析) 很開心地跑了描述性統計 然後把不能加總計算的東西加總計算(例如次數或性別)** **算出來後跟我解釋這個行為平均有2.54次,標準差1.34 心臟都抽痛了一下** **孩子們,描述性統計不是讓你這樣用的(搖肩膀) 你先看看你剛剛在解釋些什麼鬼東西** ![image](https://hackmd.io/_uploads/BJoD03Atbe.png) ::: # 參考資料 [在 Excel 中載入分析工具箱](https://support.microsoft.com/zh-tw/office/%E5%9C%A8-excel-%E4%B8%AD%E8%BC%89%E5%85%A5%E5%88%86%E6%9E%90%E5%B7%A5%E5%85%B7%E7%AE%B1-6a63e598-cd6d-42e3-9317-6b40ba1a66b4)-取自微軟 [四個步驟徹底學習標準誤:它跟標準差到底有什麼不同?](https://haosquare.com/standard-error/)-取自好豪 [信賴區間的意義和計算](https://drfishstats.com/inferential-stats/confidence-interval-with-sigma/)-取自Dr.Fish漫游社會統計