要不要考研究所-統計-描述性統計

# 版權與著作權聲明本系列統計教學文章為我根據自身學習經驗、參考文獻與統計老師指導所整理的學習筆記與實務心得，僅供學術研究與學習交流使用。若內容有誤，歡迎指正，我將盡快進行修正與補充。 :::info **若您希望引用、轉載、節錄本文，請務必遵守以下規範：** * 註明文章出處 * 附上此文章原始連結 * 並標示作者：每天都是研究日(today is researchday @today-is-researchday) * 範例格式：本文轉載自「每天都是研究日」的統計教學系列： [原始連結網址] ::: :::danger **❗️侵權與法律責任❗️** 若經查證未經授權抄襲、轉載或變造文章內容、圖片、或作為商業用途與非商業用途使用，將依法追究法律責任。 ::: 如有合作、授權、教學邀約等需求，歡迎來信聯絡： 📩 [信箱：todayisresearchday@gmail.com] 🔸 [IG：https://www.instagram.com/today_is_researchday/] # 統計方法統計學中有兩個主要分支：描述統計和推論統計我們常聽到的t檢定、ANOVA這些分析方法是屬於推論統計的我將社會科學領域常見的分析方法畫成下圖其實分析方法還有很多啦，但這些是lab可能會比較常用到的(應該到迴歸分析就用不太到了) ![image](https://hackmd.io/_uploads/rkDiSrJdeg.png) ![image](https://hackmd.io/_uploads/SJdrHH1dll.png) ![image](https://hackmd.io/_uploads/rkl_rS1uee.png) ![image](https://hackmd.io/_uploads/ByPKSBJOge.png) 對統計來說，每種分析方法都有自己需要符合的先決條件(如：常態分配、同質性檢定、變數型態等等) 之後的文章都會有教學，我盡量寫成連討厭數學的小白都能懂的說法了>< [統計分析方法大圖](https://drive.google.com/file/d/1DyhZCTX33gCUbLGF1rNRrIF_Dbb05ZwY/view?usp=sharing) 更多統計基本知識，請看下面文章 [要不要考研究所_統計-統計基礎知識](/Rju2hFg8R3KEHpyM5gFaBw) ## 描述/敘述統計相較於推論統計，描述性統計是比較簡單的統計(? 描述統計主要是針對資料(資訊)進行描述，只是介紹數據大概整體的樣子，不會對數據去做進一步的假設與推論常見的描述性統計會說明：樣本數(N)、平均數(M/Mean)、標準差(SD)、標準誤(SE)、百分比、中位數跟信賴區間(CI)等等 :::danger 每個領域的描述性統計需要的欄位不同，可以多看看paper都放了什麼 ::: 之前在寫paper的時候，老師就建議我在開始分析前，都建議跑一個描述性統計舉例來說：我有用t檢定跟ANOVA分析不同性別跟學期的學生，對A面向有沒有影響所以在每個分析前，我都放了一個描述性統計(如下圖) ![image](https://hackmd.io/_uploads/HymCkG7_eg.png) 但要不要放或是描述性統計需要哪些欄位，就看指導教授說了算沒有絕對一定要放，但常見有放的就是樣本數、平均數、標準差、標準誤 ## 資料整理在開始進行描述性統計前，都要先整理一下原始數據，之後不管用哪套統計軟體跑都會比較好跑要把那些數據清掉，可以問指導教授每一次的清洗數據狀況都不同，只要合裡在論文中交代清楚就好 :::success **例如，我論文都會寫我依據以下內容清洗數據** **1. 同學校、學號、電子信箱且30分鐘內回答2次之重複回答 2. 反向題答錯者(如果有設計反向題，反向題填錯的)(雖然我很少設計反向題) 3. 缺漏值 (我的領域很常遇到受試者跳題或是沒填到問題，通常是當下回收時會馬上檢查，有缺就馬上補如果過好幾天/月才發現，去補問，這種我都覺得數據會有問題，我都會直接刪掉) 4. 亂回答問卷(這個是指，全部都填1這種的，我會當亂回答)** ::: 清好數據後，接下來要整理資料為了避免資料丟進統計軟體變亂碼，我建議 1. 資料去識別化，所有可以看出填答者身分的資料都要刪掉(例如:學號、姓名、信箱或其他個資等)，建議都轉成ID識別 2. 題目/題項變成全英文 3. 選項盡量都用代碼，例如性別的男女，變成1跟2(男生=1，女生=2)這樣 ![image](https://hackmd.io/_uploads/BkclTTLF-e.png) ## 統計常見名詞解釋 * 平均數所有數字加起來，再除以數量 :::info 例子： 5個人的成績： 80、90、70、60、100 平均數： (80 + 90 + 70 + 60 + 100) ÷ 5 = 80 所以平均成績是 80分 ::: * 標準誤指代表樣本平均數與母體平均數間的誤差程度(白話文：樣本平均數有多準確如果標準誤很小：代表這個平均值很可靠如果很大：代表平均值不太穩定 :::success 更多關於標準誤的解釋與舉例，可以去看[四個步驟徹底學習標準誤：它跟標準差到底有什麼不同？](https://haosquare.com/standard-error/) ::: * 標準差每一個數到平均數之間的距離 ![image](https://hackmd.io/_uploads/B1MLtGdtWl.png) * 變異數描述性統計通常不太會寫，但ANOVA就是拿變異數算的表示一組數值資料中的各數值，相對於該組數值資料的平均數分散程度 :::success 我覺得解釋的很好的變異數與標準差關係的文章 [統計急救箱─樣本變異數與標準差](https://vocus.cc/article/64c63eebfd89780001848da6) ::: * 信賴區間(通常是95%) 信賴區間可以自己調整，但通常是定義在95%(醫學相關的好像會訂在99%) 信賴區間的範圍很重要，研究有沒有顯著，其實是從信賴區間看的 ![image](https://hackmd.io/_uploads/rkZJ_cCYbg.png) 講信賴區間之前，要先講假設檢定我們在設定統計問題時，通常會建立假設會建立虛無假設(H0)與對立假設(H1) 如：性別對購買意願的影響(自變項：性別；依變項：購買意願) H0：性別不會影響購買意願 H1：性別會影響購買意願 :::info **．虛無假設(null hypothesis)H0：** 1️⃣ 先假設自變項不會對依變項有影響(假設兩者不會有差異) 2️⃣ 再用資料去推翻這個假設。 **．對立假說(alternative hypothesis)H1：** 研究者真正想證明的事情，會跟虛無假設的立場相反，當拒絕虛無假設時(p<.05)，即可接受對立假說，證實研究者的主張。 ::: 搞懂了虛無假設跟對立假設，接下來就要說信賴區間了從上圖可以看到，**有接受域跟拒絕域**，接受域就是當今天t值或z值等值落在接受域範圍，則接受虛無假設，代表虛無假設成立如果落在拒絕域，則不接受虛無假設，代表虛無假設不成立，對立假設成立而接受域是可以自行訂定的(但通常都是定接受域：47.5+47.5=95；拒絕域：0.025+0.025=0.05) 所以p=1.83(不顯著)，就是代表落在接受域，那麼研究的對立假設就不成立 p=0.04(顯著)，落在拒絕域，拒絕H0，研究成立 :::danger 總結來說，在做量化的流程大致上會有： 1️⃣ 設定假設 H₀：沒有差異 H₁：有差異 2️⃣ 收集資料(問卷/量表調查) 3️⃣ 進行統計檢定（t檢定或ANOVA等等) 得到：p = 0.03 4️⃣ 判斷結果因為：p < 0.05，落在拒絕域 👉 拒絕虛無假設代表：性別對購買意願有顯著影響 ::: :::success 想要知道信賴區間怎麼算的可以參考[信賴區間的意義和計算](https://drfishstats.com/inferential-stats/confidence-interval-with-sigma/) ::: ## 用excel跑描述性統計很多人都以為只有專業的統計軟體才能跑，但excel做為平民好工具，他其實也有資料分析的工具甚至很多統計分析，只要你懂計算邏輯，你下函式或是用加減乘除，也可以用excel算出那些 ~~(當時老師上課用excel算ANOVA，都覺得老師是個狠人)~~ ### 資料分析工具箱點選資料>資料分析>叫出資料分析工具箱 ![image](https://hackmd.io/_uploads/ryefm0LKbl.png) 如果找不到這個工具箱怎麼辦呢? 點選檔案>選項 ![image](https://hackmd.io/_uploads/S1xiQ0IFbg.png) 點選增益集>找到資料分析工具箱>點選執行>確定 ![image](https://hackmd.io/_uploads/HyAAX0Ut-l.png) 還是不知道怎麼用的，請看以下 [微軟載入資料分析工具箱教學](https://support.microsoft.com/zh-tw/office/%E5%9C%A8-excel-%E4%B8%AD%E8%BC%89%E5%85%A5%E5%88%86%E6%9E%90%E5%B7%A5%E5%85%B7%E7%AE%B1-6a63e598-cd6d-42e3-9317-6b40ba1a66b4) ### excel跑描述性統計下載工具箱後，點選資料>資料分析>叫出資料分析工具箱>點選敘述統計 1. 選取要分析的資料範圍 2. 如果第一列是題目記得要勾 **類別軸標記是在第一列上** 什麼叫題目?這個叫題目，如果選取的資料範圍有包含題目，記得要勾 ![image](https://hackmd.io/_uploads/r1ZGF0It-x.png) 3. 選擇輸出範圍 4. 一定要勾紅框處的兩個地方，這樣excel才會去計算 ![image](https://hackmd.io/_uploads/H1AK_0LKZx.png) --- 確定之後會跑出結果，就可以把結果填入到剛剛看到的描述性統計的表中 ![image](https://hackmd.io/_uploads/rJJr5CLYZg.png) ## 用SPSS跑描述性統計 ### 匯入資料打開SPSS，點選開啟>資料 ![image](https://hackmd.io/_uploads/B1mwwjCtWl.png) 找不到檔案，點選檔案類型，選擇所有檔案 ![image](https://hackmd.io/_uploads/HyH92oRFZe.png) ### 編輯變數型態與標籤名稱資料匯入成功!先點選變數選項，我們先來改變數型態跟名稱 ![image](https://hackmd.io/_uploads/By6D2sAKZg.png) 我會調整的只有下面紅色欄位 ![image](https://hackmd.io/_uploads/SJloRjAtbg.png) * 類型：我通常只會用到字串或數值 * 小數：我會設定是幾位小數或是整數 * 值：可以設定資料標籤，如：1=女性 * 測量：統計中資料的型態很重要，通常有名義、次序跟尺度，通常要跑推論統計(ANOVA那些)資料形態一定要是尺度(可以被計算的)，如果是名義就只能跑名義能跑的統計(如：卡方檢定) 不知道什麼是測量尺度的話，請參考 [要不要考研究所_統計-統計基礎知識](/Rju2hFg8R3KEHpyM5gFaBw) 選擇你要編輯的資料標籤的值，點選... ![image](https://hackmd.io/_uploads/SJwvxnRtZl.png) 把資料整理時的數字，再還原成中文或英文的資料標籤，並點選新增 ![image](https://hackmd.io/_uploads/r1ZixhAYbl.png) 輸入完畢後，按下確認送出 ![image](https://hackmd.io/_uploads/SJM6ghRYWl.png) ### 跑描述性統計點選分析>描述性統計>描述性統計量 ![image](https://hackmd.io/_uploads/r1neb30YZg.png) 你會發現，有些欄位不見了，因為字串是不能被計算的所以前面是字串的那些欄位，就不會出現像學期跟年級，能被計算，本身就是一件很奇怪的事情(如：平均2.78個學期) 所以在設定資料欄位時，一定要想清楚，這個欄位被計算後，是不是合理的 ![image](https://hackmd.io/_uploads/Sy9D-2AYbe.png) 將要分析的內容，丟到變數，點選旁邊的選項 ![image](https://hackmd.io/_uploads/rJK_MnCtZg.png) 把這些都勾起來 ![image](https://hackmd.io/_uploads/r1mjz2Ctbx.png) :::info 補充統計名詞英文數量=N 平均數=M 標準差=SD 標準誤=SE 信賴區間=CI ::: 跑完之後就會出現結果囉 ![image](https://hackmd.io/_uploads/Hk_IQnCY-l.png) ### 次數分配表如果有人問我，如果還是想要知道字串分別有多少(如：男女生分別有幾位)，可以怎麼算? 其實，SPSS還有個叫做次數分配表的也能算出描述性統計XDD 他可以同時算字串跟數值所以相比剛剛另一個，我更常用這個XDD 一次算完點選分析>敘述統計>次數分配表 ![image](https://hackmd.io/_uploads/HklFHr2Atbx.png) 把所有要跑的資料都丟到變數 ![image](https://hackmd.io/_uploads/B1UKHhCY-e.png) 點選旁邊的統計量，勾下面這些(或是你想勾的也可以勾起來) ![image](https://hackmd.io/_uploads/Skh483Rt-e.png) 如果你想看圖，也可以到圖表中點選想看的圖 ![image](https://hackmd.io/_uploads/B1vUU2AY-e.png) 可以發現，數值就會跑出平均數那些，但字串只會顯示個數 ![image](https://hackmd.io/_uploads/BkroUhRK-x.png) 下面也有個別的個數與百分比資料如果資料標籤沒有設定好，就會依照原始數據的內容顯示 ![image](https://hackmd.io/_uploads/B1RRIn0KWl.png) ## 用JASP跑描述性統計 ### 匯入資料與資料欄位編輯點選漢堡(那三條槓)>開啟>電腦>找到你的檔案 ![image](https://hackmd.io/_uploads/rJHS_h0F-e.png) 如果欄位名稱不是英文，或想改成中文在紅框處點兩下 ![image](https://hackmd.io/_uploads/Sy3c_2RYbx.png) 會跳出資料欄位編輯視窗，可以在這裡編輯，編輯時下面的資料是同步改變的資料欄位名稱資料型態(次序、尺度跟名義) 資料標籤，1=??? ![image](https://hackmd.io/_uploads/r1WMFhAtWg.png) ### 跑描述性統計編輯好資料，點選上面的分析，開始進行統計分析 ![image](https://hackmd.io/_uploads/SJDbj2RF-e.png) 點選描述性統計>描述性統計量 ![image](https://hackmd.io/_uploads/HJlBjnRKWx.png) 把所有要分析的資料丟到變量 ![image](https://hackmd.io/_uploads/ByDss3RY-g.png) 點選你要勾選的項目通常就是平均數、標準差、標準誤還有信賴區間(要選平均數的信賴區間!) 阿要跑常態檢定也是在這裡跑勾好之後，資料就會在旁邊跑出來囉! ![image](https://hackmd.io/_uploads/HJCIhhAKbg.png) # 描述性統計論文中撰寫方式老闆說表格中要放什麼，你就放什麼沒有說就放個數(N)、平均數(M)、標準差(SD)、標準誤(SE)、信賴區間上界、信賴區間下界 ![image](https://hackmd.io/_uploads/HymCkG7_eg.png) :::danger 從上表發現，在學期一時，A(M=2.76)、B(M=2.97)、 C(M=2.74)、D(M=2.89)跟E(M=2.90)，平均皆未達 3，表示許多大學生在學期一時不擅長使用或操作數位工具。 ::: 只能描述你看到的數字不能進行過多的推論!!!! 描述性統計不是推論統計，他只是在計算平均，告訴你數據分散的狀況還有平均不能說看到女性平均數>男性平均數就說，女性消費能力顯著高於男性 --- # 一些碎碎念自從上次發完考量的部分，看了朋友的書審後，朋友跟我考上同學校了(開心撒花) 消失這段時間，我ㄎ一ㄣˊ了我自己的研究進度，一整個大躍進(還有ㄎ一ㄣˊ了學弟的畢業進度，真的要瘋掉了) 看了N本論文，也寫了幾篇paper投出去了後續再慢慢分享給大家，包含我研究的內容應該也可以分享了(??? 謝謝我的學弟，跟我合作搞出了這個東東 :::info **補充一下** **如果你的研究，一開始沒有想好這個題目要怎麼分析你在寫研究結果時，就會炸裂(我也會炸裂，雖然很多時候我是笑出來)** **最近，看了很多學弟妹碩論在分析質性的內容(我們家很常做質性分析) 很開心地跑了描述性統計然後把不能加總計算的東西加總計算(例如次數或性別)** **算出來後跟我解釋這個行為平均有2.54次，標準差1.34 心臟都抽痛了一下** **孩子們，描述性統計不是讓你這樣用的(搖肩膀) 你先看看你剛剛在解釋些什麼鬼東西** ![image](https://hackmd.io/_uploads/BJoD03Atbe.png) ::: # 參考資料 [在 Excel 中載入分析工具箱](https://support.microsoft.com/zh-tw/office/%E5%9C%A8-excel-%E4%B8%AD%E8%BC%89%E5%85%A5%E5%88%86%E6%9E%90%E5%B7%A5%E5%85%B7%E7%AE%B1-6a63e598-cd6d-42e3-9317-6b40ba1a66b4)-取自微軟 [四個步驟徹底學習標準誤：它跟標準差到底有什麼不同？](https://haosquare.com/standard-error/)-取自好豪 [信賴區間的意義和計算](https://drfishstats.com/inferential-stats/confidence-interval-with-sigma/)-取自Dr.Fish漫游社會統計