要不要考研究所-統計-統計基礎知識

# 前言在社會科學與教育研究領域中，質性研究與量化研究是兩種主要的研究方法兩者在哲學基礎、研究目的、資料收集與分析方式等方面差異蠻大的。但因為研究豐富度，現在漸漸地有混和研究的出現混和研究主要是質+量結合，有以質為主以量為輔；或是以量為主以質為輔，這兩種為常見的混和研究本篇會由質/量研究差異開始講，再來講到統計基礎知識，科普一下量化研究入門應該會需要了解的 :::danger ‼️小建議‼️ **在訂研究問題的時候，都建議先想一下，要用什麼研究方法跟分析方法去回答研究問題，需依據研究問題的性質與目的而定。** 沒有先想好怎麼分析，在設計實驗的時候就會腦子一片空白拿到數據的時候又會再空白一次最後就會努力拼拼湊湊數據，硬寫論文 ::: 我是走量化研究，但拜指導教授是質性大佬之福，我的質性也被狠狠教育過QQ 後來才發現，量化研究做到最後都會去探討質性的根本在現在的我來看，質性研究是地基是鋼筋，建構了研究的主體與架構，可以讓量化研究可以有更深入的詮釋 ## 要選質性研究還是量化研究? 做研究到底要選質，還是選量完全取決於你的研究問題，或是你的指導教授xd。有些教授就是純質不走量化，有些教授就是純量不懂質性像我老闆是質性，我是量化，老闆在我分析數據的時候能給我的指導其實蠻有限的有些教授就是純質不走量化，有些教授就是純量不懂質性當然也有教授都碰都能接受的或是比較專精某一方的畢竟未來要跟老闆相處兩年，所以在選老師前，除了打聽清楚老師幾年畢業，也可以先想清楚，自己想做質性研究還是量化研究 --- 再來，就是依照研究問題的"本質"去決定要質還是量有些題目就真的完全不適合量化分析，例如：如果你想要深入探討癌症病患的生命奮鬥歷程這種題目做量化很難去挖掘很深入的東西如果你研究的問題本質上是要「理解一個現象的脈絡與經驗」，那你硬跑量化只會讓自己痛苦，而且看不到什麼東西，跑量只會看到很空泛的現象；如果你問題是「驗證某種假設或變項關係」，你就不要傻傻花半年去研究場域蹲點做訪談。 --- :::warning 之前有聽同學說過因為統計太難，只要碰到數學就想哭，所以選做質，只要觀察、編碼、訪談就可以寫論文<但通常這個會花大量的時間(甚至數年)在研究場域中量化研究就相對簡單，確定分析方法，把資料整理好丟進去統計軟體分析就可以寫論文了<這個雖然很快很好跑，但如果資料都沒有顯著，會抱頭痛哭後續會寫一篇質性研究有哪些方法的文章，跟N篇量化分析統計方法的文章現在先簡單科普什麼是質/量研究，給新生菜鳥們一個概念，讓你們在選老師前有點心理準備xd ::: # 質性研究與量化研究 **質性研究（Qualitative Research）** 主要建構於 **建構主義(Constructivism)** 的哲學觀點。建構主義認為現實是由人們在特定社會與文化脈絡中所建構，知識不是被發現的，而是由個人主觀經驗所形成。因此，質性研究強調研究參與者的主觀經驗、信念、動機與情境脈絡。相對地，**量化研究（Quantitative Research）** 則基於 **實證主義(Positivism)** 。實證主義主張現實是客觀且可被觀察、測量與驗證的，強調科學方法與邏輯推理，並追求普遍性的規律與因果關係。質量研究比較 | 類型 | 質性研究（Qualitative Research） | 量化研究（Quantitative Research） | | -------- | -------------------------- | ---------------------------- | | **優點** | 可深入理解個人經驗與脈絡、適合探索新議題 | 可檢驗假設、具代表性強、結果易於推廣與比較 | | **限制** | 難以廣泛推論、研究者主觀詮釋可能影響信度 | 無法深入了解背後脈絡與個體差異、忽略主觀感受與經驗 | | **目的** | 探索現象的**深層意義**、理解脈絡、經驗與觀點 | 檢驗假設、分析變項之間的**關聯性**或**關係** | | **特徵** | 開放性、彈性高、強調主觀詮釋 | 結構化、標準化、強調客觀測量 | | **研究者角色** |參與詮釋，與研究對象互動密切| 客觀中立，盡量避免干擾實驗結果 | | **資料蒐集** | 訪談、觀察、文字、系統log | 問卷、考卷、量表、統計數據分析 | | **分析方式** | 編碼、主題分析、紮根理論根滯後序列分析等 | 各種統計分析方法 | | **資料形式** | 文字、句子、圖片、影像、訪談記錄等 | 各種數字 | | **應用情境** | 探討癌症病患面對生死的心理歷程(通常這種歷程都是質性) | AI教學介入對學生OO成績的影響 | # 統計法有哪些統計學中有兩個主要分支：描述統計和推論統計我們常聽到的t檢定、ANOVA這些分析方法是屬於推論統計的我將我的領域(社會科學領域)常見的分析方法畫成下圖其實分析方法還有很多啦，但因為這些是我們lab可能會比較常用到的，我怕畫太完整lab的學弟妹會嚇哭 ![image](https://hackmd.io/_uploads/rkDiSrJdeg.png) ![image](https://hackmd.io/_uploads/SJdrHH1dll.png) ![image](https://hackmd.io/_uploads/rkl_rS1uee.png) ![image](https://hackmd.io/_uploads/ByPKSBJOge.png) 對統計來說，每種分析方法都有自己需要符合的先決條件(如：常態分配、同質性檢定、變數型態等等) 之後的文章都會有教學，我盡量寫成連討厭數學的小白都能懂的說法了>< [統計分析方法大圖](https://drive.google.com/file/d/1DyhZCTX33gCUbLGF1rNRrIF_Dbb05ZwY/view?usp=sharing) ## 描述/敘述統計相較於推論統計，描述性統計是比較簡單的統計(? 描述統計主要是針對資料(資訊)進行描述，只是介紹數據大概整體的樣子，不會對數據去做進一步的假設與推論常見的描述性統計會說明：樣本數(N)、平均數(M/Mean)、標準差(SD)、標準誤(SE)、百分比、中位數跟信賴區間(CI)等等 :::danger 每個領域的描述性統計需要的欄位不同，可以多看看自己領域paper都放了什麼 ::: 之前在寫paper的時候，老師就建議我在開始分析前，都建議跑一個描述性統計舉例來說：我有用t檢定跟ANOVA分析不同性別跟學期的學生，對A面向有沒有影響所以在每個分析前，我都放了一個描述性統計(如下圖) ![image](https://hackmd.io/_uploads/HymCkG7_eg.png) 但要不要放或是描述性統計需要哪些欄位，就看指導教授說了算沒有絕對一定要放，但常見有放的就是樣本數、平均數、標準差、標準誤 ## 推論統計在講推論之前，我們要先來聊聊什麼是母體，什麼是抽樣? ### 母體/抽樣做研究當然不可能單純描述一下有多少人，這些人平均多少就可以發一篇論文了(這樣太簡單了ㄅ有看論文都會發現，量化的研究問題大多都是 1.性別對購物習慣的影響? 2.傳統教學跟AI教學對數學學習成效的影響? 這樣的研究問題都是需要推論的，最理想的狀態就是把研究設定年齡的人都抓來問，但這樣一次要抓幾十幾百人來問，不太可能實現，所以我們就會採取抽樣 :::info 舉例來說：我想知道12歲小朋友的平均身高，會把全台灣所有12歲小朋友的身高資料取來去計算，這樣的全體我們稱為母體但實際上我根本沒有能力(可能沒有地位)拿到全台灣12歲小朋友的身高資料，我就從北中南隨機挑了一些12歲小朋友(這一小部分被抽出來的人我們稱為樣本)的身高資料去計算，這樣從母體中挑選取一小部分我們稱為抽樣所以樣本是我們從母群體抽出來的人抽樣是一個動作，我用不同抽樣方式把我需要的人從母群體抽出來成為我的樣本 (有點繞口) ::: 可以透過下面的圖想像一下 ![image](https://hackmd.io/_uploads/rkJnpfmull.png) 我想知道大台北地區25 ~ 30歲的收入調查(左邊的大圈圈)，假設這個年齡區間的人有1萬人，一個一個問太勞民傷財也耗時(可能也會碰到不給你問的民眾，例如我)，所以我就隨機的找了100個25~30歲的人來問(右邊的小圈圈) 這樣的做法就叫抽樣而在不知道母群體有多少人的情況下，我們用抽到樣本去估算假設母群體的樣子，我們稱為推論 ### 抽樣的種類抽樣其實有超多種方式，主要分為機率抽樣跟非機率抽樣兩大種 #### 機率抽樣機率抽樣是讓每個人都有機會被選中，在篩選樣本的過程中是公平的在做研究時，最理想的情況就是讓母體中的每個人都有公平的機會被抽中。機率抽樣最大特色在於：每個樣本的被選機率是「已知」且「非零」的，因此後續的統計分析可以更具說服力，也比較能推論整體母體的情況。常見的機率抽樣有以下這幾種 * 簡單隨機抽樣(Simple Random Sampling) 最常見的抽樣方式，也是最直觀的一種方式。只要確保每個人被選中的機率都一樣，就算是簡單隨機抽樣。 ✅ 方法：如抽籤、亂數表、電腦亂數 ✅ 優點：簡單、公平 ✅ 缺點：不適合母體很大或資料分布不均(資料非常態分布，都呈現偏態)時 ✅ 舉例：若有100位學生，想從中抽10位來填問卷，可以用亂數產生器、抽籤等方式隨機決定誰被選中。(沒有看哪個男生比較帥哪個女生比較美就選誰，選的過程都是公平公正) * 系統抽樣(Systematic Sampling) 系統抽樣是一種「有規律的隨機」抽樣方式，先決定一個起始點（隨機選出），接著每隔固定間距（例如每第5位）抽出一個樣本 ✅ 方法：如從第5位開始，每第10位抽樣 ✅ 優點：抽起來很方便 ✅ 缺點：若母體有週期性結構，會導致偏誤 ✅ 舉例：若你有一份按順序排列的名單，每隔20人選一位，直到抽滿所需樣本 * 分層抽樣(Stratified Sampling) 當我們知道母體中某些子群比例差異很大(例如男女比例、年級分布)，單純的隨機抽樣可能無法確保每個族群都有適當代表當母體中的子群體數量差異過大的時候，可以使用分層抽樣 ✅ 方法：先根據關鍵特徵（如年齡、地區）將母體分層，再從每層中分別進行隨機抽樣，依比例組合成完整樣本。這樣可以提升精準度並降低誤差 ✅ 優點：可提升精確度、確保各群體都有代表性 ✅ 缺點：都切到這麼細了，也確保隨機公平公正了，缺點幾乎沒有，就只是比較難抽而已 ✅ 舉例：偏鄉國小教師只有20位，依照年齡排序，每個年齡區間各抽2位男老師2位女老師 * 集群抽樣(Cluster Sampling) 跟分層抽樣不同，集群抽樣是把母體劃分為多個自然群組(如班級、地區、公司)，然後隨機抽取整個群組來進行調查 ✅ 方法：就跟上面文字說明一樣，分很多個集群啊 ✅ 優點：省時、省成本，適合範圍大時使用 ✅ 缺點：樣本內可能異質(每個群組之間可能差異較大)，增加誤差 ✅ 舉例：若想調查全台大學生的學習狀況，可以先隨機選幾所大學，再調查被選學校中的所有學生。雖然這種方法省時省力，但若群體內部差異太大，可能會導致估計結果偏誤。例如：這個學校都是同一個性別的就讀居多，或是大家都是高材生，智商破150，那這個群集就無法代表整體母體的平均特徵 #### 非機率抽樣理想上，當然希望每個人都有機會被選中，但現實中，尤其是在預算有限、時間緊迫、或難以接觸特定族群的情況下，我們常常會選擇「非機率抽樣」的方式這類方法的共通點是：我們無法知道樣本被選中的確切機率，因此無法像機率抽樣那樣做嚴格的統計推論，但它仍然是實務中非常常見的手法常見的非機率抽樣有以下這幾種 * 方便取樣(又稱便利取樣)(Convenience Sampling) 這可能是日常最常見的抽樣方式了。研究者會直接選擇「最容易取得」的樣本 ✅ 方法：街上訪問、同學發問卷 ✅ 優點：快速、成本低 ✅ 缺點：樣本代表性弱，容易偏差 ✅ 舉例：在街頭隨機找路人填寫問卷、或在自己班上發送問卷。它的好處是快速、省力，但缺點也明顯，樣本可能不具代表性，容易出現偏差。便利取樣的樣本可能過度集中在某些社群或背景，影響調查結果的廣泛性所以研究限制通常會交代一下 * 判斷抽樣(又稱立意取樣)(Judgmental / Purposive Sampling) 在某些情況下，研究者會根據經驗或研究目的，有目的地挑選特定樣本 ✅ 方法：挑選特定領域的專家、關鍵意見領袖（KOL）或有特殊經歷的對象進行深度訪談 ✅ 優點：針對性強，能針對研究主題選擇最有價值的資料來源 ✅ 缺點：高度主觀，樣本可能過度集中在研究者偏好的族群，難以代表整體，較適合質性研究，不適合量化研究 ✅ 舉例：例如，在做新創企業研究時，研究者可能只選擇幾間具有代表性的公司進行深度訪談。這種方法強調對象的代表性和研究價值，而不是機率性。它適合質性研究或探索性分析，但不適用於一般化的結論推論 * 配額抽樣(Quota Sampling) 這是一種「半結構化」的抽樣方式。研究者會先依據母體特徵（如性別、年齡、地區）設定樣本配額 ✅ 方法：先設好目標人數比例，如男性50人、女性50人；再在街上或網路上邀請人填寫，直到各類別人數達標 ✅ 優點：能保證樣本在人口結構上有基本的分布平衡 ✅ 缺點：因為每類中的樣本仍是「方便取得」，所以整體仍缺乏隨機性與代表性 ✅ 舉例：例如要抽取50位女性與50位男性。接著，在達成配額的前提下，用非隨機方式選人，例如在街頭碰到就邀請。這種方式可以讓樣本在關鍵變項上達到分布均衡，但可能在其他隱性變項上有偏差 * 滾雪球抽樣(Snowball Sampling) 這種抽樣方式常用於難以接觸的族群，例如藥癮者、同性伴侶、性工作者等。做法是先找到幾位受訪者，再透過他們介紹更多對象。樣本就像雪球一樣越滾越大。這種方式對建立信任、突破調查障礙很有幫助，但容易陷入同溫層，樣本多來自同一社交圈，代表性仍有限。 ✅ 方法：先訪談A，請他推薦B與C，再由B與C推薦更多受訪者 ✅ 優點：適用於難以接觸或隱性族群，如邊緣群體、特殊族群、非法活動參與者等 ✅ 缺點：樣本可能過於集中於同一社交圈、關係網，造成偏誤與同質化 ✅ 舉例：研究同性伴侶在醫療體系中的就診經驗時，研究者可能從少數LGBT社群成員開始，再透過推薦擴展樣本。但最終樣本可能都來自同一社交圈或價值觀相近者，限制了研究結果的外推性 📌 研究限制提示：必須說明樣本擴展過程及其可能的偏差來源，並避免誇大推論 ## 變項與尺度如果有學過統計，一開始一定會學什麼是變項，一定有聽過自變項跟依變項。基本來說，變項搭配尺度(白話文：資料型態)會決定你要用哪種統計方法 ### 什麼是變項(variables)? 變項就是會變化的量，例如，體重，每個人的體重都不一樣；性別，有男性有女性；年級，有一年級到六年級，這些會隨著不同人而變動的量，我們稱為變項常見的變項有 | 類型 | 說明 | 舉例 | | ------------------------------ | ----------------------------- | ------------------ | | **自變項（Independent Variable）** | 研究中**操弄或分組**的變項，用來觀察是否影響其他變項。(通常是X) | 教學法（傳統教學 vs. 線上教學） | | **依變項（Dependent Variable）** | **被測量**的變項，研究關心其是否會受到自變項影響。(通常是Y) | 考試成績、學習成效 | | **控制變項（Control Variable）** | 為了避免干擾，研究者**刻意保持不變的變項**。 | 年齡、性別、學科背景 | | **干擾變項（Confounding Variable）** | **無法完全控制**，卻可能影響研究結果的其他變項。 | 學生原有能力、學習動機 | ### 什麼是尺度? 搞懂自變項跟依變項後，我們要來搞懂，什麼是尺度在做分析前，其實我們都要搞清楚數據的型態，確認我們收集了哪些資料，這些資料可以被計算，哪些不行大家都知道統計跟數學有關係，所以大部分的統計分析方法，都要用可以被計算的數據型態所以尺度就分成兩種 * 類別尺度：不能被計算的，如：名義尺度、次序尺度 * 連續尺度：可以被計算的，如：等距尺度、比例尺度常見尺度有以下四種(中文翻譯會有點不同，我習慣是表格的說法)： ![image](https://hackmd.io/_uploads/BJvG1ILsxe.png) [圖片取自：以測量尺度找出適合的統計分析方法-永析統計諮詢](https://www.yongxi-stat.com/scale-stat/) | 尺度名稱 | 說明 | ✅ 可以做什麼 | ❌ 不可以做什麼 | 常見例子 | | ------------------------------ | -------------------- | ------------------------- | --------------- | ------------------------ | | **名義尺度**<br>*(Nominal Scale)* | 只是分類，沒有順序大小。 | 計次數、算比例、畫圓餅圖 | 計算平均數、做加減運算 | 性別、國籍、職業類別、手機品牌、血型 | | **次序尺度**<br>*(Ordinal Scale)* | 有順序，但間距不一定相等。 | 排序、比較高低、中位數、畫長條圖 | 無法知道差多少、不能做加減運算 | 比賽名次、滿意度量表、教育程度、痛感等級 | | **等距尺度**<br>*(Interval Scale)* | 有順序、有固定間距，但沒有絕對「零點」。 | 加減運算、計算平均數、標準差 | 不能說數值是幾倍，無法做乘除 | 氣溫（°C）、智商分數、考試分數（若非百分制） | | **比例尺度**<br>*(Ratio Scale)* | 有順序、有固定間距、有絕對零點。 | 所有統計分析都可用（加減乘除、平均、變異數、迴歸） | 幾乎無限制 | 身高、體重、年齡、收入、時間、反應速度、購買次數 | [表格整理by我自己] :::danger Likert量表是什麼尺度？很多問卷都會說用的是李克特5點、7點量表從剛剛的表看出，問人滿意度的其實是次序，但其實我們是將這個視為連續變數來看怎麼說呢? 一個人滿不滿意，應該是問你1~5分你給幾分，他其實涵蓋了小數點1.1,1.2,2.3...... 但為了方便我們統整資料，我們只給了1.2.3.4.5分，5個整數分數給受試者填寫它的本質應該是可以被計算的分數，只是為了方便，用次序去呈現 ::: ### 統計方法分類搞懂了變項跟尺度，接下來最讓人頭痛的就是我到底要用哪個統計方法? ![image](https://hackmd.io/_uploads/SJhiFLIsge.png) [改編自傻瓜也會跑統計I] :::info 通常不建議跑超過二因子以上的統計分析，整個結構會變超複雜超麻煩如果是完全沒學過統計，或是只學過一點點統計的人，上面我提到的統計方法，大概在碩士就很夠用了比較複雜，已經到高等統計範圍的，就需要有人帶著一起做因為那個在架構上已經不好處理，外加詮釋數據也需要懂比較多統計知識才能去詮釋當然，有些問題就只適合用高等統計去分析(或是指導老師指定要哪種統計分析方法)，這時候也只能抱著指導老師的大腿了 ::: 下面，我簡單舉幾個例子 | 變項組合 | 統計方法 | 研究情境舉例 | | ------------- | ----------------------------------- | ---------------------------------- | | 1X間斷 × 1Y間斷 | **卡方檢定（Chi-Square Test）** | 性別(X)與是否參加社團(Y)是否有關聯？ | | 1X間斷 × 1Y連續 | **T檢定**（t-test） | 男女學生(X)在期末成績(Y)上是否有顯著差異？ | | 1X間斷 × 1Y連續 | **變異數分析**（ANOVA） | 不同科系學生在滿意度上的差異？ | | 1X間斷 × 1Y連續 | **共變數分析**（ANCOVA） | 排除性別差異後，不同教學法對學習表現的影響？ | | 1X連續 × 1Y間斷 | **T檢定**（t-test） | 服用補充品對記憶力測驗成績是否有影響？ | | 1X連續 × 1Y間斷 | **ANOVA** | 不同運動習慣頻率組別對BMI指數的影響？ | | 1X連續 × 1Y間斷 | **ANCOVA** | 不同年級的學生(X)在閱讀理解測驗表現(Y)是否不同，控制語文前測能力後再比較？ | | 1X連續 × 1Y連續 | **皮爾森相關分析** | 每週自習時數與期末英文成績關係？ | | 1X連續 × 1Y連續 | **簡單線性迴歸分析** | 學生學測國文(X1~X2)數學成績，與大學成績(Y)之間的關係？ | | 2個X以上間斷變項 × 1Y連續 | **ANOVA** | 性別與學系交互作用是否會影響學生的創造力得分？ | | 2個X以上間斷變項 × 1Y連續 | **ANCOVA** | 比較不同性別與年級對數學成績的影響，控制學習動機後再進行分析。 | | 2個X以上連續變項 × 1Y間斷 | **邏輯斯迴歸分析**（Logistic Regression） | 學習焦慮與自我效能預測學生是否選擇「退選」課程？ | | 2個X以上連續變項 × 1Y連續 | **簡單線性迴歸分析** | 學習動機與自信是否能預測學生的程式設計成績？ | | 2個X以上連續變項 × 1Y連續 | **階層迴歸分析**（Hierarchical Regression） | 排除員工能力後，主管領導風格對員工績效的解釋力? | :::danger ⚠️特別注意⚠️ 通常研究問題是不會用是否問問題，我這裡只是為了舉例用了是否!! ::: :::warning 又到了要開始看研究分析的時間了(還有教統計的時間) 8月底去日本玩耍得太開心積了好多事情要做完現在就是在還債地獄啊嗚嗚嗚最近，朋友也想考研究所每周都還在幫忙看書審生活真的很充實呢嗚嗚 ::: # 參考文獻 [Dr.Fish描述統計VS推論統計](https://drfishstats.com/introduction/descriptive-vs-inferential-statistics/) [統計急救箱─什麼是推論統計？](https://vocus.cc/article/652bec6afd8978000195ff9e) [以測量尺度找出適合的統計分析方法-永析統計諮詢](https://www.yongxi-stat.com/scale-stat/)