# 前言 在社會科學與教育研究領域中,質性研究與量化研究是兩種主要的研究方法 兩者在哲學基礎、研究目的、資料收集與分析方式等方面差異蠻大的。 但因為研究豐富度,現在漸漸地有混和研究的出現 混和研究主要是質+量結合,有以質為主以量為輔;或是以量為主以質為輔,這兩種為常見的混和研究 本篇會由質/量研究差異開始講,再來講到統計基礎知識,科普一下量化研究入門應該會需要了解的 :::danger ‼️小建議‼️ **在訂研究問題的時候,都建議先想一下,要用什麼研究方法跟分析方法去回答研究問題,需依據研究問題的性質與目的而定。** 沒有先想好怎麼分析,在設計實驗的時候就會腦子一片空白 拿到數據的時候又會再空白一次 最後就會努力拼拼湊湊數據,硬寫論文 ::: 我是走量化研究,但拜指導教授是質性大佬之福,我的質性也被狠狠教育過QQ 後來才發現,量化研究做到最後都會去探討質性的根本 在現在的我來看,質性研究是地基是鋼筋,建構了研究的主體與架構,可以讓量化研究可以有更深入的詮釋 ## 要選質性研究還是量化研究? 做研究到底要選質,還是選量 完全取決於你的研究問題,或是你的指導教授xd。 有些教授就是純質不走量化,有些教授就是純量不懂質性 像我老闆是質性,我是量化,老闆在我分析數據的時候能給我的指導其實蠻有限的 有些教授就是純質不走量化,有些教授就是純量不懂質性 當然也有教授都碰都能接受的或是比較專精某一方的 畢竟未來要跟老闆相處兩年,所以在選老師前,除了打聽清楚老師幾年畢業,也可以先想清楚,自己想做質性研究還是量化研究 --- 再來,就是依照研究問題的"本質"去決定要質還是量 有些題目就真的完全不適合量化分析,例如:如果你想要深入探討癌症病患的生命奮鬥歷程 這種題目做量化很難去挖掘很深入的東西 如果你研究的問題本質上是要「理解一個現象的脈絡與經驗」,那你硬跑量化只會讓自己痛苦,而且看不到什麼東西,跑量只會看到很空泛的現象; 如果你問題是「驗證某種假設或變項關係」,你就不要傻傻花半年去研究場域蹲點做訪談。 --- :::warning 之前有聽同學說過因為統計太難,只要碰到數學就想哭,所以選做質,只要觀察、編碼、訪談就可以寫論文<但通常這個會花大量的時間(甚至數年)在研究場域中 量化研究就相對簡單,確定分析方法,把資料整理好丟進去統計軟體分析就可以寫論文了<這個雖然很快很好跑,但如果資料都沒有顯著,會抱頭痛哭 後續會寫一篇質性研究有哪些方法的文章,跟N篇量化分析統計方法的文章 現在先簡單科普什麼是質/量研究,給新生菜鳥們一個概念,讓你們在選老師前有點心理準備xd ::: # 質性研究與量化研究 **質性研究(Qualitative Research)** 主要建構於 **建構主義(Constructivism)** 的哲學觀點。建構主義認為現實是由人們在特定社會與文化脈絡中所建構,知識不是被發現的,而是由個人主觀經驗所形成。 因此,質性研究強調研究參與者的主觀經驗、信念、動機與情境脈絡。 相對地,**量化研究(Quantitative Research)** 則基於 **實證主義(Positivism)** 。實證主義主張現實是客觀且可被觀察、測量與驗證的,強調科學方法與邏輯推理,並追求普遍性的規律與因果關係。 質量研究比較 | 類型 | 質性研究(Qualitative Research) | 量化研究(Quantitative Research) | | -------- | -------------------------- | ---------------------------- | | **優點** | 可深入理解個人經驗與脈絡、適合探索新議題 | 可檢驗假設、具代表性強、結果易於推廣與比較 | | **限制** | 難以廣泛推論、研究者主觀詮釋可能影響信度 | 無法深入了解背後脈絡與個體差異、忽略主觀感受與經驗 | | **目的** | 探索現象的**深層意義**、理解脈絡、經驗與觀點 | 檢驗假設、分析變項之間的**關聯性**或**關係** | | **特徵** | 開放性、彈性高、強調主觀詮釋 | 結構化、標準化、強調客觀測量 | | **研究者角色** |參與詮釋,與研究對象互動密切| 客觀中立,盡量避免干擾實驗結果 | | **資料蒐集** | 訪談、觀察、文字、系統log | 問卷、考卷、量表、統計數據分析 | | **分析方式** | 編碼、主題分析、紮根理論根滯後序列分析等 | 各種統計分析方法 | | **資料形式** | 文字、句子、圖片、影像、訪談記錄等 | 各種數字 | | **應用情境** | 探討癌症病患面對生死的心理歷程(通常這種歷程都是質性) | AI教學介入對學生OO成績的影響 | # 統計法有哪些 統計學中有兩個主要分支:描述統計和推論統計 我們常聽到的t檢定、ANOVA這些分析方法是屬於推論統計的 我將我的領域(社會科學領域)常見的分析方法畫成下圖 其實分析方法還有很多啦,但因為這些是我們lab可能會比較常用到的,我怕畫太完整lab的學弟妹會嚇哭 ![image](https://hackmd.io/_uploads/rkDiSrJdeg.png) ![image](https://hackmd.io/_uploads/SJdrHH1dll.png) ![image](https://hackmd.io/_uploads/rkl_rS1uee.png) ![image](https://hackmd.io/_uploads/ByPKSBJOge.png) 對統計來說,每種分析方法都有自己需要符合的先決條件(如:常態分配、同質性檢定、變數型態等等) 之後的文章都會有教學,我盡量寫成連討厭數學的小白都能懂的說法了>< [統計分析方法大圖](https://drive.google.com/file/d/1DyhZCTX33gCUbLGF1rNRrIF_Dbb05ZwY/view?usp=sharing) ## 描述/敘述統計 相較於推論統計,描述性統計是比較簡單的統計(? 描述統計主要是針對資料(資訊)進行描述,只是介紹數據大概整體的樣子,不會對數據去做進一步的假設與推論 常見的描述性統計會說明:樣本數(N)、平均數(M/Mean)、標準差(SD)、標準誤(SE)、百分比、中位數跟信賴區間(CI)等等 :::danger 每個領域的描述性統計需要的欄位不同,可以多看看自己領域paper都放了什麼 ::: 之前在寫paper的時候,老師就建議我在開始分析前,都建議跑一個描述性統計 舉例來說:我有用t檢定跟ANOVA分析不同性別跟學期的學生,對A面向有沒有影響 所以在每個分析前,我都放了一個描述性統計(如下圖) ![image](https://hackmd.io/_uploads/HymCkG7_eg.png) 但要不要放或是描述性統計需要哪些欄位,就看指導教授說了算 沒有絕對一定要放,但常見有放的就是樣本數、平均數、標準差、標準誤 ## 推論統計 在講推論之前,我們要先來聊聊什麼是母體,什麼是抽樣? ### 母體/抽樣 做研究當然不可能單純描述一下有多少人,這些人平均多少就可以發一篇論文了(這樣太簡單了ㄅ 有看論文都會發現,量化的研究問題大多都是 1.性別對購物習慣的影響? 2.傳統教學跟AI教學對數學學習成效的影響? 這樣的研究問題都是需要推論的,最理想的狀態就是把研究設定年齡的人都抓來問,但這樣一次要抓幾十幾百人來問,不太可能實現,所以我們就會採取抽樣 :::info 舉例來說: 我想知道12歲小朋友的平均身高,會把全台灣所有12歲小朋友的身高資料取來去計算,這樣的全體我們稱為母體 但實際上我根本沒有能力(可能沒有地位)拿到全台灣12歲小朋友的身高資料,我就從北中南隨機挑了一些12歲小朋友(這一小部分被抽出來的人我們稱為樣本)的身高資料去計算,這樣從母體中挑選取一小部分我們稱為抽樣 所以樣本是我們從母群體抽出來的人 抽樣是一個動作,我用不同抽樣方式把我需要的人從母群體抽出來成為我的樣本 (有點繞口) ::: 可以透過下面的圖想像一下 ![image](https://hackmd.io/_uploads/rkJnpfmull.png) 我想知道大台北地區25 ~ 30歲的收入調查(左邊的大圈圈),假設這個年齡區間的人有1萬人,一個一個問太勞民傷財也耗時(可能也會碰到不給你問的民眾,例如我),所以我就隨機的找了100個25~30歲的人來問(右邊的小圈圈) 這樣的做法就叫抽樣 而在不知道母群體有多少人的情況下,我們用抽到樣本去估算假設母群體的樣子,我們稱為推論 ### 抽樣的種類 抽樣其實有超多種方式,主要分為機率抽樣跟非機率抽樣兩大種 #### 機率抽樣 機率抽樣是讓每個人都有機會被選中,在篩選樣本的過程中是公平的 在做研究時,最理想的情況就是讓母體中的每個人都有公平的機會被抽中。機率抽樣最大特色在於:每個樣本的被選機率是「已知」且「非零」的,因此後續的統計分析可以更具說服力,也比較能推論整體母體的情況。 常見的機率抽樣有以下這幾種 * 簡單隨機抽樣(Simple Random Sampling) 最常見的抽樣方式,也是最直觀的一種方式。只要確保每個人被選中的機率都一樣,就算是簡單隨機抽樣。 ✅ 方法:如抽籤、亂數表、電腦亂數 ✅ 優點:簡單、公平 ✅ 缺點:不適合母體很大或資料分布不均(資料非常態分布,都呈現偏態)時 ✅ 舉例:若有100位學生,想從中抽10位來填問卷,可以用亂數產生器、抽籤等方式隨機決定誰被選中。(沒有看哪個男生比較帥哪個女生比較美就選誰,選的過程都是公平公正) * 系統抽樣(Systematic Sampling) 系統抽樣是一種「有規律的隨機」抽樣方式,先決定一個起始點(隨機選出),接著每隔固定間距(例如每第5位)抽出一個樣本 ✅ 方法:如從第5位開始,每第10位抽樣 ✅ 優點:抽起來很方便 ✅ 缺點:若母體有週期性結構,會導致偏誤 ✅ 舉例:若你有一份按順序排列的名單,每隔20人選一位,直到抽滿所需樣本 * 分層抽樣(Stratified Sampling) 當我們知道母體中某些子群比例差異很大(例如男女比例、年級分布),單純的隨機抽樣可能無法確保每個族群都有適當代表 當母體中的子群體數量差異過大的時候,可以使用分層抽樣 ✅ 方法:先根據關鍵特徵(如年齡、地區)將母體分層,再從每層中分別進行隨機抽樣,依比例組合成完整樣本。這樣可以提升精準度並降低誤差 ✅ 優點:可提升精確度、確保各群體都有代表性 ✅ 缺點:都切到這麼細了,也確保隨機公平公正了,缺點幾乎沒有,就只是比較難抽而已 ✅ 舉例:偏鄉國小教師只有20位,依照年齡排序,每個年齡區間各抽2位男老師2位女老師 * 集群抽樣(Cluster Sampling) 跟分層抽樣不同,集群抽樣是把母體劃分為多個自然群組(如班級、地區、公司),然後隨機抽取整個群組來進行調查 ✅ 方法:就跟上面文字說明一樣,分很多個集群啊 ✅ 優點:省時、省成本,適合範圍大時使用 ✅ 缺點:樣本內可能異質(每個群組之間可能差異較大),增加誤差 ✅ 舉例:若想調查全台大學生的學習狀況,可以先隨機選幾所大學,再調查被選學校中的所有學生。雖然這種方法省時省力,但若群體內部差異太大,可能會導致估計結果偏誤。例如:這個學校都是同一個性別的就讀居多,或是大家都是高材生,智商破150,那這個群集就無法代表整體母體的平均特徵 #### 非機率抽樣 理想上,當然希望每個人都有機會被選中,但現實中,尤其是在預算有限、時間緊迫、或難以接觸特定族群的情況下,我們常常會選擇「非機率抽樣」的方式 這類方法的共通點是:我們無法知道樣本被選中的確切機率,因此無法像機率抽樣那樣做嚴格的統計推論,但它仍然是實務中非常常見的手法 常見的非機率抽樣有以下這幾種 * 方便取樣(又稱便利取樣)(Convenience Sampling) 這可能是日常最常見的抽樣方式了。研究者會直接選擇「最容易取得」的樣本 ✅ 方法:街上訪問、同學發問卷 ✅ 優點:快速、成本低 ✅ 缺點:樣本代表性弱,容易偏差 ✅ 舉例:在街頭隨機找路人填寫問卷、或在自己班上發送問卷。它的好處是快速、省力,但缺點也明顯,樣本可能不具代表性,容易出現偏差。便利取樣的樣本可能過度集中在某些社群或背景,影響調查結果的廣泛性 所以研究限制通常會交代一下 * 判斷抽樣(又稱立意取樣)(Judgmental / Purposive Sampling) 在某些情況下,研究者會根據經驗或研究目的,有目的地挑選特定樣本 ✅ 方法:挑選特定領域的專家、關鍵意見領袖(KOL)或有特殊經歷的對象進行深度訪談 ✅ 優點:針對性強,能針對研究主題選擇最有價值的資料來源 ✅ 缺點:高度主觀,樣本可能過度集中在研究者偏好的族群,難以代表整體,較適合質性研究,不適合量化研究 ✅ 舉例:例如,在做新創企業研究時,研究者可能只選擇幾間具有代表性的公司進行深度訪談。這種方法強調對象的代表性和研究價值,而不是機率性。它適合質性研究或探索性分析,但不適用於一般化的結論推論 * 配額抽樣(Quota Sampling) 這是一種「半結構化」的抽樣方式。研究者會先依據母體特徵(如性別、年齡、地區)設定樣本配額 ✅ 方法:先設好目標人數比例,如男性50人、女性50人;再在街上或網路上邀請人填寫,直到各類別人數達標 ✅ 優點:能保證樣本在人口結構上有基本的分布平衡 ✅ 缺點:因為每類中的樣本仍是「方便取得」,所以整體仍缺乏隨機性與代表性 ✅ 舉例:例如要抽取50位女性與50位男性。接著,在達成配額的前提下,用非隨機方式選人,例如在街頭碰到就邀請。這種方式可以讓樣本在關鍵變項上達到分布均衡,但可能在其他隱性變項上有偏差 * 滾雪球抽樣(Snowball Sampling) 這種抽樣方式常用於難以接觸的族群,例如藥癮者、同性伴侶、性工作者等。做法是先找到幾位受訪者,再透過他們介紹更多對象。樣本就像雪球一樣越滾越大。這種方式對建立信任、突破調查障礙很有幫助,但容易陷入同溫層,樣本多來自同一社交圈,代表性仍有限。 ✅ 方法:先訪談A,請他推薦B與C,再由B與C推薦更多受訪者 ✅ 優點:適用於難以接觸或隱性族群,如邊緣群體、特殊族群、非法活動參與者等 ✅ 缺點:樣本可能過於集中於同一社交圈、關係網,造成偏誤與同質化 ✅ 舉例:研究同性伴侶在醫療體系中的就診經驗時,研究者可能從少數LGBT社群成員開始,再透過推薦擴展樣本。但最終樣本可能都來自同一社交圈或價值觀相近者,限制了研究結果的外推性 📌 研究限制提示:必須說明樣本擴展過程及其可能的偏差來源,並避免誇大推論 ## 變項與尺度 如果有學過統計,一開始一定會學什麼是變項,一定有聽過自變項跟依變項。基本來說,變項搭配尺度(白話文:資料型態)會決定你要用哪種統計方法 ### 什麼是變項(variables)? 變項就是會變化的量,例如,體重,每個人的體重都不一樣;性別,有男性有女性;年級,有一年級到六年級,這些會隨著不同人而變動的量,我們稱為變項 常見的變項有 | 類型 | 說明 | 舉例 | | ------------------------------ | ----------------------------- | ------------------ | | **自變項(Independent Variable)** | 研究中**操弄或分組**的變項,用來觀察是否影響其他變項。(通常是X) | 教學法(傳統教學 vs. 線上教學) | | **依變項(Dependent Variable)** | **被測量**的變項,研究關心其是否會受到自變項影響。(通常是Y) | 考試成績、學習成效 | | **控制變項(Control Variable)** | 為了避免干擾,研究者**刻意保持不變的變項**。 | 年齡、性別、學科背景 | | **干擾變項(Confounding Variable)** | **無法完全控制**,卻可能影響研究結果的其他變項。 | 學生原有能力、學習動機 | ### 什麼是尺度? 搞懂自變項跟依變項後,我們要來搞懂,什麼是尺度 在做分析前,其實我們都要搞清楚數據的型態,確認我們收集了哪些資料,這些資料可以被計算,哪些不行 大家都知道統計跟數學有關係,所以大部分的統計分析方法,都要用可以被計算的數據型態 所以尺度就分成兩種 * 類別尺度:不能被計算的,如:名義尺度、次序尺度 * 連續尺度:可以被計算的,如:等距尺度、比例尺度 常見尺度有以下四種(中文翻譯會有點不同,我習慣是表格的說法): ![image](https://hackmd.io/_uploads/BJvG1ILsxe.png) [圖片取自:以測量尺度找出適合的統計分析方法-永析統計諮詢](https://www.yongxi-stat.com/scale-stat/) | 尺度名稱 | 說明 | ✅ 可以做什麼 | ❌ 不可以做什麼 | 常見例子 | | ------------------------------ | -------------------- | ------------------------- | --------------- | ------------------------ | | **名義尺度**<br>*(Nominal Scale)* | 只是分類,沒有順序大小。 | 計次數、算比例、畫圓餅圖 | 計算平均數、做加減運算 | 性別、國籍、職業類別、手機品牌、血型 | | **次序尺度**<br>*(Ordinal Scale)* | 有順序,但間距不一定相等。 | 排序、比較高低、中位數、畫長條圖 | 無法知道差多少、不能做加減運算 | 比賽名次、滿意度量表、教育程度、痛感等級 | | **等距尺度**<br>*(Interval Scale)* | 有順序、有固定間距,但沒有絕對「零點」。 | 加減運算、計算平均數、標準差 | 不能說數值是幾倍,無法做乘除 | 氣溫(°C)、智商分數、考試分數(若非百分制) | | **比例尺度**<br>*(Ratio Scale)* | 有順序、有固定間距、有絕對零點。 | 所有統計分析都可用(加減乘除、平均、變異數、迴歸) | 幾乎無限制 | 身高、體重、年齡、收入、時間、反應速度、購買次數 | [表格整理by我自己] :::danger Likert量表是什麼尺度? 很多問卷都會說用的是李克特5點、7點量表 從剛剛的表看出,問人滿意度的其實是次序,但其實我們是將這個視為連續變數來看 怎麼說呢? 一個人滿不滿意,應該是問你1~5分你給幾分,他其實涵蓋了小數點1.1,1.2,2.3...... 但為了方便我們統整資料,我們只給了1.2.3.4.5分,5個整數分數給受試者填寫 它的本質應該是可以被計算的分數,只是為了方便,用次序去呈現 ::: ### 統計方法分類 搞懂了變項跟尺度,接下來最讓人頭痛的就是 我到底要用哪個統計方法? ![image](https://hackmd.io/_uploads/SJhiFLIsge.png) [改編自傻瓜也會跑統計I] :::info 通常不建議跑超過二因子以上的統計分析,整個結構會變超複雜超麻煩 如果是完全沒學過統計,或是只學過一點點統計的人,上面我提到的統計方法,大概在碩士就很夠用了 比較複雜,已經到高等統計範圍的,就需要有人帶著一起做 因為那個在架構上已經不好處理,外加詮釋數據也需要懂比較多統計知識才能去詮釋 當然,有些問題就只適合用高等統計去分析(或是指導老師指定要哪種統計分析方法),這時候也只能抱著指導老師的大腿了 ::: 下面,我簡單舉幾個例子 | 變項組合 | 統計方法 | 研究情境舉例 | | ------------- | ----------------------------------- | ---------------------------------- | | 1X間斷 × 1Y間斷 | **卡方檢定(Chi-Square Test)** | 性別(X)與是否參加社團(Y)是否有關聯? | | 1X間斷 × 1Y連續 | **T檢定**(t-test) | 男女學生(X)在期末成績(Y)上是否有顯著差異? | | 1X間斷 × 1Y連續 | **變異數分析**(ANOVA) | 不同科系學生在滿意度上的差異? | | 1X間斷 × 1Y連續 | **共變數分析**(ANCOVA) | 排除性別差異後,不同教學法對學習表現的影響? | | 1X連續 × 1Y間斷 | **T檢定**(t-test) | 服用補充品對記憶力測驗成績是否有影響? | | 1X連續 × 1Y間斷 | **ANOVA** | 不同運動習慣頻率組別對BMI指數的影響? | | 1X連續 × 1Y間斷 | **ANCOVA** | 不同年級的學生(X)在閱讀理解測驗表現(Y)是否不同,控制語文前測能力後再比較? | | 1X連續 × 1Y連續 | **皮爾森相關分析** | 每週自習時數與期末英文成績關係? | | 1X連續 × 1Y連續 | **簡單線性迴歸分析** | 學生學測國文(X1~X2)數學成績,與大學成績(Y)之間的關係? | | 2個X以上間斷變項 × 1Y連續 | **ANOVA** | 性別與學系交互作用是否會影響學生的創造力得分? | | 2個X以上間斷變項 × 1Y連續 | **ANCOVA** | 比較不同性別與年級對數學成績的影響,控制學習動機後再進行分析。 | | 2個X以上連續變項 × 1Y間斷 | **邏輯斯迴歸分析**(Logistic Regression) | 學習焦慮與自我效能預測學生是否選擇「退選」課程? | | 2個X以上連續變項 × 1Y連續 | **簡單線性迴歸分析** | 學習動機與自信是否能預測學生的程式設計成績? | | 2個X以上連續變項 × 1Y連續 | **階層迴歸分析**(Hierarchical Regression) | 排除員工能力後,主管領導風格對員工績效的解釋力? | :::danger ⚠️特別注意⚠️ 通常研究問題是不會用是否問問題,我這裡只是為了舉例用了是否!! ::: :::warning 又到了要開始看研究分析的時間了(還有教統計的時間) 8月底去日本玩耍得太開心 積了好多事情要做完 現在就是在還債地獄啊嗚嗚嗚 最近,朋友也想考研究所 每周都還在幫忙看書審 生活真的很充實呢嗚嗚 ::: # 參考文獻 [Dr.Fish描述統計VS推論統計](https://drfishstats.com/introduction/descriptive-vs-inferential-statistics/) [統計急救箱─什麼是推論統計?](https://vocus.cc/article/652bec6afd8978000195ff9e) [以測量尺度找出適合的統計分析方法-永析統計諮詢](https://www.yongxi-stat.com/scale-stat/)