# 版權與著作權聲明
本系列統計教學文章為我根據自身學習經驗、參考文獻與統計老師指導所整理的學習筆記與實務心得,僅供學術研究與學習交流使用。若內容有誤,歡迎指正,我將盡快進行修正與補充。
:::info
**若您希望引用、轉載、節錄本文,請務必遵守以下規範:**
* 註明文章出處
* 附上此文章原始連結
* 並標示作者:每天都是研究日(today is researchday
@today-is-researchday)
* 範例格式:
本文轉載自「每天都是研究日」的統計教學系列:
[原始連結網址]
:::
:::danger
**❗️侵權與法律責任❗️**
若經查證未經授權抄襲、轉載或變造文章內容、圖片、或作為商業用途與非商業用途使用,將依法追究法律責任。
:::
如有合作、授權、教學邀約等需求,歡迎來信聯絡:
📩 [信箱:todayisresearchday@gmail.com]
🔸 [IG:https://www.instagram.com/today_is_researchday/]
# 前言
在量化研究中很常使用問卷或量表測量研究對象在某個變數的分數,但要如何評估使用的問卷/量表是否準確的測量?
問卷/量表設計重點在每次測量的結果需要具有一致性和穩定性,如果不穩定或不一致,這份問卷/量表就沒有可信度。
所以需要透過信度分析以及效度分析的結果確認~~
:::success
**沒錯!!信效度是兩個不同東西!!!**
:::
# 為什麼要跑信效度?
1. 在論文中你要證明工具是科學的、有效的
2. 分析結果的合理性必須建立在信效度良好上
沒有信效度 → 你後續跑出來的統計分析、結構模型、路徑圖……就可能根本不可信。
# 論文常見信度分類
| 題目型態 | 例如 | 信度方法 |
| --------------------- | --------------------- | ---------------------------------- |
| 二元題(是/否、對/錯) | 0 = 錯,1 = 對 | Kuder-Richardson(KR-20)(庫李信度) |
| Likert 量表(例如 5點量表、7點量表等) | 1 = 非常不同意 \~ 5 = 非常同意 | Cronbach’s α |
| 題目答案是 A/B/C/D,但還沒轉成對錯 | A、B、C、D | 不能直接跑 KR-20,要先轉成 0/1(對 = 1,錯 = 0) |
# 信度 V.S. 效度
信度和效度是有關係的,信度是效度的必要條件,研究工具的效度如果高,它的信度必然是高的;但是如果相反,研究工具的信度是高的話,效度卻不一定是高的!
:::warning
**總結:有效度一定有信度,有信度不一定有效度!!**
:::
## 信度
信度又被稱為**可靠性或一致性**,用來解釋同一份研究工具(社會科學的研究工具通常就是問卷或量表)在多次施測下,結果是穩定且具有一致性的。
**◆信度大致分為五種:**
1. 重測信度(Test/retest reliability):受施測時間間隔影響,當測量時間間距愈短,通常信度愈高。
2. 複本信度(Parallel-forms and alternative-forms reliability):分析兩份相似的測驗之間的信度。
3. 內部一致性信度(Internal consistency reliability)(最常用Cronbach’s α):
(1)、折半信度(split-half method):例如奇偶數數題折半、前後折半
(2)、庫李信度(KR20/21)(有正確答案測驗/考卷通常用這個):確定題目是否有測量到相同的特質,當同質性愈高時,題目的一致性亦會愈高。
(3)、Cronbach’s α(用量表的通常用這個):研究者最常採用的信度分析方法,一般用於李克特式五點、七點等量表,比較多學者認同Cronbach’ α 的標準為0.7以上屬於高信度
:::danger
* Cronbach’ α值大於等於0.9,代表內部一致性信度很高
* 0.8–0.9算好(Good)
* 0.7–0.8可接受(Acceptable)
* 0.6–0.7可疑的(Questionable)
* 0.5–0.6較差(Poor)
* 0.5以下不可接受(Unacceptable)。
:::
4. 評分者信度(Scorer reliability / Inter-rater reliability)
5. 效標參照測驗之信度:包含百分比一致性指標(PA)和Kappa係數(Kappa coefficient of agreement)
## 效度
效度則是代表研究的**準確性與真實性**,而在社會科學中,研究的準確性和真實性也通常和問卷息息相關。
**★為什麼一些paper或是其他學校的paper都沒有提到效度呢?**
一個有效且準確的量表/測驗,一定要符合隨機抽樣,而且樣本數要超級大,北中南東都要有樣本,如果只選一個班做那就是立意取樣,無法達到效度要求
::: spoiler **什麼是隨機抽樣?立意取樣?**
* **隨機抽樣(random sampling)**:
母群體每個樣本被選取到的機會是相同的(如:北中南東都隨機抓10所國小國小普通班六年級的學生,每所學校抓100個),常見的隨機抽樣包含簡單隨機抽樣(simple random sampling)、分層隨機抽樣(stratified random sampling)、叢集抽樣(cluster sampling)和系統抽樣(systematic sampling)等。
* **非隨機抽樣(non-probability sampling)**:
研究者根據自身主觀經驗和判斷抽取研究樣本(如:覺得台北科學班的學生比較聰明,所以只抓台北科學班的學生),亦即研究者並未根據機率原則抽取樣本,常見的非隨機抽樣包含立意抽樣(purpose sampling)、便利性抽樣(convenience sampling)和滾雪球抽樣(snowball sampling)等。
:::
:::spoiler **樣本數要多大才可以做效度分析?**
基本上選取的樣本數愈多,統計分析結果的推論實際現況的精確度愈高
(但可能出現型一錯誤,白話文:樣本越多越容易顯著,但真的有效果/影響嗎?),可避免樣本數太少造成有效檢驗出差異性,減少型二錯誤的機率(樣本太少,搞不好根本沒效,但說人家有效)。
如果真的要發展量表/測驗可以參考以下樣本數
* 參考過去相同領域或議題的研究,多數採用何種抽樣方式以及抽樣人數。
* 如果是全國性研究,建議抽取1500 ~ 2500人;若為地區性研究,建議抽取500 ~ 1000人較為適宜(Sudman, 1976)。
* 因素分析:至少需有100個有效樣本數,最好有300個樣本數以上(吳明隆、涂金堂,2011;Comrey, 1973),亦或者是有效樣本數至少微量表題目數量的5倍(Gorsuch, 1983)。
* 根據問卷題目數量而定,以預試問卷為例,建議預試樣本人數應為預試題目最多分量表題目數量的3-5倍或5-10倍。(吳明隆、涂金堂)。
例如:我有50題會考數學題要編入題庫,就要抽北中南東國二或高一的學生總共500人(可以更多,但不能更少)
* 相關分析研究:至少有30個樣本數(Gay, 1992)。
* 比較研究(如比較實驗組和控制組):每組至少需有30個樣本數(Gay, 1992)。
:::
**◆效度分為哪四種?**
「效度(Validity)」為研究者採用的衡量工具是否能真正衡量到研究者想要衡量的問題,亦即研究者測量到的觀察分數是否能夠測量到所想測的特質的程度,效度衡量的方式大致分為四種:
1. 內容效度(content validity):衡量工具的題目內容是否有涵蓋研究變數之意涵與範圍,例如表面效度(Face validity)和專家效度。
2. 效標關聯效度(criterion-related validity):研究者採用的衡量工具所測得之觀察分數,與外在效標間之關係,當觀察分數與外在效標間的相關愈高,則效標效度亦愈佳,並可根據外在校標測量時間點分為同時效度(concurrent validity)和預測效度(predictive validity)。
3. 建構/構念效度(Construct validity):評估衡量工具所能夠測量到的理論特質/結構的程度,包含符合效度(Congruent validity)、因素分析(factor analysis)和多種特質-多項方法分析(multitrait-multimethod/ MTMM),其中因素分析為研究者常採用的效度分析方法。
---
### 總結信效度

[參考資料_永析統計](https://www.yongxi-stat.com/reliability-validity-intro/)
舉例來說:
:::info
1.信度低 效度低
例子:某人體重是60公斤,但體重計每次測出來的結果亂跳,有時50、有時65、有時55、有時58
信度低:每次測量結果不一致
效度低:測量結果偏離真實值60公斤,且無穩定趨勢
隨便亂打,都沒有打中

:::
:::info
2.信度高 效度低
例子:如果某人的體重為60公斤,但是站上同一台體重計測量出來的卻一直都是55公斤
信度高:每次量出來的體重都一樣,一致性高
效度低:但跟真實的體重不一樣,沒有準確性
都有打在同一個地方,但都沒有在中心點上

:::
:::info
3.信度低 效度高
例子:某人體重是60公斤,他站上這台體重計,測出來的數字有時是58、有時61、有時59、有時60
信度低:數據變動太大、不穩定,沒有一致性
效度高:結果平均下來接近真實值60公斤,偏差小,但其實有準確性
看似隨便亂打,但其實有幾個有打中

:::
:::info
4.信度高 效度高
例子:某人體重是60公斤,每次站上體重計都穩定顯示60公斤
信度高:每次測量結果一致
效度高:測量結果準確、符合真實值
全部都打同一個地方而且都打在靶心

:::
## 信效度補充
大部分社會科學領域大多自己設計問卷/測驗來當作研究工具,但也很常拿別人做過的問卷/測驗/量表來改編
**改編量表/測驗/問卷注意事項:**
1. 不管有沒有改編題目,信度都要依據自己的研究對象數據重跑
舉例:OO量表 整體Cronbach’s α 0.86,自己研究時有200個參與對象,要拿這200筆數據去重跑信度
2. 如果有改編題目,記得要請專家重新評估效度(怕你改了題目跑題,測了沒有效果)
通常會重新做個專家效度
**自己編測驗注意事項:**
1. 如果要自己發展一個量表,請參考效度需要多少人跟數據抽樣一些注意事項
2. 自己編寫測驗一樣依據研究對象人數跑信度
3. 效度部分由專家確認即可
:::danger
‼️**特別注意**‼️
* 信度是針對「整份測驗分數或面向」估計,與個別題目無關。
* 有些文獻會寫整體信度O,面向A信度O,面向B信度O....,如果你的每個面向是可以被加總的,那就會有個整體信度產生
例如:
第一大題是非題
第二大題選擇題
第三大題簡答題
一、二、三大題加總最後算出總分
這時候就會有整體信度、第一大題信度、第二大題信度、第三大題信度,總共4個信度
* 每個面向建議都要由3個題目構成,測出來的信效度會較準
* 信度與樣本數量有關,不同樣本信度可能略有不同。(但不會因為樣本低,信度就會變低)
:::
# 量表跑信度(cronbach's α)
資料整理沒有絕對,我自己習慣是這樣整理
(看個人習慣,沒有絕對一定要這樣做)
## 量表整理方式
1. 將資料整理成以下欄位
注意:在整理數據的時候,絕對要把個人資料去掉(姓名、身分證、學號、座號等能看出個人身分的資料),建議都使用代碼進行編碼,當然你必須要知道這個代碼代表誰~
但建議不要把身份資料存在同一個excel(怕資料外洩就會出事)

2. 所有的欄位名稱都需要以英文命名
## 實作-JASP
### JASP跑信度
下載好JASP後,將csv檔資料匯入
選三條槓的漢堡>open>computer>找你檔案的放的路徑>找到你的檔案點開

:::danger
看不習慣英文可以改成中文
Preferences>Interface>紅框處

:::
如果不是用英文命名欄位,到統計軟體都會變成這樣的亂碼

一開始在紅框處會找不到信度(Reliability)在哪裡,請依照下圖步驟找到信度

選擇古典單向信度

---
**要開始分析囉**
1. 選擇古典信度後,將你要分析的試題放到變項欄位
如果量表沒有分面向,就整份量表題目放進去變項欄位,如果有分面向,將面向的題目放進去,跑每個面向的信度
3. 下方分析請點選coefficient α(=cronbach's alpha/cronbach's α)跟coefficient α(if item dropped)
按coefficient α是為了計算cronbach's alpha,按coefficient α(if item dropped)是為了知道每題如果刪掉之後信度會不會提高?
3. 按下去後可以從右邊綠框處看到結果
4. 可以看到coefficient α 估計值 =0.716 ,那就是我們的cronbach's alpha值
5. 再看下面Q1~Q3,可以發現如果把Q1跟Q3刪掉,信度會降低,代表這兩題問題問得一致(大家都有搞懂題目在問什麼),符合題目面向,不可以刪掉
:::warning
但有個可能是,問的問題內容太接近,換湯不換藥的問法,他的信度也會高
:::
6. 但看到Q2刪掉後,信度居然會上升了,代表問題問的內容跟其他題目不一致,建議就要修改題目內容或是選擇刪題

---
## 實作-SPSS
### SPSS跑信度(Cronbach’s α)
資料處理的方式跟上面JASP一樣
把資料匯入SPSS,看要用csv或xlsx都可以(我習慣用xlsx)
檔案>開啟>資料>找到你的檔案

找到分析>尺度>信度分析

跟剛剛一樣,把同一個面向的題目丟到項目中,然後點旁邊的統計量

統計量中依照下面勾選的內容打勾,按繼續,按確定>得到結果

會得到跟剛剛JASP很像的值,跟JASP有誤差很正常,因為兩套軟體在取小數點計算取的位數不同,結果也會有一點點誤差

# 測驗跑信度(庫李信度)
如果測驗/考卷是有解答的像是(是非題、選擇題)有解答的或是有給分數的(包含部份給分的(計算題、填空題)
要跑試題分析(信度、效度、難度、鑑別度)都要先將數值轉換
## 測驗跑信度的事前處理
1. 檢查數據有沒有漏
手上有一份是非題,先看一下有沒有人漏答
如果有漏答,先回去檢查原始資料(google表單)看是學生沒有填到還是自己誤刪到
確認真的沒有填到,請當下馬上要請學生回答重填
絕對不行事後過很久才請學生重填!!!!!!(這樣沒有效力)

2. 將正確解答寫在最下方,等等要將答案轉換成0跟1

3. 把同一題所有回答選起來,找到尋找跟取代中的取代

4. 依據正確答案,用0跟1取代掉中文字(學生回答正確寫1,回答錯誤寫0)

## SPSS跑信度(庫李信度)
為什麼要將答案轉換成0跟1呢?
庫李信度:只有兩種選項(例如對/錯、是/否、對應數值是 0 和 1)的測驗的內部一致性。
要先進入到SPSS的變數檢視修改

要修改的地方共有兩處(Q1到Q10都要一起修改)
先點選字串隔壁的...

將字串改成數值

把旁邊的名義改成尺度

---
**要開始分析囉**
一樣選擇分析>尺度>信度分析

把同一個大題的題目都丟過去項目,按統計量

照下面打勾>繼續>確定>得到結果

如果是測驗/考卷的信度,我比較沒看過有人分析(有,但很少)。比較多是用在學校期中/末考、會考等大型考試的試題分析
但我統計老師說不管是測驗或小考考卷,只要論文研究用到的研究工具,他都建議要報告信度XD

# 信度論文撰寫寫法
當你跑出所有面向的信度之後,在寫論文時,可以參考以下寫法
本研究目的是探討國小學生在AI素養的現況,研究採用問卷調查,以量化統計方法進行分析,以每學期結束前進行調查評估國小學生AI素養之認知與技能能力。
問卷採改編問卷,以OOXX文獻內容提到的AI認知與AI技能改編,針對學生基本背景(如:學校、科系、年級、性別與年齡等),並將每個面向改編為2題認知與2題技能;技能題以某某文獻中的知識、理解與應用三個層次進行改編以評估AI素養中技能等級。
問卷以李克特五點量表(非常不同意1分~非常同意5分)進行問卷調查。AI認知面向之Cronbach's α內部一致性係數為 .84;AI技能面向之Cronbach's α內部一致性係數為 .85。AI素養問卷內容詳如表 1。
# 補充說明
### 問的不一致是什麼意思?
當你發現有的信度很低的時候,就要回去逐題審題
舉例:
Q1~Q3都在問對AI的認知
Q1:我知道AI可以幫助我計算複雜的數學問題
Q2:我會使用AI幫我畫出漂亮的圖
Q3:我知道可以跟AI聊天,但不可以把很隱私的資料給AI
明顯Q1跟Q3都是在問知道AI可以做什麼事情跟對AI瞭不了解
但Q2在問會操作/使用AI
這就是問的不一致,在認知的題目裡面混了一題技能,信度就會降低
### 命題太接近是什麼意思?
有時候命題的內容幾乎是一樣的時候,也會出現錯誤的信度上升,又稱為換湯不換藥的命題
舉例:
Q1:我知道AI可以幫我寫數學作業
Q2:我知道AI可以幫我寫國文作業
Q3:我知道AI可以幫我寫英文作業
另一種常見的換湯不換藥的命題內容有
Q1:我知道AI可以幫我算複雜的數學題目
Q2:我知道輸入數學問題到AI系統中可以得到解析步驟與答案
* 什麼才算正確的命題呢?
不確定有哪些命題方向,可以先把大範圍框出來
例如想知道學生對AI的認知,可以把AI的功能框出來,如:翻譯、計算、輔導、查資料....
Q1:我知道AI可以幫我計算複雜的數學題目
Q2:我遇到不會的英文句子可以請AI幫我翻譯
### 明明是庫李信度,為什麼還是看到 Cronbach's α?
這是因為 庫李信度是專門針對只有 0 和 1 的二元變項設計
Cronbach’s α 適用於連續或類似等距的資料,像是5點或7點 Likert 量表。它的邏輯是從整份量表的「總變異量」與「題目間的殘差」去估算內部一致性,衡量題項是否測同一個構念。
KR-20 則是專門用來處理二元題目(例如對錯題),透過每一題的「答對率(p)」與「答錯率(q)」來計算變異,進一步衡量整份測驗是否具有一致性與難易適中。
可以參考庫李信度的計算方式

:::info
**一些碎碎念
這是之前學弟妹們拚畢業論文時,每天都在狂line我,向我求救怎麼跑統計產生出來的文章
因為當時寫得太過潦草簡略,現在把他好好地寫好**
**都跟學弟妹說統計是玄學,跑了不會分析不會看數據也是一種心痛
希望寫出這篇工具跟解讀數據的文章有助於幫助所有受統計困擾的人**
**最後**
**再三推薦 顏志龍, 鄭中平老師們的《給論文寫作者的統計指南:傻瓜也會跑統計I跟II 》
這是當年剛讀研究所統計小白的我,不知道該怎麼下手的啟蒙書,這本書陪我度過無數個無助跑統計的夜晚QQ**
**希望這份文章,也可以幫助所有無數跑統計無助的研究生們**
:::
參考文獻:
吳明隆、涂金堂(2011)。SPSS與統計應用分析。台北市:五南。
Comrey, A. L. (1973). A first course in factor analysis. New York, NY: Academic Press.
Comrey, A. L. (1988). Factor analytic methods of scale development in personality and clinical psychology. Journal of Consulting and Clinical Psychology, 56, 754-761.
Gorsuch, R. L. (1983). Factor analysis. Hillsdale, NJ: Lawrence Erlbaum.
Gay, L. R. (1992). Educational research competencies for analysis and application. Macmillan, New York.
Sudman, S. (1976). Applyied sampling. New York: Academic Press.
Tinsley, H. E., & Tinsley, D. J. (1987). Uses of factor analysis in counseling psychology. Journal of Counseling Psychology, 34, 414-424.