--- title: W07 In-Class @ 2022. 秋 量化資料分析 tags: 量化資料分析-北大,layout-note --- <div style="text-align: center"> <h1>Week 07 課後練習</h1> </div> ```c= // 匯入資料 use 2011health_w3.dta ``` ## 問題一:卡方檢定 > 請使用 2011 年社會變遷調查健康組調查資料,回答以下問題: > 請問再工作狀態上有性別差異嗎?請使用交叉表、設定假設、使用卡方檢定、並討論結果。 > - 工作狀態:`work_status` > - 性別:`gender` ```c= tab gender work_status, chi expected ``` 從交叉表的分析中可以發現不同性別和工作狀態之間的分布狀態。為了檢定性別差異是否會影響不同的工作狀態,我們可以設定虛無假設: > H0:性別差異與工作狀態無關。 反之,對立假說則是性別跟工作狀態之間有關係。 > Ha:性別差異會影響工作狀態。 透過交叉表的分佈可以發現,男性的全職工作者比期望值來得多(622 > 559.1),而女性的全職工作者則比期望值來得少(509 < 571.9);而男性兼職工作者略多於期望值,女性兼職工作者則略小於期望值;男性無工作者少於期望值,女性無工作者多於期望值。簡言之,從交叉表的分佈中可以看見性別與工作狀況的實際分布與虛無假設(期望值)有所差異。 而從卡方檢定的結果可知,若在虛無假設為真的前提下,要得到這樣的結果的機率遠小於0.001,這樣的機率太低使得我們可以拒絕虛無假設,換言之性別與工作狀況之間有關連性。 ## 問題二:相關性檢測 > 請使用 2011 年社會變遷調查健康組調查資料,回答以下問題: > 社會階級與能動性(agency)有關嗎?社會階層越高,越能掌握自己的生活嗎? > - 自我生活控制:`automony` > - 社會階級:`class` - 請分別以 *Pearson's correlation* 與 *Spearman's rho correlation* 來分析 - 請設定假設檢定,解釋結果 ```c= pwcorr autonomy class, sig spearman autonomy class, stats(rho p) matrix ``` 為了了解社會階層是否會影響自我生活控制的程度,為此我們設立虛無假設: > H0: 社會階層與自我生活控制度無關 相對的,對立假說即是假定社會階層與自我生活控制度有相關。 > Ha: 社會階層與自我生活控制度相關 從相關性檢測可以發現,階級與自我生活控制度有正相關(相關係數:0.301),而且這樣的相關性達到顯著水準。換言之,在虛無假設為真的情況下,只有小於0.0001的機率可以得到0.301這樣的相關性,而這樣的機率過低因此我們可以拒絕虛無假設。 此外,這樣的相關性也能從spearman檢定發現,從spearman 檢定也可以發現自我生活控制度與階級呈現正相關(相關係數:0.3184)。 ## 問題三:相關性檢測 > 請使用 2011 年社會變遷調查健康組調查資料,回答以下問題: > 年齡與上網時數有關嗎? > - 上網時數:`online_hour`(每天,小時) > - 年齡:`age` > - 請設定假設檢定,解釋結果 ```c= pwcorr online_hour age, sig ``` 為了了解上網時數是否跟年齡有關,為此我們可以設立虛無假設: > H0:年齡與上網時數無關 相對的,對立假說即是假定年齡與上網時數有關。 > Ha: 年齡與上網時數有相關。 從相關性檢測可以發現,年齡與上網時數存在顯著負相關(相關係數:-0.3357),而且這樣的相關性達到顯著水準。換言之,在虛無假設為真的情況下,只有小於0.0001的機率可以得到-0.3357這樣的相關性,而這樣的機率過低因此我們可以拒絕虛無假設。 ## 問題四 > 請使用 2011 年社會變遷調查健康組調查資料,回答以下問題: > 年齡會影響 BMI 嗎?年齡會影響上網時間嗎?上網時間會影響 BMI 嗎?請針對三個研究問題進行簡單線性回歸,設定假設,並討論這三個變項的關係。 > - BMI:`bmi` > - 上網時數:`online_hour`(每天,小時) > - 年齡:`age` > - 請設定假設檢定,解釋結果 ```c= use "2011health_w3.dta", clear // 設定touse,排除遺漏值 drop touse gen touse =! missing(bmi, online_hour, age) // A. 年齡會影響 BMI 嗎? reg bmi age if touse == 1 // B. 年齡會影響上網時間嗎? reg online_hour age if touse == 1 // C. 上網時間會影響 BMI 嗎? reg bmi online_hour if touse == 1 ``` ### A:年齡會影響 BMI 嗎? 為了檢測年齡是否會影響bmi,我們可以設定虛無假說: > H0:年齡不會影響bmi 相對的,對立假說即是假定年齡會影響bmi: > Ha: 年齡會影響bmi 從分析中可以發現,納入年齡的模型對於bmi具有顯著解釋力(f檢定的p值小於0.0001),換言之若我們假定納入年齡對於bmi沒有解釋力,只有0.0001的機率會得到這樣的結果,機率過低,因此我們可以拒絕虛無假設。 此外,從回歸模型中,我們可以發現,年齡對對於bmi有正面效應,每增加一歲,bmi會增加0.064。 ### B. 年齡會影響上網時間嗎? 為了檢測年齡是否會影響上網時間,我們可以設定虛無假說: > H0:年齡不會影響上網時間 相對的,對立假說即是假定年齡會影響上網時間: > Ha: 年齡會影響上網時間 從分析中可以發現,納入年齡的模型對於上網時間具有顯著解釋力(f檢定的p值小於0.0001),換言之若我們假定納入年齡對於上網時間沒有解釋力,只有0.0001的機率會得到這樣的結果,機率過低,因此我們可以拒絕虛無假設。 此外,從回歸模型中,我們可以發現,年齡對對於上網時間具有負面效應,每增加一歲,上網時間會減少0.071小時。 ### C. 上網時間會影響 BMI 嗎? 為了檢測上網時間是否會影響bmi,我們可以設定虛無假說: > H0:上網時間不會影響bmi 相對的,對立假說即是假定上網時間會影響bmi: > Ha: 上網時間會影響bmi 從分析中可以發現,納入上網時間的模型對於bmi沒有解釋力(f檢定的p值為 0.997),換言之若我們假定納入上網時間對於bmi沒有解釋力,有0.997的機率會得到這樣的結果,這個機率太高因此我們無法拒絕虛無假設。