--- title: 2022. fall-Quan. Homework 01 Tags: Quan-hw --- # 2022. 秋 量化資料分析 作業1-答案 | 學號 | 姓名 | | :-----------: | :------: | | **711062108** | **李樹** | > - [ ] 作業會包含「**問答題**」與「**操作題**」,==Word 檔請包含文字解釋==,所使用到的表格請==依照最後附上的表格範本==進行置表。將需要用到的表格填入數值,數值==請四捨五入至小數點後兩位==。 > - [ ] 此外,請另外繳交語法檔案(`.do` file)和記錄檔(`.log` file)。 > - [ ] 作業檔案名稱請在原檔名後加上「*姓名*」: (例:`2022_fall-Quan-hw01_李樹.docx`) --- #### 一、問答題(55 分) 1. 在抽樣時我們會希望抽樣誤差越小越好。由於我們無法減少母體標準差,因此會透過增加樣本數來減少樣本的標準誤差(standard error)。請問能藉由擴大樣本數來減少樣本標準誤差是根據什麼定理呢?請解釋原因?(10 分) > 根據的是中央極限定理,如果我們要讓抽樣的誤差越小的話,有「減少母體標準差」與「增加樣本人數」兩種辦法,在前者無法達成的情形之下,我們只能採取後者的方法。而在樣本平均數分配中,當我們抽取的樣本數越多(N>30),那麼所呈現的結果就會越接近常態分布。會不斷地重複抽樣到常態分布,除了方便研究者的預測外,最重要的就是整體平均數標準誤會減少。在此定理下的樣本平均數分配,也就可以用來描述各種不同母體的分布情形。 2. 在進行分析之前我們需要先了解變項的特性,並因應變項的特性來選擇分析的方式。請**舉例說明** 不同變項各自的特性(例如不同值之間的關係),並簡述連續/非連續變項與四種測量尺度之間的關聯或差異。(10 分) > 1. 連續變項:變項的數值可以被無限切割,每個變項都可以被當成一段距離,數值與數值間具有「連續性」,以分數為單位進行測量。像是身高、體重,在日常生活我們可能以整數來描述,例如50公斤、75公斤等,但在做健康檢查時,卻也能夠發現到會有小數點的數值,可能是55.4或是60.1…等。如果透過四捨五入法取到個位的方式,能夠看到其區間內涵蓋了50.1到74.9,而這便顯現出數值能夠切割的特性。 > 2. 非連續變項:變項的數值是不能切割的,每個變項的數值只能夠代表一個點,而非一段距離,也因為數值是一個點一個點的呈現,非連續變項也就以整數為單位進行測量。常見的變項有人數、成績排名,例如我們會說今天班級的出席人數是40人,而不會有40.1、40.5的數值出現,這樣的分數並不符合我們的邏輯;再舉排名為例,我們會有第1、2、3、4名(或稱作冠軍、亞軍、季軍、殿軍等),卻不會有1.5名、3.8名的數值,印證了非連續變項數值的特性,其數值都代表著特定意義。 > 3. 在名目與等級的測量尺度中,前者因為著重在將事物劃分成不同的類別,所以會依照事物的特質去分類,像是性別、種族等; > 4. 而後者則是事物的排序,像是考試的排名、百分等級(PR值)等。這兩個尺度通常屬於非連續變項。 > > 而等比與等距這兩個測量尺度,因為涉及到將該變項的某種特質進行量化,所以這兩個尺度會是屬於連續變項(也有可能屬於非連續變項)。這兩者的差異則是相對與絕對的概念,以0為例子,等距所展現的就是相對的概念,溫度0度並不代表沒有溫度,而是其中一種特質;但若換成等比的尺度,0所代表的就是絕對的,即為沒有該特質,像是價格、收入等,0就是免費、沒有收入。 > > 因此,這四種測量尺度在連續變項與非連續變項當中,是透過變項所產生的數值是整數或分數而有所區分;如果是四種尺度進行比較的話,則是藉由數學的運算方式而有所排序。 3. 請分別簡述單一樣本z檢定(one-sample Z test)和單一樣本t檢定(one-sample T test)的使用前提、目的,和兩者的差異,並試舉例之。(10 分) > 單一樣本t檢定(one-sample T test) > > 使用前提: > > (1)母體標準差未知或是樣本數小於30(N<30) > > (2)依變項需為數值(連續變項),自變項則是類別或是兩分類 > > (3)資料為常態分配 > > (4)抽樣方式為隨機抽樣 > > 目的:檢驗研究的樣本平均數與母體平均數是否有顯著差異 > > > > 單一樣本z檢定(one-sample Z test) > > 使用前提: > > (1)知道母體的標準差或是樣本數大於或等於30(N ≥30) > > (2)資料為常態分配 > > (3)抽樣方式為隨機抽樣 > > 目的:與單一樣本t檢定類似,都是檢驗研究的樣本平均數與母體平均數是否有顯著異 > > 差異: > > (1)兩種檢定的樣本數,單一樣本t檢定相對來說較小,而單一樣本z檢定則通常使用在大樣本的前提之下,這兩者的樣本數分界為30筆。 > > (2)而是否知道母體的標準差,也影響之後的檢定估計,單一樣本t檢定因為不知道母體的標準差,所以在計算抽樣誤差時,是使用樣本的標準差(SD),公式為 SEM$_{s}$ = SD/ n^(1/2);單一樣本 z 檢定在知道母體的標準差下,計算抽樣誤差即使用母體的標準差(σ),公式為SEM =σ/n^(1/2)。 > > (3)單一樣本t檢定是在不知道母體標準差的前提下進行檢定,所以在計算時得使用「自由度」。這代表在我們知道該組數字的平均或是總數量的前提下,在估算其他數字時,是沒有辦法對最後一個數字(N-1)進行變動的。正因為這樣,在我們使用樣本標準差代替母體標準差的時候,其自由度就會減少1。 > > 舉例: > > 想要知道高三社會組的期中考數學平均成績是否低於高三全體的數學平均成績 > > 樣本:16位參加補教教學的學生 > > 樣本平均英文成績(M):75 > > 母體平均英文成績(µ):79 > > 母體標準差(σ):8 4. 在統計分析上我們會希望能從有限的樣本資料推論母體的分佈情況,為此需要進行**推論統計**來檢證樣本資料所呈現的分布情況。請問,在推論統計中**虛無假設**(H0)和**研究假設**(Hα)的意義為何,請舉例說明(10 分) > 在進行推論統計時,我們會把我們想要證明的推論設定為**研究假設**,而將研究假設的對立面設定為**虛無假設**。舉例來說,我們想要了解性別對薪資是否有影響,在確立我們的研究假設(性別對薪資有影響,H$_{a}$)之前,我們需要先設立**虛無假設**(H$_{0}$):性別對薪資沒有影響。並以統計分析的成果來檢測我們是否能夠推翻虛無假設。 5. 在設立虛無假設與研究假設後我們會依照資料的分佈情況進行推論統計,其中最重要的環節是設立**拒絕區的臨界值**(α)。請問當我們設立 α = 0.05 時,他所代表意義為何?請舉例說明(15 分) > 當我們設立虛無假設和研究假設後,我們會依照樣本統計分析的情況來進行推論統計;而在得到統計結果後(舉例來說:性別對薪資的影響係數)我們會考量得到此結果的機率(p值);當p值**小於我們設立的拒絕域(α)時**,我們可以說該結果發生的可能性過小,但我們仍然得到這樣的結果,因此可以推翻虛無假設。此時,α = 0.05為常用的拒絕域,代表發生該結果或偏離更多的所有可能性的機率密度是否小於0.05;若小於則可以拒絕虛無假設。 > 舉例來說,在我們經過 t 檢定後,發現男性的薪資平均比起女性高出 4000元,且發生此現象的p值小於 0.0001;此時 p 值小於拒絕域(α),因此我們可以拒絕虛無假設(性別對薪資沒有影響) > --- #### 二、 操作題 (45 分) 隨著台灣民主化的過程演進,民主價值或民主態度是社會學分析當中熱門的概念,既有的文獻中可以看到許多不同的操作化方法。其中用來解釋的基本因素則大多包括性別、年齡。例如張佑宗(2008)對於台灣社會民主價值的研究裡提到:「傳統上認為女性較保守,政治知識比較不充足...但是,最近台灣的研究卻發現,女性未必會比男性保守,有時候甚至比男性左傾一點。」至於年齡的部分,他也發現「年紀越大越不具有民主價值取向。」 然而民主價值所包含內容廣,莊文忠(2010)在其對於台灣民眾公民意識的變化的分析裡,將公民意識劃分為「反權威意識」、「民主深化認同」、「政治功效感」、「政治信任感」、「民主價值認同」五個面向,端看其中的反權威意識部分,重點在於人民是否覺得自己能公開向政府表達不同的意見,因此我們將2016台灣社會變遷調查公民與國家組當中的相關題目組合成「保守程度」概念,來試著回答下列問題,並看其與過去研究有何異同。 | 變項 | 變項標籤 | 值標籤 | | :-----------: | ---------- | ------------------------------------------------------------ | | `gender` | 性別 | 將`a1`變項重新編碼: 0=女性 1=男性 | | ` age3g` | 年齡三分組 | 19~39=青年 (1) 40~64=壯年 (2) 65以上=老年 (3) | | `age` | 年齡 | 以`105-a2y` 計算出年齡 `a2y` 的遺漏值為97、98 | | `reactionary` | 保守程度 | `d2a`、`d2b`、`d3a`、`d3b` 相加取平均,分數越高越保守 (遺漏值=94/98) | 1. 變項整理,包括重新編碼、製作標籤、處理遺漏值(使用變項沒有遺漏值的資料)(5 分)(==整理於語法中==) ```c // 1.(重新編碼) // 性別 recode a1 (1=1 "男性")(2=0 "女性"),gen(gender) label variable gender "性別" // 年齡與年齡三分組 recode a2y(97 98=.) gen age=105-a2y label variable age "年齡" recode age(19/39=1)(40/64=2)(65/98=3),gen(age3g) label variable age3g "年齡三分組" label define age3gL 1 "青年" 2 "壯年" 3 "老年" label value age3gL age3g // 保守程度 recode d2a d2b d3a d3b(94/98=.) gen reactionary=(d2a+d2b+d3a+d3b)/4 label variable reactionary "保守程度" // 處理遺漏值 gen touse=!missing(gender,age3g,reactionary) // 2. // 描述統計 tab gender if touse tab age3g if touse sum reactionary if touse //3.(記得if touse) ttest reactionary = 2.5 if touse //4.(記得if touse) ttest reactionary if touse, by(gender) //5.(記得if touse) oneway reactionary age3g if touse,tab bon ``` 2. 描述統計:將所有用到的變項(性別、年齡三分組、保守程度)各別描述統計內容整理成表格,並==以文字簡要描述其意義==。請注意樣本數統一。(10分) > 從描述統計的圖表中,可以看到性別變項的男性的觀察值為==939==個(==53.6==%),女性的觀察值則==813==個(==46.4==%);而在年齡三分組中,青年的觀察值為==738==個(==42.16==%),壯年的觀察值為==771==個(==44.01==%),而老年的觀察值則是==243==個(==13.87==%),從數量上的分布大約可以看到在經過變項整理後,青年與壯年的比例居多。 > > 在保守程度的變項中,共有==1752==個觀察值,其平均值為==2.12==,標準差為==0.68==,最小值是==1==,最大值則是==4==。 3. 保守程度的分數最低由1至最高4分,理論上中心點在2.5,請檢驗受訪者的平均保守程度與理論中心點是否有差異(==請設立虛無假設和研究假設進行說明==)。(10 分) > (1)設定虛無假設與研究假設 > > 虛無假設(H$_{0}$):受訪者的平均保守程度和理論中心點沒有差異,µ = 2.5 > > 研究假設(H$_{a}$):受訪者的平均保守程度和理論中心點有差異,µ ≠ 2.5 > > (2)使用單一樣本T檢定進行分析 > > (3)表格 > <table class="table table-hover table-condensed" width="100%"> > <thead><tr><th class="text-center" align="center" colspan=4>依變數:保守程度</th> > </tr></thead> > <tr> > <td>自變項</td> > <td>平均數</td> > <td>標準差</td> > <td>t檢定</td> > </tr> > <tr> > <td></td> > <td>2.12</td> > <td>0.68</td> > <td>-23.13***</td> > </tr> > <tr> > <td colspan = 4> * p< 0.05 ** p< 0.01 *** p< 0.001</td> > </tr> > </table> > > (4)數值詮釋 與 (5)討論結果(研究猜想僅供參考) > > 根據單一樣本T檢定(雙尾),t=-23.13,p=<0.001,故拒絕虛無假設(H~0~),受訪者的平均保守程度與理論中心點有差異,原因可能為性別或是不同年齡層有關,有待後續分析。 4. 請問在2016年的調查中,不同的性別是否有不同的保守程度(==請設立虛無假設和研究假設進行說明==)?(10 分) > (1)設定虛無假設與研究假設 > > 虛無假設(H$_{0}$):µ$_{男性}$ = µ$_{女性}$,男性與女性兩者之間的保守程度沒有顯著差異 > > 研究假設(H$_{a}$):µ$_{男性}$ ≠ µ$_{女性}$,男性與女性兩者之間的保守程度有顯著差異 > > (2)使用t檢定進行統計分析 > > (3)表格 > > <table class="table table-hover" width="100%"> > <thead><tr><th class="text-center" align="center" colspan=6>依變數:保守程度</th> > </tr></thead> > <tr> > <td>自變項</td> > <td></td> > <td>平均數</td> > <td>標準誤</td> > <td>標準差</td> > <td>t 檢定</td> > </tr> > <tr> > <td rowspan=2>性別</td> > <td>男</td> > <td>2.12</td> > <td>0.02</td> > <td>0.69</td> > <td rowspan = 2>0.22</td> > </tr> > <tr> > <td>女</td> > <td>2.13</td> > <td>0.02</td> > <td>0.68</td> > </tr> > <tr> > <td colspan = 6> * p< 0.05 ** p< 0.01 *** p< 0.001</td> > </tr> > </table> > > (4)數值詮釋 > > 根據檢定結果,其自由度=1750,t值=0.22,雙尾統計p=0.83>0.05,因為拒絕區的起始為1.96,所以t值並沒有落在拒絕區內,==無法拒絕虛無假設(H$_{a}$)==。因此男性與女性兩者之間的保守程度並==沒有==差異。 > > (5)討論結果(研究猜想僅供參考) > > 雖然題目提及到傳統上對女性的看法認為她們的政治知識不夠充足,但隨著社會的變遷、教育的普及與臺灣人投入選舉的程度,其實男性與女性之間的政治知識是有慢慢地拉近。而這份2016年的研究資料,在經過性別與保守程度的檢定後,也印證了兩者之間的保守程度其實是沒有差異的。 5. 承上題,請問**不同年齡層**在保守程度的態度上是否有差異?請設立虛無假設和研究假設進行說明。(10 分) > (1)設定虛無假設與研究假設 > > 虛無假設(H~0~):不同年齡層之間的保守程度沒有差異 > > 研究假設(H~a~):不同年齡層之間至少有一組在保守程度上有差異 > > (2)使用 Anova 檢定進行統計分析 > > (3)表格 > > <table width="100%"> > <thead><tr><th class="text-center" align="center" colspan=6>依變數:保守程度</th> > </tr></thead> > <tbody> > <tr> > <td colspan =2 width=30%>自變項</td> > <td width=15%>平均數</td> > <td width=15%>標準差</td> > <td width=15%>F 檢定</td> > <td width=100%>多重比較</td> > </tr> > <tr> > <td rowspan = 3>年齡層</td> > <td>青年</td> > <td>1.93</td> > <td>0.60</td> > <td align = "center" rowspan = 2>***</td> > <td rowspan = 2>老年 > 壯年 > 青年 </td> > </tr> > <tr> > <td>壯年</td> > <td>2.19</td> > <td>0.67</td> > </tr> > <tr> > <td>老年</td> > <td>2.50</td> > <td>0.78</td> > <td></td> > <td></td> > </tr> > <tr> > <td colspan = 6> * p< 0.05 ** p< 0.01 *** p< 0.001</td> > </tr> > </tbody> > </table> > > (4)數值詮釋 > > 根據檢定結果,F 值在=78.56,p遠小於0.0001,可以拒絕虛無假設(H$_{0}$);因此不同年齡層之間至少有一組在保守程度上有顯著差異。 > > 而為了進一步檢測組內的差異,我們進行 Bonferroni 檢定,從表中可以得知,老年比起壯年和青年都要來得更加保守,且顯著水準達到 0.001;而壯年比起青年則來得更加保守,同時顯著水準也達到 0.001。 > > (5)討論結果(研究猜想僅供參考) > > 綜上所述,我們可以發現不同世代在保守態度上的差異,青年世代由於教育程度的影響以及社會環境的轉變,使得青年世代相較於壯年、老年世代更能夠接受不同的想法,因此在政治議題上更為開放。 ---
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up