--- title: Week04 課後練習 @ 2022. 秋 量化資料分析 tags: 量化資料分析-北大,layout-note --- <div style="text-align: center"> <h1>Week 04 課後練習</h1> </div> ## 問題二 ```c= /* 先用 codebook 檢閱觀察值的類別與標籤 */ codebook weight age gender /* 確認樣本狀況,其中體重(weight)遺漏56個樣本 */ /* 問題二:以樣本來推估女性的平均體重,其中女性依照年齡分為三類別:*/ preserve drop if gender == 1 ci mean weight if age >= 18 & age <= 34, level(95) ci mean weight if age >= 35 & age <= 60, level(95) ci mean weight if age >= 61, level(95) // 此前此處有錯誤,已更正。 restore ``` 從此樣本回推母體來說, 1. 13 - 34 歲女性的平均體重在 54.69 公斤、樣本的標準誤差 0.573,換言之,在 95% 的信賴區間內,這個年齡階段的女性體重平均數會落在 53.56 公斤至 55.82 公斤之間; 3. 35 - 60 歲女性的平均體重在 58.53 公斤、樣本的標準誤差 0.427,換言之,在 95% 的信賴區間內,這個年齡階段的女性體重平均數會落在 57.69 公斤至 59.39 公斤之間; 3. 60 歲以上的女性平均體重在 `58.05` 公斤、樣本的標準誤差 `0.548`,換言之,在 95% 的信賴區間內,這個年齡階段的女性體重平均數會落在 `56.97` 公斤至 `59.13` 公斤之間。 ==`數字的部份有誤,因為先前的code誤將 60 歲以上(不含 60 歲)寫成包含60 歲)因此此處的數字會有誤。`== ## 問題三 ```c= /* 先用 codebook 檢閱觀察值的類別與標籤 */ codebook work_hour age gender /* 確認樣本狀況,其中工作時數(work_hour)遺漏58個樣本 */ /* 問題三:以樣本來估計 25 - 64 歲男性和女性的工時,並設置 99% 的信賴區間。 */ preserve /* 男性工時 */ mean work_hour if age >= 25 & age <= 64 & gender == 1, level(99) /* 女性工時 */ mean work_hour if age >= 25 & age <= 64 & gender == 2, level(99) restore ``` 從此樣本回推母體來說, 1. 25-64 歲男性的平均體工時在 42.73 小時,其中樣本的標準誤差在樣本的標準誤差 0.901,換言之,在 95% 的信賴區間內男性的工時平均數會落在 40.41 至 45.06 小時之間; 2. 25-64 歲女性的平均體工時在 38.84 小時,其中樣本的標準誤差在樣本的標準誤差 0.899,換言之,在 95% 的信賴區間內男性的工時平均數會落在 28.52 至 33.16 小時之間; ## 問題四 ```c= /* 匯入 2019inequality_w1b.dta */ use 2019inequality_w1b.dta /* 教育年數編碼 * 無=0 * 自修=3 * 小學=6 * 國(初)中與初職=9 * 高中普通科、高中職業科、高職、士官學校=12 * 五專、二專、三專、軍警專修班、軍警專科班、空中行專=14 * 空中大學、軍警官學校、技術學院、科大、大學=16 * 碩士=18 * 博士=22 */ preserve gen eduyear = . replace eduyear = 0 if a13 == 1 replace eduyear = 3 if a13 == 2 replace eduyear = 6 if a13 == 3 replace eduyear = 9 if a13 == 4 | a13 == 5 replace eduyear = 12 if a13 >= 6 & a13 <= 9 replace eduyear = 14 if a13 >=10 & a13 <= 15 replace eduyear = 16 if a13 >= 16 & a13 <= 19 replace eduyear = 18 if a13 == 20 replace eduyear = 22 if a13 == 21 /* 用 codebook 觀察變數,並以touse控制此次分析中所有的資料,將遺漏值進行遺漏 * 其中,age 遺漏10個樣本,eduyear 遺漏4個樣本(拒答) */ codebook gender age eduyear gen touse =! missing(gender, age, eduyear) /* (一)樣本平均教育年數 */ ci mean eduyear if touse == 1 /* (二)39歲以下與 40 歲以上的教育年數差異 */ ci mean eduyear if age <= 39 & touse == 1 ci mean eduyear if age >= 40 & touse == 1 /* (三)男性與女性的教育年數差異 */ ci mean eduyear if gender == 1 & touse == 1 ci mean eduyear if gender == 2 & touse == 1 ``` 從此樣本回推母體來說, 1. 樣本平均的教育年數為12.63年,而在95%信賴區間內,樣本平均數的誤差範圍會在 12.38年至12.89年之間。 2. 比較39歲以下和40歲以上的教育年數,39歲以下的受訪者平均的教育年數為 14.98 年,而在95%信賴區間內,樣本平均數的誤差範圍會在 14.80 年至 15.16 年之間; 而40歲以上的受訪者平均的教育年數為 10.78 年,而在95%信賴區間內,樣本平均數的誤差範圍會在 10.54 年至 11.03 年之間; 3. 比較男性與女性的教育年數,男性平均教育年數為 12.65 年,而在 95% 的信賴區間內,男性平均的教育年數平均數會在 12.39 年至 12.90 年之間; 女性平均教育年數為 11.75 年,而在 95% 的信賴區間內,女性平均的教育年數平均數會在 11.46 年至 12.04 年之間; ## 問題五 ```c= /* 匯入 2011health_w3.dta */ use 2011health_w3.dta preserve /* 25-55 歲的平均月收入*/ ci mean r_mwage if gender == 1 & age >= 25 & age <= 55 ci mean r_mwage if gender == 2 & age >= 25 & age <= 55 /*比較工作狀態,忽略無工作者*/ drop if work_status == 3 bysort work_status: sum r_mwage if gender == 1 bysort work_status: sum r_mwage if gender == 2 restore ``` 從此樣本回推母體來說, 1. 25 至 55 歲之間的男性,平均收入在 4.07 萬,而在95%信賴區間內,樣本平均數的誤差範圍會在 3.76 萬至 4.37 萬元之間; 25 至 55 歲之間的女性,平均收入在 2.31 萬,而在95%信賴區間內,樣本平均數的誤差範圍會在 2.10 萬至 2.51 萬元之間; 2. 對男性來說,全職工作者的收入為 4.63 萬元,而兼職工作者的收入為1.90萬; 而女性當中,全職工作者的收入為 3.14 萬元,而兼職工作者的收入為1.26萬;