# 教育統計學1109 ###### tags: `教育統計學` ### 檢討考卷答案 是非題 TFTTT 1. 人為零點非自然零點,需有絕對零點才是比率變數,轉成題數差別在於連續變數與不連續變數 選擇題 DBEDB 1. A也是對的,所有的累積次數多邊圖都是尖(J)形 3. 變異量數變分成兩大類,絕對變異量數跟相對變異量數 C.V是相對變異量數 一般書不寫Q,寫 $Q_3-Q1$ 4. Q是$Q_3到Q1$之間的距離,其他是數軸上的一點 --- P81 橫軸是Z,所以不是一般的常態分配 不能用S,要用$\sigma$ ,且中間不應該用0,要用$\mu$ 範例6-5 不同測驗不應該比較,因為測驗方向並不相同,但單純計算Z值比較練習還是可以的 **P73 關鍵值會常常用** ## 簡單相關與回歸 前面幾章主要講X軸,變數多半只有一個,第七章開始講到相關,會開始討Y軸,所以開始要經常標足標不然不知道是誰的數值 回歸其實就是預測的概念 分享周刊資料 - 統計很重要 ![](https://i.imgur.com/B4sxZi6.jpg) ![](https://i.imgur.com/NNkDdpe.jpg) Causality 因果關係 - 很少出現直接因果關係 相關高也不一定代表有因果關係,X Y可能同時都是果 EX:印度柏油軟度與死亡人數相關 (因天氣熱),但這兩這並無因果關係,都是果 這裡主要講積差(動差)相關(The pearson product-monent correlation coefficient),這裡英文monent 即為動差之義 (16章之後會講各種其他相關模式) 目前只教一種,所以不特別強調是皮爾遜積差相關 皮爾遜積差相關最大值1,最小值-1 **(高普考考過證明)** 1完全正相關,-1為完全負相關 ![](https://i.imgur.com/h1zEp9d.png) 畫上$\bar X 與 \bar Y$ 探討數組位於何象限 $\Sigma (X-\bar X)(Y-\bar Y)$ ![](https://i.imgur.com/XqOsUCu.jpg) 因此點數若多在一三像限,為正值 除以N 則為 $\dfrac{\Sigma (X-\bar X)(Y-\bar Y)}{N}$ 即是P87 共變數 (covariance) 轉化後可得共變數方程式2=$\dfrac{\Sigma XY-\dfrac{\Sigma X \Sigma Y}{N}}{N}$ 1. 然而單位會有兩個,例如身高體重的共變數,算出來單位為 公分/公斤,難以比較 2. 另外這個值沒有範圍,很難得知相對大小(EX:共變數80,無法知道是大是小) 所以共變數$C_{ov}$是非標準化的關聯量數 除以標準差,則能消除以上問題(標準化) $\dfrac{\dfrac{\Sigma(X-\bar X)(Y-\bar Y)}{N}}{S_xS_y}$ (皮爾遜第一公式) $=\dfrac{\Sigma(\dfrac{X-\bar X}{S_x})(\dfrac{Y-\bar Y}{S_y})}{N}$ 皮爾遜積差相關公式: $r=\dfrac{\Sigma Z_xZ_y}{N}$ 算標準差不好算,於是可以轉為公式7-5 (課本P89有推導方式) $r=\dfrac{N\Sigma XY-\Sigma X\Sigma Y}{\sqrt{N\Sigma X^2-(\Sigma X^2)} \sqrt{N\Sigma Y^2-(\Sigma Y^2)}}$ 證明r 上下限1~-1: ![](https://i.imgur.com/E0cMkpa.jpg) 書上還有另一個公式單純證明上下限 這裡因為在群組提問的同學到了,所以跳去解答問題 P81 百分等級是次序變數 對上去的面積一樣 P85 **圖e是錯的** 皮爾遜公式無法算r=0,因為$S_y$為0,分母為零無法計算 所以分散圖就算是一直線,也不一定r=1或-1 完全正相關之條件: $Z_x=Z_y$ ### 相關係數的解釋 **P90~91一定會考** 1. 有相關不一定有因果(有因果一定有相關) 2. |r| 相關強度不看正負,另外不一定.80以上就一定高,例子:離婚率與經濟狀況r要參考過去研究;比馬龍效應(Pygmalion Effect)相關就算不高,也是要重視。所以要考慮三點。 1. 研究的變數是什麼,有些相關天生就很高。 2. 過去研究結果和現在對照比較才有意義 3. 相關一定要用$r^2$去解釋,不要用r去解釋 3. 樣本也會影響相關,樣本太少相關係數較無意義,抽樣會影響相關結果, 4. 全距若受到限制,相關係數通常會變小(EX:只取高智商者比較學業成績) 5. 直線相關才能用皮爾森公式計算,若為曲線相關,較無法用皮爾森公式計算,將在16、17章介紹 6. 極端值影響與處理(極端值影響很大,所以要把不合理的極端值拿掉) 只要不是曲線,都歸到直線趨勢 X與Y相關係數 跟 Y與X相關係數會相等 ## 直線回歸與預測 賣栗子比炒股票好賺,學會相關係數炒股也不會贏 [耕耘機補助100W](https://www.newsmarket.com.tw/blog/117140/) 回歸就是預測 迴歸(Regression)使用某些變項預測另一些變項的統計技術 迴歸一詞,是19世紀英國知名統計學家高爾頓(Francis Galton) 為了描述父親身高與兒子身高兩變數間的關係所引進, 也因此產生迴歸分析此一現今常用的統計方法。 高爾頓發現個子較高的父親,兒子有較高的傾向, 至於較矮的父親,兒子也有較矮的傾向。 這當然不是什麼了不起的發現,僅是遺傳而已。 但他亦觀察到,較高的父親,兒子往往比父親稍矮一點, 而較矮的父親,兒子卻常比父親略高些。 高爾頓稱此現象為「趨中迴歸」(regression toward the mean),也就是靠向平均。 regression一詞即有後退或退化的意思。 [向平均數回歸](https://wiki.mbalib.com/zh-tw/%E7%BB%9F%E8%AE%A1%E5%9B%9E%E5%BD%92%E6%95%88%E5%BA%94)((Regression to the mean) $Z_Y'=r_{xy}Z_x$ 事情大多是複迴歸,目前先只講單一迴歸 二元一次方程式 為一直線 $y=3x+2$ 截距2 斜率3 若有一條適合的線通過分散圖,就可以預測數線上的點 課本P93有推導公式 $b_{y,x}$ 亦即用x預測y的值 ![](https://i.imgur.com/Wwyf8bD.jpg) 迴歸裡面b叫**迴歸係數**,a叫**迴歸常數** ![](https://i.imgur.com/TAPM1Dc.jpg) 有S的時候這個公式比較好用 * r與b有正負一致的關係 ![](https://i.imgur.com/vU9Lv0w.jpg) #### 練習講義 先畫分散圖 1. 檢查是否值線趨勢 2. 檢查極端值 r值要盡量算精確,以免後續誤差擴大太多 X變數能夠解釋Y分數變異數中的部分,就叫做決定係數=$r^2$ -課本p100 下次上課記得要帶講義 [本週上課錄音檔](https://drive.google.com/drive/folders/1Rlle6FjmcoZaRnL8hTxPPogDIa6j5Ymd?usp=sharing) ___ 小考開始 :100: