###### tags: `統計` # 心理科學基礎統計 課表名稱:社會統計(二) 授課教師:陳紹慶 上課時間:每週一3:40pm ~ 5:30pm 上課教室:人社院電腦教室 --- ## 現代人需要的統計思考 上課日期:3/2 ---- ### 為什麼要學習這門課? - 我們活在要依賴資訊才能安全生活的世界 - 例如:[國內新冠肺炎即時資訊](https://sites.google.com/cdc.gov.tw/2019ncov/taiwan?authuser=0) - 資訊:歸納的數據資料 ---- ### 如何知道資訊的可信度 - 靠自己判斷各種來源資訊的能力 - 運用工具處理要歸納的數據資料 ---- ### [podcast開放咖啡角](https://anchor.fm/opensci-cafe)的後台資訊 > 2020/2/22截圖 ![](https://i.imgur.com/GIDmwLP.png) ---- | ![](https://i.imgur.com/qPm00NR.png) | ![](https://i.imgur.com/we5NfqA.png) | |---|---| ---- - 這些資訊告訴我什麼? - 我能用這些資訊做什麼? ---- ### 這門課要學什麼? - 運用**統計思考**判讀與歸納資訊 - 認清**統計思考**是**科學思考**的一部分 ---- ### 這門課的學習資源 - [課程資訊公開網頁](https://www.notion.so/sauchinchen/890053e7bf0e48c6af1d19df5b500a2b) - 開源統計軟體 |[jamovi](https://www.jamovi.org/)|[JASP](https://jasp-stats.org/)| |---|---| ---- ### 個人設備調查 - 沒有自已的個人電腦? - 自已的個人電腦無法安裝JASP與jamovi? ---- ### jamovi下載與安裝示範影片 {%youtube QVNQh9JerjA %} ---- ### JSAP下載與安裝示範影片 {%youtube sYw8eG8hoY8 %} ---- ### 這門課的學習規劃 - 9次作業(iCan繳交) - 排程專案:[重製研究文獻統計資訊](https://hackmd.io/@CSC/Hy20fu0QL) ---- ### 補課意見收集 - 緣由:本學期第17週(6/22~6/28)有出國規劃,需要調查同學修課狀況,第三週決定補課方式。 --- ## 統計思考與研究設計 上課日期:3/9 ---- - 科學思考:<br>**假設**充分演繹事件發生原因並提出驗證原因的方法,以對原因的了解預測可能的結果;<br>**設計**驗證方法可公平發現*符合預測的正面結果*,與*不符合預測的反面結果*。 ---- ![Ronald Fisher](https://upload.wikimedia.org/wikipedia/commons/a/aa/Youngronaldfisher2.JPG =150x) [Lady tasting tea](https://en.wikipedia.org/wiki/Lady_tasting_tea) ![Milk tea](https://upload.wikimedia.org/wikipedia/commons/3/37/Nice_Cup_of_Tea.jpg =300x) ---- ![治療性撫慰](https://scgeeker.github.io/BasicStatistics/images/theraputic-touch.jpg) [治療性撫慰學會官網](http://therapeutictouch.org/) ---- ![](https://scgeeker.github.io/BasicStatistics/images/342px-Emily_Rosa.jpg) ---- ### Emily Rosa的感應測試設計 - 假設:撫慰師的感應測試正確率應該高於隨機猜測。 - 設計:隨機製造撫慰師與施測者事前都不知道的**十次出手順序**;紀錄所有撫慰師能答對的次數。 ---- - 統計思考:</br>以科學思考形成的**假設** </br> 收集資料的**設計**符合隨機原則 </br> **分析**正面證據肯定假設對比反面證據否定假設的機率 ---- #### 資料分析展示:以Emily Rosa的感應測試資料 JASP -> Data Library -> `5. Frequencies` -> Emily Rosa \_\_\_\_\_\_\_\_\_ #### 匯出資料 Menu -> Export Data -> Save in your computer ---- ### JASP與jamovi的資料處理哲學 - 限定處理**可分析資料**,通常包含**依變項**/**應變項**及**獨變項**/**自變項** - 至少有一個可分析資料的欄位是**依變項**/**應變項** - 其他**可分析資料**欄位來自紀錄;分析者編輯新欄位;或轉換非可分析資料 ---- ### 資料編輯功能 JASP 使用系統預設試算表編輯器編輯資料;jamovi可直接編輯資料。 ![](https://i.imgur.com/f6S2IiI.png) --- ## 測量尺度與描述統計 上課日期:3/16 ---- ### 資料尺度的設定 JASP, jamovi能自動判斷匯入資料的尺度,不一定是符合計畫的尺度。 ![](https://i.imgur.com/VbqulUD.png) ---- ![Data Wrangling](https://pgw.udn.com.tw/gw/photo.php?u=https://uc.udn.com.tw/photo/2018/03/11/1/4558863.jpg&x=0&y=0&sw=0&sh=0&exp=3600) ---- ### 資料整隊(Data Wrangling) - 約佔80%的資料分析工作時間(參考[datalab視頻](https://youtu.be/B2OgFq05QMs)) - 匯入統計軟體前:資料已按欄位排列;(變項)欄位名稱已設定;**[根據自變項標記總結應變項資料](https://www.managertoday.com.tw/columns/view/54673)**。 - [匯入統計軟體後](https://scgeeker.github.io/BasicStatistics/data-manipulating.html):過濾不需要分析的數值;轉換原始欄位;製造虛擬變項。 ---- ### 變項種類 - 展示JASP與jamovi的描述統計範例資料。 - 請指出那些欄位是**依(應)變項**,那些欄位是**獨(自)變項**。 - 如果有必要改變尺度,說明如何更改。 ---- - Fear of Statistics ![](https://i.imgur.com/EDbcNvG.png) ---- - Sleep ![](https://i.imgur.com/COAGgNc.png) ---- - Book sales ![](https://i.imgur.com/tuy2eCx.png) ---- - AFL winning margins by year ![](https://i.imgur.com/4AFJjX7.png) ---- - 變項種類決定變項尺度 - 變項種類構成研究設計 ---- ### 統計量數 - 有資訊的統計量數:資料來自**隨機程序**。 - 能計算統計量數的變項種類:**依變項**;**隨機抽樣的自變項**。 ---- ### 什麼是隨機程序 - 個人的固定收入支出 - 打工的飲料店本月營業額 - 為了旅遊計畫準備的存款 - 某天晚上逛夜市的消費 [請作答](https://goo.gl/forms/n90a5gr2S5QJJHM52) ---- ### 數值表達的資訊 - 最有可能發現的觀察結果 - 符合收集條件的隨機資料範圍 ---- ### 統計量數的資訊 - 集中趨勢 - 變異趨勢 - 變項尺度決定表達資訊的形式 - 以gss2010為例 --- ## 統計資訊的報告 上課日期:3/11 ---- ### 呈現統計資訊的方式 - 文字 - 表格 - 圖像 - 有可以參考的建議嗎? ---- ### 示範案例 - (**作業檢討**)專業按摩店經理的任務:一分鐘讓員工了解[當天顧客的回饋](https://docs.google.com/spreadsheets/d/1-tcb_Ff6Djk_mf-apTYUuT7V81_wT8HU9JdWn_EvmdA/edit?usp=sharing)。 - 示範檔案:[JASP](https://osf.io/a8epr/)(0.9.2),[jamovi](https://osf.io/b4kdp/) ---- ### APA 5.03(1) - 表格與圖像會不會不容易讓讀者抓到重點? - 「今天客人的普遍反應...」 ---- ### APA 5.03(2) - 呈現載體的規格限制? - 按規定建檔的報表 - 給股東看的簡報 - 內部會議的口頭說明 ---- ### APA 5.03(3) - 表格與圖像不是達成有效溝通的必要選項。 - 「今天上班的按摩師有三位,約三分之二的客人反應...」 ---- ### 次數分配表(Frequency Table) <small>以JASP製作</small> <small> |Feedback | Frequency | Percent | Valid Percent | Cumulative Percent | |:---:|:---:|:---:|:---:|:---:| |1 | 1 | 3.13 | 3.13 | 3.13| |2 | 3 | 9.38 | 9.38 | 12.50| |3 | 5 | 15.63 | 15.63 | 28.13| |4 | 9 | 28.13 | 28.13 | 56.25| |5 | 7 | 21.88 | 21.88 | 78.13| |6 | 5 | 15.63 | 15.63 | 93.75| |7 | 2 | 6.25 | 6.25 | 100.00 | |Missing | 0 | 0.00 |Total | 32 | 100.00 </small> ---- ### 長條圖(bar chart; bar plot) <small>以jamovi製作(JASP -> Distribution plot)</small> ![](https://i.imgur.com/RJbGPAA.png =500x) ---- ### 箱形圖(boxplot)與小提琴圖(violine plot) <small>以JASP製作(jamovi必須是連續尺度)</small> ![](https://i.imgur.com/imFSn96.png =600x) ---- ### 計算及轉換變項功能示範 - 分組變項 - 反向計分 ---- ### 圖表製作建議 ||<small>依變項為類別變項</small>|<small>依變項為連續變項</small>| |---|---|---| |<small>無獨變項</small>|<small>無分組資料:長條圖,箱形圖<br>有分組資料:次數分配表</small>|<small>無分組資料:直方圖,箱形圖/密度曲線,次數分配表<br>有分組資料:柱狀圖,多組箱形圖/密度曲線,次數分配表</small>| |<small>獨變項為相依樣本*</small>|<small>列聯表,附趨勢線柱狀圖</small>|<small>附誤差區間折線圖</small>| |<small>獨變項為獨立樣本*</small>|<small>列聯表,附趨勢線柱狀圖</small>|<small>附誤差區間折線圖或柱狀圖</small>| \* 必為分組資料 ---- ### 依變項為類別變項;無獨變項 - <small>[Emily Rosa的TT試驗](https://osf.io/rax3g/),以所有受測者的回答次數分析</small> ![](https://i.imgur.com/iZRjvao.png =500x) ---- ### 依變項為連續變項;無獨變項 - <small>[Emily Rosa的TT試驗](https://osf.io/4k7nc/),以每位受測者的正確率分析</small> | ![](https://i.imgur.com/ZaVPKXI.png =300x) | ![](https://i.imgur.com/jv6WTg1.png =300x) | |---|---| ---- ### 依變項為類別變項;獨變項為相依樣本 - <small>[AGPP政黨形象廣告試片調查](https://osf.io/q6epv/)</small> ||試片前表示認同|試片前表示不認同|總數| |:---:|:---:|:---:|:---:| |試片後表示認同|5|**5**|10 |試片後表示不認同|**25**|65|90 |總數|30|70|100 ---- ### 依變項為連續變項;獨變項為相依樣本 - <small>[失智症者出現危險行為的紀錄](https://osf.io/35nk8/)</small> ![](https://i.imgur.com/6eXzU5C.png =500x) ---- ### 依變項為類別變項;獨變項為獨立樣本 - <small>[線上問卷抽獎提示研究](https://osf.io/6rqvd/)</small> ![](https://i.imgur.com/lw07har.png) ---- ### 依變項為連續變項;獨變項為獨立樣本 - <small>[身體動作與新奇感受的認知研究](https://osf.io/spn64/)</small> ![](https://i.imgur.com/mVQIAFK.png) ---- ### 呈現統計資訊的綜合建議 - 先了解呈現統計資訊的用途與場合,以讀者的角度思考如何有效理解。 ---- ### 呈現統計資訊的綜合建議 - 統計分析是作者檢驗問題的步驟之一,呈現統計資訊如同解釋如何推論。 ---- ### 呈現統計資訊的綜合建議 - 用一句話或一段文字就能讓讀者理解最重要的統計資訊,文字是首選。 --- ## 第一次階段考核檢討 上課日期:3/18 ---- - [JASP 示範檔案0.9.0](https://osf.io/v7r8f/) - [JASP 示範檔案0.9.2](https://osf.io/gta2p/) - [jamovi 示範檔案](https://osf.io/qtaev/) ---- ### 變項換算 - 以BMI值的計算為例 - [BMI維基百科條目](https://zh.wikipedia.org/wiki/%E8%BA%AB%E9%AB%98%E9%AB%94%E9%87%8D%E6%8C%87%E6%95%B8) ---- ### index 的分組與BMI的差異一致? - 百分位數的設定 - 次數分配表的功能 - 散佈圖的功能 ---- ### BMI分組分析 - 平均值與標準差 - 箱形圖與小提琴圖 - 極端值 ---- ### 重要資訊解讀 - BMI值的index分組差異 - BMI級別與身高體重比值的對應關係 - 性別差異的可能原因 ---- ### 風險評估的應用 - BMI級別修正 - 潛在族群差異分析 - 分層抽樣 ---- ### 實證資料的不確定性 - 描述統計(文字與圖表)必須呈現集中與變異資訊 - 事件發生的可觀察紀錄有其侷限(可觀察的對象、紀錄方法) - 有可驗證的假設,正反證據皆存在樣本偏差(bias) ---- ### 研究設計的隨機化措施 - 隨機取樣(Random Sampling):取樣對象就是測量紀錄;取樣對象涵蓋各種事件發生的可能性。 - 隨機分派(Random Assignment):有預先準備的處置;收集各種處置的測量紀錄;測量對象被分派到各種處置的機率符合預先設定的機率分佈。 - 任何隨機化措施,必須設定正反證據出現的機率分佈,才能評估證據的有效性。 --- ## 機率論:機率的計算 上課日期:3/25 ---- ### 集合論 - 根據規則,定義某個事件出現為$A_1$,其他事件出現為$A_2$,$A_3$,依此類推 - 符合條件B的事件有$A_1,A_2,A_3$ - 符合條件C的事件有$A_3,A_4,A_5$ ---- ### 集合論 - 聯集 $B \cup C = \{A_1,A_2,A_3,A_4,A_5\}$ - 交集 $B \cap C = \{A_3\}$ - 補集 $\bar{B} = \{A_4,A_5\}$ - $\bar{B} \cap \bar{C} = ?$ ---- ### 機率事件 - $A_1,A_2, ..., A_n$ 任一事件出現機率都相等,可知$P(A_x) = 1/n, x = \{1,2, ... n\}$ - $P(B) = P(A_1) + P(A_2) + P(A_3) = 3/n$ - $P(B \cup C) = ?$ - $P(\bar{B}) = ?$ - $P(\bar{B} \cap \bar{C}) = ?$ ---- ### 機率事件的排列組合 - 事件$A_x$: 投擲三枚硬幣,正面或反面朝上的組合。 |事件代號|投擲結果|發生機率| |:---:|---|:---:| |$A_1$|正、正、正|1/8| |$A_2$|反、正、正;正、反、正;正、正、反|3/8| |$A_3$|反、反、正;正、反、反;反、正、反|3/8| |$A_4$|反、反、反|1/8| ---- ### 機率事件的排列組合 - 部分結果: $C^n_x = \frac{n!}{(n-x)!x!}$ - 所有結果: $\sum_{x=0}^n C^n_x$ n: 所有可能發生的結果, x: 符合部分條件的可能發生結果 ---- ### 樣本空間 - $S_1$:至少一枚硬幣正面朝上 - $P(S_1) = P(A_1) + P(A_2) + P(A_3)$ - $S_2$:至少三枚硬幣反面朝上 - $P(S_2) = P(A_4)$ - $S_3$:沒有硬幣正面朝上 - $P(S_3) = P(A_4)$ - $S_4$:至少一枚硬幣反面朝上 - $P(S_4) = P(A_1) + P(A_2) + P(A_3) + P(A_4)$ - 以上那些機率事件總和為1? ---- ### 條件機率 - 蒙提霍爾問題 ![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3f/Monty_open_door.svg/640px-Monty_open_door.svg.png) - [請先猜猜看...](https://forms.gle/BGHFxDHbNNgEQZSV9)需要登入慈大google帳號 ---- ### 條件機率 - 來賓該不該換門? - $\theta$: 來賓一開始選擇的門; $P(\theta)$: 選擇其中一道門的機率 - $D$: 主持人打開的門; $P(D)$: 主持人打開其中一道門的機率 - $P(\frac{\theta}{D})$: 主持人打開其中一道門,來賓決定不換門而得到車子的機率 - $P(\frac{\bar{\theta} }{D})$: 主持人打開其中一道門,來賓決定不換門而未得到車子的機率 - $P(\frac{\theta}{D}) + P(\frac{\bar{\theta} }{D}) = 1$ ---- ### 貝氏定理 $P(\frac{\theta}{D}) = \frac{P(\frac{D}{\theta}) \times P(\theta)}{P(D)}$ ---- ### $P(\theta)$ 來賓選擇任何一道門的機率 = 1/n; n:節目設定的門數 ---- ### $P(D)$ 主持人打開其餘任何一道門的機率 = 1/(n-1) ---- ### $P(\frac{D}{\theta})$ - $P(\frac{D}{\theta}) = \frac{P(D \cap \theta)}{P(\theta)}$ - 若來賓選門,主持人開車是彼此獨立的事件 - $P(D \cap \theta) = P(D)P(\theta)$ - 因為來賓的選擇會影響主持人的行動,蒙提霍爾的節目不符合$\theta$與$D$彼此獨立的條件 ---- ### $\theta$ = 1號門 |狀況|*1號門*|2號門|3號門| |:---:|:---:|:---:|:---:| |選擇正確($\theta$)|車|羊|羊| |選擇錯誤($\bar{\theta}$)|羊|車|羊| |選擇錯誤($\bar{\theta}$)|羊|羊|車| ---- ### $\theta$ = 2號門 |狀況|1號門|*2號門*|3號門| |:---:|:---:|:---:|:---:| |選擇錯誤($\bar{\theta}$)|車|羊|羊| |選擇正確($\theta$)|羊|車|羊| |選擇錯誤($\bar{\theta}$)|羊|羊|車| ---- ### $\theta$ = 3號門 |狀況|1號門|2號門|*3號門*| |:---:|:---:|:---:|:---:| |選擇錯誤($\bar{\theta}$)|車|羊|羊| |選擇錯誤($\bar{\theta}$)|羊|車|羊| |選擇正確($\theta$)|羊|羊|車| ---- ### $P(\frac{D}{\theta})$是多少? $P(\frac{D}{\theta}) = P(\frac{D=?}{\theta=1}) + P(\frac{D=?}{\theta=2}) + P(\frac{D=?}{\theta=3})$ ---- ### 回首貝氏定理 $取得的資料支持假設的機率 = \frac{假設成立並取得支持資料的機率 \times 假設成立的機率}{取得資料的機率}$ ---- ### 現代統計的機率基礎 - 次數主義統計(frequentist statistics): $P(\frac{D}{\theta})$ - 貝氏統計(Bayesian statistics): $P(\frac{\theta}{D}); \frac{P(\frac{D}{\theta_1})}{P(\frac{D}{\theta_2})}$ ---- ### 更多關於貝氏定理... [林澤民:會算「貝氏定理」的人生是彩色的!該如何利用它讓生活更美好呢?](https://pansci.asia/archives/155071) [【余博講物理】貝氏定理與Monty Hall Problem](https://youtu.be/176RDyzlJck) ---- ### 隨機變數 - 間斷隨機變數 - 樂透彩號碼, 李克特量表 - 連續隨機變數 - 身高, 體重, 反應時間 - 任何隨機變數必有**值域**。 - 統計尺度規範源於隨機變數的數學定理。 ---- ### 機率分佈:函數 - 隨機變數(x)值域內任何數值,均有對應的出現機率(p)。 - 機率函數p(x)用來計算間斷隨機變數的機率法則。 - 機率密度函數**pdf**用來計算連續隨機變數的機率法則。 - 箱形圖、小提琴圖的製作基礎。 ---- ### 機率分佈:累積機率 - 對隨機變數(x)值域內任意實數,累積機率函數**cdf**用來計算實數範圍之內的累加機率。 - 計算**百分位數**的數學原理。 - 間斷隨機變數範例:[二項分佈](https://osf.io/t5rs3/) - 連續隨機變數範例:[常態分佈](https://osf.io/jzpmy/) ---- ### 隨機變數的期望值 - $E[X]$ = 隨機變數(x)值域內所有實數與對應機率的乘積和 - $E[X^2]$ = 隨機變數(x)值域內所有實數之平方與對應機率的乘積和 - 平均數 $\mu_x = E[X]$ - 變異數 $\sigma_x^2 = E[X^2] - \mu_x^2$ ---- ### 小結 - 機率的計算原理來自集合論。 - 機率事件是理想的樣本集合,各種機率分佈的計算元素。 - 兩種機率事件的發生先後構成條件機率,無法直接計算的條件機率可運用貝氏定理計算。 - 隨機變數是隨機化測量的數學基礎,構成的機率分佈是計算統計量數與統計圖表製作基礎。 --- ## 機率論:機率的模擬 上課日期:4/1 ---- ### 模擬條件機率:蒙提蒙爾問題 [蒙提蒙爾模擬器](https://osf.io/j5evz/):一萬集都決定換門而得到車子的結局次數 ![](https://i.imgur.com/XFy3iNv.png =500x) ---- ### 模擬條件機率:蒙提蒙爾問題 > $$ p(\frac{\bar{\theta}}{D}) = \frac{換門得到車子的模擬次數}{總模擬次數} $$ > $$ p(\frac{\theta}{D}) = \frac{換門未得到車子的模擬次數}{總模擬次數} $$ ![](https://scgeeker.github.io/BasicStatistics/images/unit04_MontyHall.PNG =300x) ---- ### 樂透彩中獎機率分析 ![](https://i.imgur.com/mhiieLs.png) ---- ### 樂透彩中獎機率分析 ![](https://i.imgur.com/jtDIX2d.png =150x) 取自[台灣彩卷官網](http://www.taiwanlottery.com.tw/Lotto649/index.asp) ---- ### 每一期各獎項都會有人得獎嗎? ---- ### 樂透彩中獎機率分析 - 不計有特別號的獎項,隨機變數(x)表示4個獎項的中獎號碼數:{3,4,5,6} - 各獎項中獎機率函數 > $$p(x) = \frac{C_x^6 \times C_{6-x}^{49-6}}{C_6^{49}}$$ ---- ### 樂透彩中獎機率分析 ![](https://scgeeker.github.io/BasicStatistics/03-probability_files/figure-html/lotty-model-1.png =500x) ---- ### 模擬連續十期的中獎狀況 - 請先下載[樂透彩模擬器](https://osf.io/wr8h2/) ![](https://i.imgur.com/8jLPeFP.png =500x) ---- ### 樂透彩模擬器設定 - 隨機變數值域(x)及機率( p ) | x | p | |:---:|:---:| |3|0.0176504| |4|0.0009686| |5|0.0000184| |6|0.0000001| ---- ### 模擬連續S期的中獎狀況 - 更改第12行(模擬次數)與第19行(一期投注數量)的數值,重覆測試到至少一期出現首獎。  - 模擬次數 = 樣本數。 - 投注數量 = 樣本的觀察值個數。 ---- ### 母群體 vs. 樣本 - 一次需要多少投注數量才容易出現首獎? - 至少要進行多少次模擬才容易出現首獎? - 如何調整模擬次數與投注數量,才能讓樣本估計的機率值逼近模擬器設定的機率? ---- ### 模擬器製造原理 - 大數法則(Law of large number):固定條件的實驗重複越多次,累積結果的統計值越逼近**母群體**的**參數**(parameter, 隨機變數的值域)。 - 任何隨機程序的**母群體**,都是一套機率函數$P(\theta)$。 > 隨機變數涵括所有可能結果,以及給定各隨機變數發生機率之函數。 ---- ### 模擬器製造原理 - 每一次模擬結果,就是一組樣本,可總計一筆**母群體參數**的估計值,也就是**期望值**。 - 模擬多次累積的樣本,形成**期望值**的**抽樣分佈(Sampling Distribution)**。 - 抽樣分佈逼近符合資料隨機性質的條件機率$P(\frac{D}{\theta})$;$P(\frac{D}{\theta})$不一定等於$P(\theta)$。 ---- ### 二項分佈 - 下載[二項分佈示範檔案](https://osf.io/t5rs3/) ![](https://i.imgur.com/EoW3arS.png =500x) ---- ### 二項分佈:理論的機率函數 隨機變數 $X \sim B(n, p)$ |![](https://i.imgur.com/kaCn8gV.png)|![](https://i.imgur.com/E2UJehu.png)| |---|---| ---- ### 二項分佈:母群體是伯努利事件的抽樣分佈 |母群體(n = 2; p = 0.5)|抽樣分佈(N = 10)| |:---:|:---:| |![](https://i.imgur.com/lxrVvnD.png)|![](https://i.imgur.com/FU7ZHcs.png)| ---- ### 常態分佈 - 下載[常態分佈示範檔案](https://osf.io/jzpmy/) ![](https://i.imgur.com/LEIgzTB.png =500x) ---- ### 常態分佈:理論的機率函數 隨機變數 $X \sim N(0, 1)$ |![](https://i.imgur.com/CwkxZqu.png)|![](https://i.imgur.com/vCKX1ci.png)| |---|---| ---- ### 常態分佈:母群體是均勻分佈的抽樣分佈 |母群體(均勻分佈 -4 ~ 4)|抽樣分佈(N=10)| |:---:|:---:| |![](https://i.imgur.com/QsYh0Lu.png)|![](https://i.imgur.com/KqrM42b.png)| --- ## 機率論小結 上課日期: 4/8 ---- [Seeing theory](https://seeing-theory.brown.edu)<br> **統計理論視覺化** ---- ### 名詞對照:章節標題 |繁中|簡中| |:---:|:---:| |基礎機率論|基础概率论| |進階機率論|进阶概率论| |機率分佈|概率分布| |推論統計:次數主義學派|统计推断:频率学派| |推論統計:貝氏學派|统计推断:贝叶斯学派| |回歸分析|回归分析| ---- ### 名詞對照:基礎機率論 |繁中|簡中| |:---:|:---:| |機率事件|概率事件| |機率分佈|*重量分布*| |期望值<br>[模擬作業](https://forms.gle/e2z9LH9mvfQuJnPC7)|期望| |變異數<br>[模擬作業](https://forms.gle/uhqqfBnL4ephwibY9)|方差| |隨機變數|随机变量| ---- ### 名詞對照:進階機率論 |繁中|簡中| |:---:|:---:| |古典機率|古典概型| |條件機率|条件概率| [蒙提霍爾問題似然性示意圖上傳表單](https://forms.gle/8dA2PuCH8yZbgNex5) ---- ### 名詞對照:機率分佈 |繁中|簡中| |:---:|:---:| |隨機變數|随机变量| |常態分佈|正态分布| |中央極限定理|中心极限定理| ---- ### [二項分佈jamovi](https://osf.io/t5rs3/)使用訣竅 - 伯努利分佈:更新第7行`p <-`之後的數值 - 二項分佈:更新第17行`N <-`與第32行`P <-`之後的數值 - [查表對照](http://eschool.kuas.edu.tw/tsungo/Publish/Appendix.pdf) ---- ### [常態分佈jamovi](https://osf.io/jzpmy/)使用訣竅 - 常態分佈:更新第24行`M <-`與第25行`SD <-`之後的數值 - [查表對照](http://eschool.kuas.edu.tw/tsungo/Publish/Appendix.pdf) --- ## 次數主義推論統計 上課日期: 4/15 ---- ### [中央極限定理](https://seeing-theory.brown.edu/probability-distributions/cn.html#section3) 回家作業檢討與反思 ---- ### 反覆抽樣與中央極限定理 - 無法掌握母群體期望值,抽樣分佈會是什麼樣? - 現實案例:[觀測黑洞](https://thestandnews.com/cosmos/%E9%BB%91%E6%B4%9E%E7%85%A7%E7%89%87%E7%84%A1%E5%90%8D%E8%8B%B1%E9%9B%84-katie-bouman/?fbclid=IwAR0z749sUVziD50-r-BeFZvyp_z-3QgHLsDVbLyV4cy7bSur0Xb66u6rtqE) [BootStrap Method](https://seeing-theory.brown.edu/frequentist-inference/cn.html#section3) [回家作業#06反覆抽樣版](https://osf.io/g4jqh/) ---- ### 再談tea lady |![Ronald Fisher](https://upload.wikimedia.org/wikipedia/commons/a/aa/Youngronaldfisher2.JPG =150x)|![Milk tea](https://upload.wikimedia.org/wikipedia/commons/3/37/Nice_Cup_of_Tea.jpg =300x)| |---|---| ---- ### 二項檢定 [jamovi示範檔](https://osf.io/9ftwe/) [JASP0.9.0.1示範檔](https://osf.io/h7bm6/) ---- ### 解讀tea lady的測試結果 |<small>假設</small>|<small>結果</small>| |---|---| |只是亂猜|![](https://i.imgur.com/Y3mYtNU.png =400x)| |十次中九|![](https://i.imgur.com/sqY0Ve6.png =400x)| ---- ### p值之父表示... - p值是**觀察結果與期望值的差別程度** - $p\ value = P(X > T(x_a)|\theta_a)$ - $\theta_a$:預期結果的期望值; $T(x_a)$: 根據觀察結果對期望值的估計 ---- ### p值的計算方法 1. 運用**符合**抽樣分佈的機率函數 2. 運用**逼近**抽樣分佈的機率函數 ---- ### 信賴區間(confidence interval) - 採用Clopper & Pearson(1934)提出的[估計方法](https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Clopper%E2%80%93Pearson_interval)。 - JASP提供視覺化選項。 ---- ### 測試報告 - <small>第一次聚會:四組都答對。根據亂猜的答對率(0.5),這次答對率(100%)之*p*值為.125,95% C.I.[0.389,1.000]包含0.5;根據有能力十次中九的答對率(0.9),這次答對率(100%)之*p*值為1.0,95% C.I.[0.389,1.000]包含0.9。</small> - <small>第二次聚會:六組都答對。根據亂猜的答對率(0.5),這次答對率(100%)之*p*值為.031,95% C.I.[0.541,1.000]未包合0.5;根據有能力十次中九的答對率(0.9),這次答對率(100%)之*p*值為1.0,95% C.I.[0.541,1.000]包含0.9。</small> - <small>第三次聚會:十組答對九組。根據亂猜的答對率(0.5),這次答對率(90%)之*p*值為.021,95% C.I.[0.555,.997]未包合0.5;根據有能力十次中九的答對率(0.9),這次答對率(90%)之*p*值為1.0,95% C.I.[0.555,.997]包含0.9。</small> ---- ### 測試結論 - 一場要測試的組數越多,這位女士的答對率與亂猜的答對率(0.5)相差越大,95%信賴區間越不相容亂猜的答對率;每場答對率與有能力十次中九的答對率無明顯差別,95%信賴區間與十次中九的機率值保持相容。三場表現支持這位女士有能力分辨奶茶的沖煮方式。 --- ## 第二次階段考核檢討 上課日期:4/22 ---- ### JASP參考分析 - [0.9.0](https://osf.io/vnyg8/) - [0.9.2](https://osf.io/zde6q/) ---- ### 每位TT的答對率是0.5 - 根據亂猜的答對率(0.5),所有受測TT的答對率之*p*值最小值為0.344,最大值為1;答錯率之*p*值最小值為0.344,最大值為1。每位受測TT的95% C.I.都包含0.5。 ---- ### 設定訓練有素的TT答對率是0.9 - 根據設定的答對率(0.9),答對率最高的第六位TT(答對率0.7)之*p*值最大(.07),95% C.I.[0.348 0.933]包含答對率0.9。其他14位TT的答對率之*p*值都小於.07,95% C.I.都沒有包含0.9。 - 答錯率最高的三位TT(答錯率0.7)之*p*值最大(.07),95% C.I.[0.348 0.933]包含答錯率0.9。 ---- ### 分析結論 - 除了第六位TT的答對率(0.7)與設定有本事的答對率(0.9)之差別最小,未達到.05的判斷門檻/信賴區間相容0.9;14位TT的答對率與0.9的差別更大,皆有超過.05的判斷門檻/信賴區間不相容0.9。所有TT的答對率與隨機亂猜的答對率(0.5)之差異分析,無法確認有明顯差別/信賴區間相容0.5。以這次15位TT的測試結果來說,無法證實有能力的TT們發揮他們宣稱的能力。 ---- ### TT們真有本事? - TT們測試時的狀況不佳? - Emily Rosa設計的測試方法不夠嚴謹? ---- ### [再一次理解統計思考](https://scgeeker.github.io/BasicStatistics/intro.html#intro_stat) - 可測試的假設 - 可實作的測試方法 - 正反證據的成立條件 ---- ### 認識p值的估計方法 - 下載[完整版二項檢定](https://osf.io/ubqs5/) - 以精確的二項分佈估計(distrACTION) - 以模擬的抽樣分佈估計(Rj Editor) ---- ### 解析型一與型二錯誤率 ![](https://i1.wp.com/blog.bulldozerborg.com/wp-content/uploads/2013/09/Type-II-Error.gif?fit=761%2C346) ---- ### 什麼因素會影響型一與型二錯誤率 - 改變以下數值,觀察估計的變化 - 全部反應數目 - H1答對率 - 真陰率(True Negative Rate) ---- ### 不是回家作業 - [培養本土嗅癌犬的生技公司資訊](http://www.sharp-biotech.com.tw/index.html#about) - 你能否辨認首頁提供的兩個統計資訊:**準確率**與**偽陽性**,分別代表今天上課提的那兩種機率? --- ## 單一樣本的推論統計 上課日期: 4/29<br> [心理科學基礎統計 單元5](https://scgeeker.github.io/BasicStatistics/onesample.html) ---- - 奠基於抽樣分佈的虛無及對立假設 - 結論犯錯的機率:型一與型二錯誤率 - p值的來源 - 母數與無母數統計 ---- ### TT測試結果的隨機變數 <section> <div style="text-align: left; float: left;"> <p data-markdown>- H0隨機變數</p> |x|p| |---|---| |0|0.5| |1|0.5| </div> <div style="text-align: right; float: right;"> <p data-markdown>- H1隨機變數?</p> |x|p| |---|---| |0|0.2| |1|0.8| </div> </section> ---- ### TT測試結果的虛無/對立假設 |![](https://i.imgur.com/6CFig8d.png)|![](https://i.imgur.com/FypYeqK.png)| |---|---| ---- ### TT測試結果的錯誤率估計 ||二項檢定|t檢定| |---|---:|---:| |型一|4.28 %|2.75 %| |型二|0 %|0.6 %| ---- ### TT測試結果的p值 |二項檢定|t檢定(雙側)| |---|---| |![](https://i.imgur.com/sKBuBSn.png)|![](https://i.imgur.com/jABKTiQ.png)| ---- ### 兩種機率計算 - p值:使用逼近抽樣分佈的機率函數計算累積機率 - 型一/型二錯誤率:模擬上萬次的實驗結果,因超過標準而誤判的次數比例 ---- ### TT測試結果的信賴區間 - 抽樣分佈的每一次實驗結果都是期望值的估計 - [seeing theory圖解](https://seeing-theory.brown.edu/frequentist-inference/cn.html) - 選項設定:student t; n = 15; 1 - $\alpha$ = .95 ---- ### p值 vs. 信賴區間 - 計算 vs. 模擬 ---- ### 母數 vs. 無母數 - 能否掌握研究假設的期望值? - 各種期望值的抽樣分佈是否遵循中央極限定理成型? ---- ### [預先註冊](https://scgeeker.github.io/BasicStatistics/onesample.html#onesample-preregistration) - 收集或分析資料之前,研究者自我約定... - 收集的資料數量 <- 樣本數估計 - 有效資料的條件 <- 正誤反應;未作答... - 分析資料的方法 <- 描述統計圖表;推論統計 - 分析結果的判讀原則 ---- ### 作業#07檢討 - 事先自訂判斷水準 - 判斷水準來自分析者對問題的洞見 - 為何心理科學少見單一樣本分析? --- ## 相依樣本假設檢定 上課日期: 5/6 [相依樣本的推論統計](https://scgeeker.github.io/BasicStatistics/paired.html) ---- ### 母數檢定範例 - 失智症患者[在有月亮的日子,出現破壞行為的次數,比沒有月亮的日子多嗎](https://scgeeker.github.io/BasicStatistics/paired.html#paired-continuous-case)? ![](https://1tsip9tt643kufi0v3m1s4is-wpengine.netdna-ssl.com/wp-content/uploads/2016/05/Alz-mean690x400.jpg) ---- ### 運用相依樣本t檢定的基本條件 - [jamovi示範檔案](https://osf.io/pfmkz/) - 對應研究假設的抽樣分佈是什麼樣子? - 為何t分佈較符合抽樣分佈? - 型一與型二錯誤率該如何取捨? - 信賴區間的意義? ---- ### 雙尾檢定示範 |[jamovi](https://osf.io/pfmkz/)|![](https://i.imgur.com/oWnPKiG.png)| |---|---| |[JASP](https://osf.io/35nk8/)|![](https://i.imgur.com/xl3pRcU.png)| ---- ### 單尾檢定示範 |[jamovi](https://osf.io/pfmkz/)|![](https://i.imgur.com/95vPGUB.png)| |---|---| |[JASP](https://osf.io/35nk8/)|![](https://i.imgur.com/AobQvTq.png)| ---- ### 報告規範 - [寫作範例](https://scgeeker.github.io/BasicStatistics/paired.html#paired-continuous-t) ---- ### 效果量、考驗力、樣本數 - 研究任務是測量差異,效果量是估計最小樣本數的重要指標 - 已知能測得的效果量:根據建議考驗力確認最小樣本數 - 未知能測得的效果量: - 比較兩項平均值差異:運用 - 多組比較/多因子設子:設定數據模擬可能效果量的最小樣本數 ---- ### 預先註冊的樣本數估計 ![jPower](https://i.imgur.com/6q2gZEN.png) ---- ### 無母數檢定範例 |![](https://upload.wikimedia.org/wikipedia/commons/8/8c/Volodymyr_Zelensky%2C_31_March_2019.jpg =300x)|![](https://upload.wikimedia.org/wikipedia/commons/1/1c/%D0%97%D0%B5%D0%9A%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%B0_%D0%BB%D0%BE%D0%B3%D0%BE.png)| |---|---| ---- ### 政黨廣告試映調查 ![](https://i.imgur.com/5zwfCsr.png) </br> from Navarro and Foxcroft (2018) unit 10.7 </br> [jamovi示範檔案](https://osf.io/q6epv/) ---- ### 運用McNemar檢定的基本條件 |![](https://i.imgur.com/zKoCalV.png =400x)| |---| |$$ 統計值 = \frac{(b - c)^2}{b + c} $$| ---- ### 運用McNemar檢定的基本條件 - 如果b與c的總和不超過20,樣本機率函數符合二項分佈 - 如果b與c的總和超過20,樣本機率函數符合**自由度為1**的[卡方機率分佈](https://seeing-theory.brown.edu/probability-distributions/cn.html#section2) ---- ### jamovi檢定示範 ![](https://i.imgur.com/7iK032I.png) ---- ### McNamer檢定的型一與型二錯誤率 ![](https://i.imgur.com/PooqIf7.png =500x) ---- ### McNamer檢定的型一與型二錯誤率 ||30|50| |---|---|---| |Type 1 error|~ 0.005|| |Type 2 error|~ 0.10|| ---- ### 報告規範 - [寫作範例](https://scgeeker.github.io/BasicStatistics/paired.html#paired-categorical-McNemar) --- ## 獨立樣本假設檢定 上課日期: 5/13;5/20 [獨立樣本的推論統計](https://scgeeker.github.io/BasicStatistics/independent.html) ---- ### 獨立樣本的無母數統計 - 適用時機:比較各組次數差異 - 常用方式:一因子適合度檢定;二因子獨立性/關聯性檢定 ---- ### 適合度檢定範例介紹 - 某位推理小說家寫作最新作品的過程,同時開網路直播說故事,邀請觀眾在最後一回之前,猜猜真正兇手是五名角色A,B,C,D,E之中那一名?根據情節設計,他預想最多觀眾會猜角色A,然而真兇其實是角色E。直播最後一回之前,他公佈每位角色的觀眾投票人數,統計結果下表: ---- ### 「誰是真兇」投票結果 - [jamovi示範檔案](https://osf.io/kcswx/) - [JASP示範檔案](https://osf.io/9sdbv/) |A|B|C|D|E| |:---:|:---:|:---:|:---:|:---:| |58|41|41|42|18| ---- ### 「誰是真兇」分析任務 - 小說家的情節設計成功誤導讀者的推論了嗎? ---- ### 適合度檢定基本條件 - 唯一獨變項,且為類別變項 - 依變項是各類別**觀察次數**,可根據問題目標設定**期望次數** - 類別數目決定自由度,決定抽樣分佈**樣態** - 出現總次數決定抽樣分佈**變異** ---- ### 適合度檢定的統計數 $\sum\frac{(觀察次數 - 期望次數)^2}{期望次數}$ - 成功:$觀察次數 \neq 期望次數$ - 失敗:觀察次數 = 期望次數 ---- ### 適合度檢定的抽樣分佈 |成功|$n_A \neq n_B \neq n_C \neq n_D \neq n_E$| |---|---| |失敗|$n_A = n_B = n_C = n_D = n_E$| - 為何上述設定適用小說家的問題? ---- ### 適合度檢定的抽樣分佈 ![](https://i.imgur.com/2crMx6G.png) ---- ### 適合度檢定的抽樣分佈 - 測試與觀察:調整總次數(Total),觀察模擬結果 ||300|200|100| |---|---|---|---| |Type 1 error||~ 0.05|| |Type 2 error||~ 0.025|| ---- ### 適合度檢定的判斷水準 ![](https://i.imgur.com/o7RbcAW.png =500x) ---- ### 適合度檢定示範:jamovi ![](https://i.imgur.com/hXu7Tc2.png =500x) ---- ### 適合度檢定示範:JASP ![](https://i.imgur.com/bag6TXR.png =500x) ---- ### 適合度檢定的報告 > 根據.05的判斷水準,200位觀眾認為兇手是角色A的人數,明顯多於認為兇手是角色E的人數,卡方檢定顯示$\chi^2$(4, N=200) = 20.35, p < .001。作家可宣告情節設計成功。 ---- ### 獨立性/關聯性檢定範例介紹 Seo等人(2007)調查1,184位美國中西部大學生平常從事的運動強度(低度、溫和、劇烈),與日常攝取水果累積量(少量、一般、超量)之間的關係。研究者認為兩種條件之間並非無關,所以分析工作一開始,使用卡方檢定確認之,再計算相關係數。示範資料已內建於JASP之`Data Library` -> `5. Frequency` -> `Health Habits`。 ---- ### 運動強度與水果攝取量關聯性分析任務 - 大學生的運動強度與水果攝取量有一定程度的關聯性嗎? - [jamovi示範檔案](https://osf.io/j86hw/) ---- ### 獨立性/關聯性檢定使用條件 - 可組織**列聯表**(contigency table)的兩套獨變項,皆為類別變項 - 依變項是各類別**觀察次數**,可根據問題目標設定**期望次數** - 類別數目決定自由度,決定抽樣分佈**樣態** - 出現總次數決定抽樣分佈**變異**與**去中央化程度** ---- ### 解析列聯表 ||低度|溫和|劇烈|**總和**| |---|---|---|---|---| |少量|$O_{11}$|$O_{12}$|$O_{13}$|$R_1$| |一般|$O_{21}$|$O_{22}$|$O_{23}$|$R_2$| |超量|$O_{31}$|$O_{32}$|$O_{33}$|$R_3$| |**總和**|$C_1$|$C_2$|$C_3$|N| - $E_{ij} = \frac{R_i \times C_j}{N}$ - O:觀察次數; E:期望次數 ---- ### 獨立性/關聯性檢定的統計數 $\sum_i\sum_j\frac{(觀察次數_{ij} - 期望次數_{ij})^2}{期望次數_{ij}}$ ---- ### 獨立性/關聯性檢定的抽樣分佈 ![](https://i.imgur.com/tcPW4MH.png =600x) ---- ### 獨立性/關聯性檢定的抽樣分佈 - 測試與觀察:調整總次數(Total),觀察模擬結果 ||1500|1184|800| |---|---|---|---| |Type 1 error, 無ncp||~ 0.30|| |Type 1 error, 有ncp||~ 0.03|| |Type 2 error, 無ncp||~ 0.006|| |Type 2 error, 有ncp||~ 0.140|| ---- ### 獨立性/關聯性檢定的判斷水準 **留意罩門!** ![](https://i.imgur.com/p0MP6mG.png =600x) ---- ### 獨立性/關聯性檢定示範:jamovi ![](https://i.imgur.com/NQFW8Cd.png =600x) ---- ### 獨立性/關聯性檢定示範:JASP ![](https://i.imgur.com/gPYzNaf.png =600x) ---- ### 獨立性/關聯性檢定的報告 > 根據.05的判斷水準,1184位大學生平常運動強度與攝食水果的總量,應該有關聯性,卡方檢定顯示$\chi^2$(4, N=1184) = 14.152, p = .007。相關係數分析也支持一致的結論,Kendall's $\tau$ = 0.061, p = .022。 ---- ### 獨立樣本的母數統計 - 適用時機:比較兩組或多組平均數差異 - 常用方式:兩組獨立樣本t檢定;多組單因子變異數分析 ---- ### 獨立樣本範例 - 順時針轉動讓你的思想更開放?(Topolinski & Sparenberg, 2012) ![](https://scgeeker.github.io/BasicStatistics/images/Wagenmakers-exp-setting.jpeg =300x) ---- - Topolinski 與 Sparenberg (2012)報告**顯著**的結果。 - Wagenmakers等人(2017)招募接近原始研究的人數,採用相同的實驗方法,能否再現原始結果? ---- ### 獨立樣本t檢定基本條件 - 獨變項是組間標記,各組採隨機分派收集參與者資料。 - 依變項對應各組期望值,比較平均值之間的差異。 - **變異等量假設**:各組資料變異數無差異。 - **常態分佈假設**:組間差異抽樣分佈符合常態分佈。 ---- ### 再現研究結果 ![](https://i.imgur.com/n1zugaN.png) [jamovi示範](https://osf.io/spn64/)<br> [JASP示範](https://osf.io/dkwuf/) ---- ### 模擬數據來源 ![Wagenmakers等人(2017)實驗結果](https://scgeeker.github.io/BasicStatistics/07-independent_files/figure-html/independent-continuous-populations-1.png =400x) ---- ### 分組模擬抽樣分佈 ![](https://scgeeker.github.io/BasicStatistics/07-independent_files/figure-html/independent-groups-sample-1.png =400x) ---- ### 常態性檢定 ![](https://i.imgur.com/8NYUyW8.png =400x) ---- ### 等變異性檢定 ![](https://i.imgur.com/k6GUGDL.png =400x) ---- ### [獨立t檢定的策略](https://statkat.com/stattest.php?t=10&t2=9) ![](https://i.imgur.com/Hudm9Ob.png =400x) ---- ### 合併樣本標準差 - $s_p = \sqrt{\frac{(n_1 - 1) \times s_1^2 + (n_2 - 1) \times s_2^2}{n_1 + n_2 - 2}}$ - $se = s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$ ---- ### 組間差異的抽樣分佈 ![](https://scgeeker.github.io/BasicStatistics/07-independent_files/figure-html/independent-hypothesis-sampling-1.png =400x) Type 1 error ~ .025 Type 2 error ~ .90 ---- ### 獨立樣本t檢定示範: JASP ![](https://scgeeker.github.io/BasicStatistics/images/unit07_JASP_independent_t.PNG) ---- ### 獨立樣本t檢定示範: jamovi ![](https://scgeeker.github.io/BasicStatistics/images/unit07_jamovi_independent_t.png) ---- ### 獨立樣本t檢定報告 > 順時針捲動的平均評分比逆時針捲動的平均評分高0.072分(順時針:M = 0.641, SD = 0.496;無關聯:M = 0.713, SD = 0.473, 95% CI [-0.118 0.263]),並未達到事先宣告的統計顯著水準,*t*(100) = 0.754, *p* = .453, *d* = 0.149。 ---- ### 獨立樣本t檢定的效果量 - $Cohen's d = \frac{\bar{y_1} - \bar{y_2}}{s_p}$ - 限定符合變異數等量及常態性。 ---- ### 獨立樣本的樣本數估計 ![](https://scgeeker.github.io/BasicStatistics/images/unit07_independent_power.png) ---- ### 低效果量(0.2以下)的研究難題 - 第一次研究通常難以判斷 - 需要人數必須近千人,才能保障顯著結果的品質 - 樣本數越少,越不容易判斷導致結果的直接因素 ---- ### 探索效果量與考驗力 - 有理論預測分組測驗的差異之效果量(Cohen's d)在0.5到1.0之間,請估計以下條件達到的考驗力 |0.5|0.6|0.7|0.8|0.9|1.0| |:---:|:---:|:---:|:---:|:---:|:---:| |30|25|40|20|15|15| |雙尾$\alpha$ = .05|單尾$\alpha$ = .05|雙尾$\alpha$ = .01|單尾$\alpha$ = .01|雙尾$\alpha$ = .005|單尾$\alpha$ = .005| --- ## 相關與迴歸簡介 上課日期:5/27</br> [相關與迴歸教材](https://scgeeker.github.io/BasicStatistics/corr-reg.html) ---- ### 相關與迴歸的功能 - 相關;兩變項之間存在任何可能關係的指標 - 迴歸:歸納可由自變項預測依變項的線性關係 ---- ### 範例:[安德森鳶尾花資料庫](https://zh.wikipedia.org/wiki/%E5%AE%89%E5%BE%B7%E6%A3%AE%E9%B8%A2%E5%B0%BE%E8%8A%B1%E5%8D%89%E6%95%B0%E6%8D%AE%E9%9B%86) |山鳶尾(setosa)|變色鳶尾(vericolor)|維吉尼亞鳶尾(virginica)| |:---:|:---:|:---:| |![](https://upload.wikimedia.org/wikipedia/commons/thumb/8/86/Iris_setosa.JPG/220px-Iris_setosa.JPG =200x)|![](https://upload.wikimedia.org/wikipedia/commons/thumb/4/41/Iris_versicolor_3.jpg/320px-Iris_versicolor_3.jpg =200x)|![](https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Iris_virginica_2.jpg/240px-Iris_virginica_2.jpg =200x)| ---- ### 範例:[安德森鳶尾花資料庫](https://zh.wikipedia.org/wiki/%E5%AE%89%E5%BE%B7%E6%A3%AE%E9%B8%A2%E5%B0%BE%E8%8A%B1%E5%8D%89%E6%95%B0%E6%8D%AE%E9%9B%86) - 相關:花萼和花瓣的長度與寬度,最能區辨品種的特徵 - 迴歸:運用花萼或花瓣的特徵A,估計花萼或花瓣的特徵B ![](https://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Iris_dataset_scatterplot.svg/480px-Iris_dataset_scatterplot.svg.png) ---- ### 皮爾森相關係數的使用條件 - 適用範圍:兩個變項都是連續變項 - 樣本數少於一百,應做費雪轉換,維持常態性。 ---- ### 示範案例:五大人格特質 - JASP -> Data Library -> 4. Regression -> Big Five Personality Traits ![](https://i.imgur.com/giFLtka.jpg =300x) ---- ### 計算皮爾森相關係數 |母數|樣本| |:---:|:---:| |![](https://i.imgur.com/iqskFSQ.png)|![](https://i.imgur.com/9xmPO6w.png)| ---- ### 費雪轉換公式與使用時機 - ![](https://i.imgur.com/Pb0hf24.png) - 建議樣本數少於三十時使用。 ---- ### 費雪轉換校正非常態資料 - <small>盡責性(Conscientiousness)與情緒不穩定性(Neuroticism)之相關係數=-0.368。如果只有12位樣本資料:</small> - <small>~黑色\~原始資料模擬抽樣分佈;紅色\~原始資料費轉轉換後模擬抽樣分佈~</small> ![](https://scgeeker.github.io/BasicStatistics/08-corrreg_files/figure-html/big5-smalln-1.png =400x) ---- ### 費雪轉換不校正估計偏誤 - <small>盡責性(Conscientiousness)與情緒不穩定性(Neuroticism)之相關係數=-0.368。如果使用500筆樣本資料:</small> - <small>~黑色\~原始資料模擬抽樣分佈;紅色\~原始資料費轉轉換後模擬抽樣分佈~</small> ![](https://scgeeker.github.io/BasicStatistics/08-corrreg_files/figure-html/big5-largen-1.png =400x) ---- ### 相關係數的意義 ![](https://scgeeker.github.io/BasicStatistics/images/unit08_cor_reasons.png =500x) ---- ### 相關係數的抽樣分佈 - $H_1:r_{Conscientiousness \times Neuroticism} \neq 0$ - $H_0:r_{Conscientiousness \times Neuroticism} = 0$ ![](https://scgeeker.github.io/BasicStatistics/08-corrreg_files/figure-html/big5-hypo-1.png =500x) ---- ### 簡單迴歸 - 自變項(X)與依變項(Y)有無限多種線性關係,皆稱為迴歸。 - 必要條件:以自變項(X)估計的依變項數值($\hat{Y}$),與實際依變項數值(Y)之差異平方和,是所有線性關係中最小。 - 簡單迴歸必定通過自變項(X)與依變項(Y)的平均值;通過平均的迴歸不一定是簡單迴歸 ---- ### 相關與迴歸 |正相關|負相關| |:---:|:---:| |![](https://scgeeker.github.io/BasicStatistics/images/unit08_reg_positive.PNG)|![](https://scgeeker.github.io/BasicStatistics/images/unit08_reg_negative.PNG)| ---- ### 示範資料:新手爸爸100天育兒紀錄 - 爸爸每天自評歹命度(Y) \~ 爸爸每天睡眠時間(X) - [JASP示範檔案](https://osf.io/bmgtv/);[jamovi示範檔案](https://osf.io/g5ycu/) ![](https://scgeeker.github.io/BasicStatistics/images/unit08_JASP_reg.PNG =500x) ---- ### 相關係數 = 標準化迴歸係數 ![](https://i.imgur.com/bIzC1A3.png) ![](https://i.imgur.com/jKJDUfz.png) ![](https://i.imgur.com/cBzvtMj.png) ---- ### 迴歸係數的抽樣分佈 ![](https://scgeeker.github.io/BasicStatistics/08-corrreg_files/figure-html/reg-sample-1.png) ---- ### 最小平方迴歸 - $SS_{Total} = \sum\sum(Y - \bar{Y})^2$ - $SS_{Regression} = \sum\sum(\hat{Y} - \bar{Y})^2$ - $SS_{Error} = \sum\sum(Y-\hat{Y})^2$ -> 殘差平方和 ![](https://i.imgur.com/jKJDUfz.png) ![](https://i.imgur.com/F2VId0W.png) ---- ### 估計標準誤與迴歸信賴區間 |![](https://i.imgur.com/p1928nw.png)|![](https://i.imgur.com/DgQxT4b.png)| |---|---| ![](https://scgeeker.github.io/BasicStatistics/images/unit08_reg_line.png =400x) --- ## 復習:以線性模型理解基礎統計 #### 上課日期:2019/6/3 [教材網頁](https://scgeeker.github.io/tests-as-linear/index.html) ---- - 簡單迴歸+多元迴歸 - 無母數統計是母數統計的序列化 - 示範檔案使用最新版JASP與jamovi ---- ||<small>相關</small>|<small>單一平均數</small>|<small>相依樣本</small>|<small>兩組獨立樣本</small>| |:---:|:---:|:---:|:---:|:---:| |<small>迴歸式</small>| $y= \beta_0 + \beta_1 x$ | $y = \beta_0$ | $y_1 - y_2 = \beta_0$ | $y= \beta_0 + \beta_1 x_i$ | |<small>虛無假設(H0)</small>| $\beta_1 = 0$ | $\beta_0 = 0$ | $\beta_0 = 0$ | $\beta_1 = 0$ | |<small>示範資料</small>| <small>[data](https://osf.io/gdshp/);[JASP](https://osf.io/efdsu/)</small> | <small>[data](https://osf.io/dkmjg/);[jamovi](https://osf.io/4sdgv/)</small> | <small>[data](https://osf.io/dvw7g/);[jamovi](https://osf.io/xdjh9/)</small> |<small>[data](https://osf.io/sja2e/);[jamovi](https://osf.io/3f6nd/)</small> | ---- ||<small>迴歸式</small>| |:---:|:---:| |<small>適合度檢定</small>| $log(y_i) = log(N) + log(\alpha_i)$ <br> <small>[data](https://osf.io/c84ep/);[jamovi](https://osf.io/2w8dm/)</small> | |<small>獨立性/關聯性檢定</small>|$log(y_i) = log(N) + log(\alpha_i) + log(\beta_i) + log(\alpha_i \beta_i)$ <br> <small>[data](https://osf.io/ep32u/);[jamovi](https://osf.io/2qtfc/)</small> | --- ## 獨立樣本變異數分析 上課日期:2019/6/10 [教材網頁](https://scgeeker.github.io/BasicStatistics/oneway-anova.html) ---- ### 廻歸 vs. 變異數分析 |Regression|ANOVA| |---|---| |![](https://scgeeker.github.io/tests-as-linear/index_files/figure-html/unnamed-chunk-4-1.png)|![](https://scgeeker.github.io/tests-as-linear/index_files/figure-html/unnamed-chunk-36-1.png)| ---- ### 線型模型 ||Regression|ANOVA| |---|:---:|:---:| |線性模型|$y = \beta_0 + \beta_1 x$|$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + ...$| |$H_0$|$\beta_1 = 0$|$y = \beta_0$| ---- ### 變異數分解 |Regression|ANOVA| |:---:|:---:| |$\sum_i \sum_j (Y_{ij} - \bar{Y})^2 =$ <br> $\sum_j(\hat{Y} - \bar{Y})^2 + \sum_i \sum_j(Y_{ij} - \hat{Y})^2$|$\sum_i \sum_j (Y_{ij} - \bar{Y})^2 =$ <br> $\sum_j(\bar{Y}_j - \bar{Y})^2 + \sum_i \sum_j(Y_{ij} - \bar{Y}_j)^2$| |$SS_{Total} = SS_{Regression} + SS_{Residual}$|$SS_{Total} = SS_{Variable} + SS_{Residual}$| ---- ### 案例說明 - 邀請134位大學生,隨機分派評估五組朋友數各異的臉書用戶之社交吸引力 - [JASP示範檔案](https://osf.io/ydz4p/);[jamovi示範檔案](https://osf.io/v26br/) ![](https://i.imgur.com/nLNtyKg.png =300x) ---- ### 分析之前 - 研究者預期的組間差異,會是什麼樣子? - 還沒收集資料前會怎麼想? - 臉友數越多越受歡迎,評分越高 - 看到資料,做分析前會怎麼想? - 300之後,似乎差不多 - 300似乎是最高分 - ANOVA的分析結果,能確實幫助研究者評估嗎? ---- ### [變異數分析的考驗力分析](http://shiny.ieis.tue.nl/anova_power/) ![](https://i.imgur.com/W0BloEh.png =700x) ---- ### 報表解讀 |ANOVA|![](https://i.imgur.com/Q3EyqRA.png)| |---|---| |General Linear Model|![](https://i.imgur.com/Sjmf5Fe.png)| ---- ### 適用性檢定 - 組間變異同質(Homogenerity) - 樣本分佈常態(Normality) ---- ### 殘差變異的抽樣分佈 - 符合F機率分佈 ![](https://scgeeker.github.io/BasicStatistics/images/unit09_onewayanova_residual_sampling.png =500x) ---- ### 分析後報告 經過134位大學生分組評價五組臉書使用者公開資料,交友數102人得到最低社交吸引力評分(M = 3.82, SD = 1.00),以設定的型一錯誤率不超過.05來看,五組之間的差異是明顯的: $F(4,129) = 4.14, MSE = 1.20, p = .003, \eta_p^2 = 0.114$。 ---- ### 分析風險 |任兩組之間t檢定|ANOVA| |---|---| |$C_2^5 \times .05$|.05| ---- ### 簡介多重比較 - [jamovi示範檔案](https://osf.io/v26br/)操作 ![](https://i.imgur.com/BotxlmD.png =400x)
{"metaMigratedAt":"2023-06-14T20:20:12.957Z","metaMigratedFrom":"YAML","title":"心理科學基礎統計","breaks":true,"slideOptions":"{\"transition\":\"slide\",\"theme\":\"white\"}","contributors":"[{\"id\":\"0c00f290-2641-464d-af58-e5b248b23065\",\"add\":38743,\"del\":5193}]"}
    2098 views