# 統計分析 ## 統計分析 ## 變數 * 自變數(independent variable): 英文寫independent,中文翻譯叫做「獨立」,所以理論上這個變數是不被其他變數影響的,只會去影響別人,所以被認為是「因」(Cause) * 依變數(dependent variable): 英文寫dependent,中文翻譯叫做「相依」,所以這個變數基本上是被其他變數影響的,被認為是「果」(effect)。 --- ## **迴歸分析Regression Analysis** --- ### 簡單線性回歸(Simple linear regression) 簡單線性回歸: y=β0+β1x β0:截距(Intercept),β1:斜率(Slope)為 x變動一個單位y變動的量,如下圖: ![](https://i.imgur.com/e13CdUE.png) 殘差 ![](https://i.imgur.com/nhkC6PN.png) 最小平方法(Least Square)來找參數(β0和β1) 推估β0,對Loss(β0, β1)做β0偏微分等於0 ![](https://i.imgur.com/mKzcn9X.png) 推估β1,對Loss(β0, β1)做β1偏微分等於0 ![](https://i.imgur.com/jMpBFVj.png) ---- ### 多元回歸(multiple regression) 跟前面簡單線性回歸基本上一樣,只是多了幾個自變數 * 假設有一組n個資料,d個自變數和一個依變數 * 一組n個資料,d個自變數和一個依變數 ![](https://i.imgur.com/gLdFQLj.png) ![](https://i.imgur.com/F8Z4Td9.png) ![](https://i.imgur.com/NIuRu4q.png) * Loss function ![](https://i.imgur.com/mLLVHu8.png) --- ## **主成份分析Principal Component Analysis(PCA)** * 目的: * 降維(Dimension reduction)--->資料特徵維度數(變數)很多時,降維資料特性不會差太多 * 避免Huges現象(Huges Phenomenon) * 避免[維度詛咒(curse of dimensionality)](https://zhuanlan.zhihu.com/p/87577972) * 特徵擷取(Feature extraction) * 細節: ![](https://i.imgur.com/9hJlQHx.png) ![](https://i.imgur.com/Hl3FhTu.png) * 找尋投影向量變異數variance的直線