## 介紹 R Squared
R Squared (R Squared)又稱為判定係數(Coefficient of Determination),是衡量迴歸模型解釋能力的重要指標,這個係數表示模型能夠解釋目標變數變異的比例,數值範圍通常介於 0~1 之間,而越接近 1,表示模型的解釋能力越強。

其中,SS_total 代表數據的總變異量,SS_residual 則是模型無法解釋的變異量,因此,當殘差越大,R Squared 越接近 0 甚至是負的,表示模型解釋能力越弱。
### R Squared 的潛在問題
R Squared 的問題在於它會隨著自變數的數量增加而上升,即使新增的自變數能小幅提升 R Squared,但自變數(或特徵)太多時可能會導致過擬合(Overfitting),使模型看似優秀但在實際應用上效果不佳,因此提出了 Adjusted R Squared 。
## Adjusted R Squared
為了修正 R Squared 的問題,Adjusted R Squared 考慮了自變數的數量,能更準確地衡量模型的真實解釋能力。

其中,N 代表樣本數,p 代表自變數的數量。
當加入新的自變數時,如果該變數對模型的貢獻不大,雖然 R Squared 小幅上升,但分母 N-p-1 卻會大幅影響該分數的大小,導致 Adjusted R Squared 可能會下降,這與 R Squared 總是上升的特性不同,使得 Adjusted R Squared 成為評估模型擬合程度更可靠的指標。
## 情境案例:銷售額預測模型
為了更好地理解這兩者的應用,假設一家零售公司希望建立迴歸模型來預測每月銷售額,他們考慮了幾個影響銷售的自變數,包括廣告支出、產品價格和季節性變化。
起初,他們建立了一個只包含廣告支出與產品價格的模型,結果顯示 R Squared 為 0.75,adjusted R Squared 為 0.73;後來,他們增加了季節性變化的自變數,發現 R Squared 上升至 0.78,但調整後 R Squared 下降至 0.72,這表示新增的自變數可能並未真正提高模型的解釋能力,而只是增加了模型的複雜度,可能導致過擬合的問題,因此,公司更應該選擇只包含廣告支出與產品價格的模型。
## 結論
R Squared 能夠衡量模型的擬合程度,但不能單獨作為評估標準,因為它可能因為自變數數量的增加而上升,卻未必代表模型的實際預測能力有所提升,而 Adjusted R Squared 則能修正這一點,使得評估模型的擬合程度更加準確,因此在選擇迴歸模型時,應該綜合考慮這兩個指標,並根據實際數據表現來決定最佳模型。
---
:::info
以上就是這篇文章「R Squared 與 Adjusted R Squared」的所有內容,第一次看的人會花比較多時間消化吸收,這是很正常的事情,若有任何問題,歡迎在下方與我聯繫、討論,接下來也會繼續分享相關文章,敬請期待。