Try   HackMD

模型如何工作

介紹

我們將從概述機器模型的工作原理以及它們的使用方式開始。如果您之前有做過統計建模或機器學習,這可能會讓您覺得這些很基礎,但別擔心,我們很快就會開始構建強大模型。

本課程將讓您在完成以下場景時構建模型:

你的表弟在房地產上投機賺了數百萬美元。他知道你對數據科學的興趣,於是提出與您成為業務合作夥伴,他將提供資金,而您將提供預測各種房屋價值的模型。

你問你的表弟他過去是如何預測房地產價值的,他說這只是直覺。但更多的質疑表明,他已經從他過去看過的房屋中識別出價格模式,並使用這些模式來預測他正在考慮的新房子。

與機器學習的工作方式相同。我們將從一個稱為決策樹(Decision Tree)的模型開始。雖然有更好的模型可以提供更準確的預測。但決策樹更容易理解,它們是數據科學中一些最佳模型的基本構建塊。

簡單起見,我們將從最簡單的決策樹開始。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

此決策樹僅將房屋分為兩類。正在考慮的房屋預測價格是同一類別房屋的歷史平均價格。

如何將房屋分成兩組,我們使用數據來決定,然後再次確定每組的預測價格。從數據中捕獲模式的這一步驟稱為擬合(fitting)或訓練模型(training)。用於擬合模型的數據稱為訓練數據(training data)

模型如何擬合的細節(例如如何拆分數據)非常複雜,我們先將其擱置在一旁(日後會提到)。模型擬合後,您可以將其應用於新數據以預測新數據房屋的價格。


改進決策樹

下列兩個決策樹中的哪一個最有可能來自擬合房地產訓練數據?

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

左邊的決策樹(決策樹1)可能更有意義,因為他符合一個事實,就是臥室多的房子比臥室少的房子賣得更高。
該模型最大的缺點是它沒有捕捉到影響房價的大多數因素,如浴室數量、地塊大小、位置等。

您可以將樹往下分裂以取得更多因子。
這些被稱為更深deeper的樹,考慮了每棟房屋的總面積的決策樹,可能如下圖所示:

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

您通過追蹤決策樹來預測任何房子的價格,總是選擇與該房子的特徵相對應的路徑。
房子的預測價格在樹的底部。我們進行預測的底部點稱為leaf(沒有子结點的結點)

葉子上的拆分和值將由數據決定,因此是時候檢查您使用的數據了。

繼續

讓我們具體一點,是時候檢查你的數據

來源

翻譯來源