--- title: 機器學習-線上-1 tags: 機器學習 --- GPT: OPAN AI 輸入 輸出 * [Write With Transformer](https://transformer.huggingface.co/) BRT GOOGLE ---- cotlab柴犬模式設定: 工具->設定->其他->柯基模式 Github如果沒有顯示程式碼 可以把網址複製到下面 * [nbview](https://dfm.io/nbview/?url) --- 分類回歸 分群 有給答案學的比較好 可以做分類就做分類 大量資料 * [7. Dataset loading utilities — scikit-learn 0.23.2 documentation](https://scikit-learn.org/stable/datasets/index.html) 小括號內可以換行 ANSI 以前常用編碼 現在都用utf-8 用csv 之後給別人比較方便 * [IO tools (text, CSV, HDF5, …) — pandas 1.1.5 documentation](https://pandas.pydata.org/docs/user_guide/io.html) * [sklearn.tree.export_graphviz — scikit-learn 0.23.2 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.tree.export_graphviz.html) decision tree 決策樹 gini 總共出錯的機率 會越來越小 不能用train 去測試 沒有意義 訓練資料訓練得太完美 可能現實資料會出錯 雜質可能會導致錯誤 過度訓練 --- 機器學習:分類 分群 你要做的問題是有答案還是沒答案 分群的好處:不知道廣告投給誰 可以分群 分男生跟女生 分群 分群:沒有標準答案 類似相似 分類:紅的綠得分一類 有labal有答案 看到特徵 分類 iris dataset 有label 用機器學習做分類 在不知道答案下 做出分類 這樣模型就是有用 鳶尾花 三種 a b c 五個欄位 解決分類的問題 花型 花托的長寬 花萼長寬 第一種方法:決策樹 資料及做分類 有答案 利用特徵作分類 分類結果跟答案越像越好 特徵明顯 兩個指標:gini , entropy 指標在看什麼 適用情況 數值範圍 數值範圍代表的意義 數學原理 gini: entropy: 計算 混亂的程度->亂度 分類:混亂程度變小 指標:混亂程度 分類前的混亂程度 分類後的程度 前後相減 就是 用這個特徵分類的效益 100->0 用可愛跟不可愛 這個特徵作分類 混亂100~0 用身高分類 想要分出三類花 四種特徵:花瓣長度 花瓣寬度 花萼長度 花萼寬度 依照最明顯的做分類 有答案的資料集 還沒分類前 指標:混亂程度100分 用花瓣的長度來做分類 混亂程度30分->花瓣的長度 提供的效益是70分(下降了70分) 用花瓣的寬度來做分類 混亂程度50分->花瓣的長度 提供的效益是50分(下降了50分) 提供分類效益最大:分類前 跟分類後的混亂程度相減 什麼時候分類完 (停止條件 所有的情況都分類完 我規定他只能分幾次 你分出來的某一類 不能太少 gini:提供的效益
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up