--- title: 12/22 機器學習 tags: 機器學習 --- 機器學習 寫得很棒的網站:(老師說他覺得最好的) * [1.9. Naive Bayes — scikit-learn 0.23.2 documentation](https://scikit-learn.org/stable/modules/naive_bayes.html) :::success 模型: * wordzvec 線性 簡單 不算深度學習 * bert 大 困難 模型 ::: :::info 名詞聚集: 標準差(Standard Deviation) 平均差 偏度 條件機率 ::: ## 單純貝氏 少量資料用單純貝氏 大量資料才用深度學習 > ## Multinomial Naive Bayes(多項式) MultinomialNB()這裡可以使用平滑參數alpha alpha 值 要字型調 做詩詞分類 可用 > ## Gaussian Naive Bayes: 高斯分布:假定常態曲線 若偏離很多會不準 要做偏度調整 使用:先修正偏度 再做 Gaussian Naive Bayes (知道就好 不建議用 欄位間影響很大 ) 題目連續 > ## Complement Naive Bayes 反向不是的 > ## Bernoulli Naive Bayes 二分欄位 --- > ### 拉普拉斯平滑(Laplace Smoothing)又被稱為加1 平滑,是比較常用的平滑方法。平滑方法的存在時為了解決零概率問題。 統計裡面要避掉0 所以每個欄位+1 ->smoothing 避掉0 我次數+1/ 總次數+52345欄位次數 laplace smoothing 機率直接給1次 機率不會是0 --- > ## 混淆矩陣(confusion matrix) https://drive.google.com/drive/folders/1zbVKIHMUugqXkKDc4q7CNaWXcwQ7pzFE * [[第9天]單純貝式分類器-3 - iT 邦幫忙::一起幫忙解決難題,拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10200538) * [第3單元 計算的機率分佈:統計方法的數學基礎 | 心理科學基礎統計](https://scgeeker.github.io/BasicStatistics/probability.html) ---- ### Titanic - Machine Learning from Disaster 類別型(固定種):Pclass, Name(Mid),Sex,Cabin(1st ABCD..), Embarled 數值型(無限多種):Age, SibSp, Parch, Ticket(#Same),Fare ex: name:Mr. Mrs. Ms 稱謂重要 ## 1. 填補缺失值:最可能 類別:不補/最常出現 數值:中位數 中數(高低都不剩影響太大) 平均數(高低都影響)切成平均 --- 12/24 1. 缺失值 2. one hot encoding 3. 賽 ---- 組合式 Ensemble * 平行式:Bagging * 序列式:Boosting->昨天錯 今天不能錯(不能平行化) 決策術可以做分類跟迴歸 * [sklearn.ensemble.RandomForestRegressor — scikit-learn 0.24.0 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html) ![](https://i.imgur.com/SQLgOWV.png) 有n_jobs 可以平行化 ## 交叉驗證:cross relation (cv) 100筆切成10 份 * [[Day29]機器學習:交叉驗證! - iT 邦幫忙::一起幫忙解決難題,拯救 IT 人的一天](https://ithelp.ithome.com.tw/articles/10197461) * [使用Python進行資料分析 :: 2018 iT 邦幫忙鐵人賽](https://ithelp.ithome.com.tw/users/20107514/ironman/1399?page=1) ----- KNN (k nearest neighbors)K-近鄰演算法:局部演算法 不是每筆都看 只看附近 如果要速度 選KNN 距離公式有出現要做scaling scaling minmaxscaling/0(min)~1(max) * Robust Statistics 不要隨必丟棄資料 提高正確率的演算法->在資料預處理做加強 資料準備很重要 ---- subplot(總高, 總寬, ith) kde曲線 區塊化 bins ---- ## 深度學習 深度學習 人類的科學 輸入->組合->激活(轉換)activation DeepFake 用deep learning 來fake ->換臉 換聲音 假新聞 等等 感知器perceptron 可以做分類器 線性分類器:一刀為二 邏輯互斥或exclusive or:單獨可以/不可以 合幾來就不行/可以 --- perceptron (multiclass) 1. setosa (1:是 0:不是) 2. versi (1:是 0:不是) 3. virginical (1:是 0:不是) ----- 單純貝氏 文字 MultinomialNB 線性 ---- 深度學習 MLP