# NTU Maching Learning
@auther: chi
讀書筆記
- [李弘毅 ML](https://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html)
## Machine learning Lecture 1 : Regression
1.筆記(notes):


2.介紹(introduction):
有real data (x,y)
和預測function f=b+wx
做回歸(regression)
所以現在有
y:真實答案(label) f(x):預測答案(prediction)
再來是定義loss L(f)=(y-f(x))^2
意義是 這個預測跟正確答案差多少
期望越低越好
所以gradient descent
先初始一組(w,b)
算Loss分別對w,b微分 沿斜率下降
會找到loss 最低的點(越小代表預測的跟真實的越接近)
再來是討論到多種類(species)
太難表達 這段pass
再來是過擬合(over fitting)
前情提要
期望是想要預測未知資料也預測的準
所以先當作
假設現有資料預測的太準的話 未知資料會不准
想做的事是不要預測太準(我在工三小?)
接著是解決over fitting的方法
正規化(regularization)
在loss function 加入平方懲罰項(penalty term)
想在weight參數變小的情況也能達到loss很低
因為前面的預測function公式 f(x)=b+wx
邏輯上是w越小 對各種不同的x 擾動也越小
就是剛說的想要預測位置data也很準的意思
3.討論(discussion):
補充個loss部分
基本款是MSE(平方差)之前有看過4.5.6次方的不知道是什麼鬼
補充個regularization部分
L2正規化 又叫Ridge regression
公式意義能看出讓擾動變小
幾何意義是 跟圓形有關 啊有人問的話再說好了 打字麻煩
還有L1正規化 Lasso regression
L2就是以前學長度公式 L1是絕對值
向量(-3,4) L2長度就是(-3)^2+4^2=25
L1長度是 |-3|+|4|=7
再補充個叫Lagrange multiplier的東東
Loss的懲罰項如果變的很複雜
這個東東照樣能懲罰
## Machine learning Lecture 2:Error
1.筆記(notes):

2.介紹(introduction):
loss function 出來的數字在描述預測跟真實的誤差(error)
誤差分兩個部分 偏差(bias)跟方差(variance)
用這兩個角度形容模型預測的準確
期望是 bias跟variance都很小
大概是說
預測的結果跟樣本真實結果差很多(under fitting)
->bias太大
->預測的函式(y=b+wx)就出問題 要重新設計
預測的結果跟樣本真實結果很接近 但是在未知資料上預測的差很多(over fitting)
->variance太大
->增加樣本、製造假樣本(data augmentation 、正規化(regularization)
再來是討論訓練集 驗證集 測試集的關係
能在訓練的時候就先拿一部分驗證 找最好的model
對在測試未知資料也會有好的效果
3.討論(discussion):
bias跟variance 的意義太抽象了
不過之前有看到一個式子
Loss = (y - f(x))^2 這個function
能推成loss= bias + variance + blah blah blah
只從數學角度來看的話 大概就是這樣解釋
資料擴增(data augmentation)
有什麼翻轉 旋轉 裁切 偏移 放大縮小的方法
大概是說資料不夠多的情況 可以用這些方法增加資料
還有訓練集驗證集測試集的部分
也太抽象了
不過好像是很make sence的東西
啊不會寫程式 所以這段pass
## Machine learning Lecture 3: Gradient Descent
1.筆記(notes):



2.介紹(introduction):
這邊講梯度下降
就是以前單變數的斜率 沿著反方向扣 會越來越低
就是找斜率=0(極值)的地方 改用慢慢迭代的方法
多變數同理
最佳化(optimization theory )在講的好像就是這件事 找函數極值
再來是adaptive learning rate系列
想法是梯度下降的距離 靠近極小值要越來越慢
因為每個變數的梯度可能很大很小
如果都統一下降一樣的距離效果很差
所以除上過去梯度平方根
幾何意義是讓每個變數的距離能取到剛好的值
代數意義是說平方根這個東東和二次微分有關係
剛好跟最佳距離有關係
再來是SGD
原本的梯度下降是考慮全體樣本的角度
sgd策略是 一次隨機考慮一個樣本 每個樣本輪過一次
大意是能更快找到極值
還有feature scaling 就如圖
data的表示大部分都用行代表樣本
列代表特徵
想法是讓data分佈變比較漂亮 效果比較好
不過不知道為啥 大家都很喜歡bias 0 variance 1
然後是gradient descent theory
跟泰勒展開式有微妙的關係
大概是說反正要只是找周圍更小的值
那簡化這些運算 一樣找得到
然後泰勒展開可以推到gradient descent
證明了梯度下降 只要learning rate(距離)取得好
就可以保證找到最小值
還有提到Newton’s method (牛頓法)
泰勒展開式再多展開一點
3.討論(discussion):
這裡都太抽象了
不知道該怎麼討論
不過補充個特徵的地方好了
例如一個data(人) 的參數有3個 性別身高體重
feature scaling大概是在說
電腦計算的時候不必知道切確數字 只要知道這個身高體重是比平均高還是比平均低 就好了
機器學習大概就是想要知道重要的特徵就好
所以有 降維 這件事 保留重要的特徵
像是身高跟性別就有一點正關係
例如說判斷這個人是男女 用身高就能判斷
大guy4這個意思
## Machine learning Lecture 4: Classification
1.筆記(notes):




2.介紹(introduction):
這次在講分類
上次說的迴歸大概可以想成找近似的函數曲線
有未知的data的特徵 可以預測他的值是多少
分類的話大概可以想成找一條函數曲線 可以把不同種類分成兩邊
有未知data的特徵 可以預測他是哪一個種類
Loss function 的改成定義預測錯的程度
然後提到這種定義方式 沒辦法微分(?
要改用perceptron SVM(???
再來是講怎麼用連續機率分佈來預測
高斯模型
高斯分佈 曲線如示意圖
因為是連續分佈
所以找maximum likelihood(最大似然)
大概是說想找到一個最像的連續分佈
接著是說 原本的maximum likelihood 考慮不同class 的variance 這樣的模型non linear
所以提出只用一個variance 的方法(取平均)
這樣就變linear 然後變很好(?????
再來提到naive bayed classifier
就是高中的那個貝氏機率
還有後驗機率(posterior probability )
就是以前學的機率 取到紅=3紅球/全部10球那個
再乘上一堆有的沒的東東 變得很醜
然後推一推變成1/(1+e^(-z))
把這東西叫做sigmoid function
然後再推一推變成 wx+b(????????!
就是高中的那個直線方程式
3.討論(discussion):
這裡也太抽象了不知道要怎麼討論
講個高斯分佈
就是高中的常態分佈 標準差68 95 99.7那個
在一個軸上就是中間凸凸的形狀
兩個軸變成圈圈的形狀
連續分佈我也不熟不知道怎麼介紹
大概就是說 箱子裡有3紅7白
紅球機率是3/10 白球機率是7/0
綠球雖然不在裡面 但還是給他一個0.00001的機率
這個概念(?
隨便 反正我亂講的
所以有了連續的概念之後
現在的問題變成 討論不在的球 機率要給他多少
0.0001 還是 0.0000001
maximum likelihood 大概是在講這個
再來講個共異變數矩陣(covariance matrix)
例如說一堆人的身高
會有平均(mean) 方差(variance,標準差的平方)
一堆人的體重也有平均跟方差
然後那堆人的身高跟體重也給他定義一個數字
叫協方差(covariance)
大概是說身高跟體重的關係
不太懂這數字的意義
不過計算很多過程時都會用到這個東東
然後結論是講了一大堆數學
最後問題變成解 y=ax+b
## Machine learning Lecture 5: Logistic Regression
1.筆記(notes):




2.介紹(introduction):
這裡在說羅吉斯回歸 用來分類樣本
跟前面說的線性回歸差在
之前function 輸出是預測他的值
現在function 再多一個sigmoid 讓輸出介於0~1中間
接著再來用cross entropy 這個函數來衡量好壞
預測每一類答對的準度(機率) 乘起來越大越好
然後再取-log 變成越小越好
問題又變回梯度下降了
再來就是推 -log的微分
大意是推出來的結果可以化簡的很漂亮
還有比較羅吉斯回歸跟線性回歸的差別
如圖
最後是說機器學習受到的限制
很難分類的問題 可以人為對data transformation
但這樣就是人在學習了不是機器學習
想法是什麼function比較好
機器也會自己去產生去看
深度學習就是在講這個
3.討論(discussion):
這裡都在講數學
太醜了看不懂
反正就是分類的時候
loss function 用cross entropy(交叉熵)比較好
大意是這公式會獎勵預測對的類別 跟懲罰預測錯的類別
還有最後一個例子
很多書都喜歡用xor舉例
大概是說 不同類別沒辦法直接找一條線分成兩邊的時候
data(座標軸)要先經過轉換
至於轉換的公式 也是電腦來計算
後面的深度學習就是在講這個東東
## Machine learning Lecture 6: Brief introduction of deep learning
1.筆記(notes):


2.介紹(introduction):
這裡沒說什麼內容
就是介紹深度學習的歷史
原本前面講的有regression. classification 方法
深度學習大概是說把原本的classification 的logistic function 串在一起變成神經網路
函數變得更複雜 能做到的事也可以更複雜的概念
還有提到Evolution artificial neural network(進化人工神經網路)
不知道他是啥
然後結論是說DL的概念跟ML一樣
定義網路 最小化loss function 得最佳解
3.討論(discussion):
這節太短了什麼都沒講
不知道能補充啥
## Machine learning Lecture 7: Backpropagation
1.筆記(notes):



2.介紹(introduction):
這邊在講反向傳播
就是講原本在做的梯度下降
因為函數變得很複雜(變數很多)
所以偏微分求梯度
然後每次都從頭計算一次偏微分太麻煩
因為是一堆函數串在一起
所以在每個函數的節點
都記下這個點的偏微分
這樣連鎖律連乘回去
就可以得到output對input的梯度
而且比較快
3.討論(discussion):
這裡比較多微積分跟線性代數的概念
比前面的機率好懂一點
然後這裡講了整節的東西
實作上好像也不用會
api都做好了
程式上只要寫兩行
loss=cross entropy
loss.backword()
直接算好梯度還幫你扣好直接找到minimum
......
心得是深度學習就很黑盒子的感覺
什麼都不知道 結果對了
再來想辦法解釋為什麼會對就好
## Machine learning Lecture 8&9: Implement Deep Learning & Tips for training DNN
1.筆記(notes):






2.介紹(introduction):
這兩段沒啥重點我就放一起講
前面講code怎麼寫的地方
那個import 有夠麻煩 這裡我不會 pass
再來是sgd batch size的問題
太小沒利用到gpu 速度慢
太大 gradient descent 不會接近local minimum
接著是講一些training的策略
early stopping (提早結束)
regularization(前面說的L1 L2懲罰) 這應該歸在ml的東西(?
概念是optimize 時 L2在讓weight 接近0(保持很小,但是還是要)
L1在讓weight sparse(找稀疏解 想要辨識說 某些特徵其實沒有幫助的概念)
Dropout 每層都丟失一些訊息
想法是讓每個神經元都會學到重要的訊息
New activation function
以前知道的有tanh sigmoid(S曲線)
現在變成說Relu比較好 還有各種變形
和更強的maxout
Adaptive learning rate:就是說加動量給他
考慮過去梯度平方和 最佳化那段解釋過了
再來又是code pass
3.討論(discussion):
deep learning 好難討論 因為都很抽象
唸一唸覺得都是發現結果好
再來應解釋這樣做的理由
比較特別的地方想補充normalization 的部分
我自己覺得資料預處理應該是整個deep learning
最莫名其妙的部分了吧
看過一些奇怪的作法
直接除最大值 讓data都變成0-1之間
也有扣掉平均 除到-0.5 ~0.5之間 再+0.5
還有QR分解.SVD分解.LU分解
## Machine learning Lecture 10: Convolution Neural Network
1.筆記(notes):




2.介紹(introduction):
這裡再說從原本的dnn變成cnn的故事
跟filter的由來
是因為pattern
這裡開始術語變得很非常多
但其實概念上跟前面的東西是一樣的
我自己的感覺是這裡就只是換個炫炮一點的術語
阿不過真的是很厲害就對了
還有提到input前先放大縮小照片 旋轉照片
這裡指的就是資料擴增(data augmentation)
max pooling 可以微分的故事要在下一段才會講
還有一個特別的地方是hidden layer
很多人都喜歡說低階的叫特徵(feature)
高階的叫語意(semantic) (因為太抽象了不知道叫啥)
還有卷積池化 input output的算法
這裡pass 這要自己去算過加一下才會知道在幹嘛
接著是講visualization (可視化)的故事
概念上大概是把一堆不知道是什麼意義的數字
想辦法講出他的意義
提到GAN, deep style, alpha go, speech, text
上的用途
3.討論(discussion):
總之這裡都在介紹術語
有一個課程stanford cs231n 把dnn講的很狂
有興趣可以看 不過都英文
還有mit 18.065也用線性代數把cnn的地方解釋得很狂
最後一張圖補充個卷積跟矩陣乘法的關係
示意圖都是在說
把input跟weight做dot的故事(簡易版)
實務上好像 在電腦上計算
寫成矩陣乘法會比較快+容易平行+方便微分
如圖
每個filter 擺成列 攤成循環矩陣
## Machine learning Lecture 11&12 :
why deep? & semi-supervised
1.筆記(notes):





2.介紹(introduction):
11集沒啥重點
前面在講語音辨識以前怎麼做的
後面才開始說DNN的辨識效果更好
用一些故事解釋為什麼會比較好
12集在講半監督式學習
故事要從頭講
首先是機器學習分4類 監督式 非監督式 半監督式 強化學習
這裡都在講故事
直接pass
後面的數學越來越少
都前面的東西
3.討論(discussion):
補充個折疊數
dnn越深越好的原因有一個理由是
函數越多層 relu越多次(也是在折疊)
空間能折疊成更多維度 大概是這概念
然後第二張圖最下面那個公式就是
幾維空間切幾刀
最多能分成幾片
例子就是三維空間的立方體 切1.2.3刀
還有SVM後面好像會在講
講到再說好了
還有clustering(聚類)
大概是想說
透過一些方法 去計算哪些data 會屬於同一類
(分類是已知哪一類 要怎麼分開 這裡是未知)
可以用聚集度(k-mean)來判斷
聚集度就用距離判斷 距離近的屬於同一類
或是連接度(spectral clustering)
這裡滿妙的 用eigenvalue.eigenvector來判斷
## Machine learning Lecture 13: Unsupervised learning- linear method
1.筆記(notes):




2.介紹(introduction):
這裡主要在講clustering(聚類)& dimension reduction(降維)
這裡的例子就是舉大名鼎鼎的k-mean跟pca
先是聚類
故事介紹大概就是如果有一大堆動物的圖片
人工去分的話 就是全部的照片都看過 才能分出來
clustering 的概念是 讓很像的照片聚在一起
k-mean的作法說起來就是
把圖片都寫成坐標放在坐標空間上(就是小時候學的x,y軸
阿長得像的照片 在坐標空間中就會比較接近的位置
然後用坐標距離去算 比較近的就歸成同一類動物
然後就得到K類種分好的圖片
這樣就不用一張一張自己看
再來是降維
這裡提pca(主成分分析)
例如說用人臉辨識舉例的話
人臉的主成分就是五官輪廓顏色啊等等
意思大概是說 一張臉的照片 可以寫成五官輪廓顏色等等的組合
線代一點的說明就是找照片的獨立向量的線性組合
找法就是算他的svd 取前幾個eigenvalue eigenvector
講切確一點是算covariance matrix 的svd
最後還有NMF(非負矩陣分解)
剛剛提到的eigenvector會有正有負
用nmf的方法 那些獨立向量就會全正
不過我沒看 pass
3.討論(discussion):
有提到LDA (線性判別分析)
跟pca很像 做法就最後一張圖
pca是解A=USV^T
lda是解 Sx=入Mx 看起來很像找eigenvalue
不過有難一點 因為多一個M矩陣
所以叫做廣義eigenvalue
有很多方法 最簡單的就是M反矩陣移過去
M^(-1)Sx=Ax=入x
結論是會算平均跟距離跟eigenvalue 跟svd
就懂這些
但是說自己會eigenvalue SVD人家會覺得你白癡
說自己懂k-mean PCA LDA 聽起來就屌100倍
## Machine learning Lecture 14&15&16 :Unsupervised learning
word embedding & neighbor embedding & auto-encoder
1.筆記(notes):











2介紹inroduction):
先從word embedding 開始
最直觀的方法就是每個字都給他一個軸
[1,0,0,0....] [0,1,0,0,0.....]一直下去
但是太多了表示不完
所以乘上一個矩陣 他就會變小
大概是 [m*n]•[n*1]=[m*1]的概念 m讓他變小
細節跳過 我也沒仔細看
啊不過主要概念就是在說怎麼把
word(文字)轉成vector(坐標)
再來是t-SNE 這也很有名的
之前提到的降維 而且降的最好的方法(?
主要就是 在高維空間的距離 到低維空間距離也不變
有點像線代那個linear transformation 要保距離
去找他basis怎麼取
不過這裡的距離是用兩點的機率分佈衡量
叫T-distribution
再來是auto encoder
想成壓縮解壓縮的概念
input*Encoder(壓縮)=code(壓縮檔)
code*Decoder(解壓縮)=output(還原)
....好像講的太簡單了 不過這裡厲害的就是他產生的code size很小 但是裡面的資訊量很大
3.討論(discussion):
看一下auto encoder的程式
用mlp就能做到
用cnn的話更強(? 應該吧
是說這裡都在介紹專有名詞而已
多聽一些專有名詞也不錯
## Machine learning Lecture 17&18: Unsupervised learning- Deep Generative Model
1.筆記(notes):





image.jpeg
image.jpeg
image.jpeg
image.jpeg
2.介紹(introduction):
深度生成模型
意思大概就是 原本電腦會產生亂數
經過一些計算之後
有辦法讓亂數變成影像跟語音 到可以以假亂真的地步
然後提到
pixel RNN (像素遞迴神經網路)
大概是說一張圖有很多格像素
用第一格顏色(像素) 預測下一格顏色(像素)是是什麼
感覺天馬行空
阿不過預測完全部格子之後
真的就會跑出一張很像真實的照片
VAE (variational auto-encoder變分自動編碼器)
原本的auto-encoder
在處理的都是向量(離散)
這裡變成用機率(連續)的方法 來做這件事
然後機率太多了 pass
再來是GAN(generate adversarial network生成對抗網路)
這個又更抽象了
大概是說 有一個產生器(generator)跟判別器(discriminator)
產生器隨便亂數
判別器隨便亂判斷這和不合格
判別器會越來越嚴苛
然後經過很多次 就會變的越來越像真實照片
3.討論(discussion):
這裡都太抽象了而且都是機率
只能pass
以後會了再補
還有提到EM algorithms (最大期望值演算法)
原本也想至少看懂這個
但還是太難了 pass以後看懂再補
## Machine learning Lecture 19: Transfer learning
0.前言(preface):
先跳過13~18 unsupervised learning (非監督式)的部分
還有跳過Anomaly Detection
Attack & Defense
Explain ML
之後再補 不過心得是不照順序 會有聽不懂的東西跑進來 不過管他的
1.筆記(notes):



2.介紹(introduction):
轉移學習大概是再說
原本訓練好的機器 只會分類貓狗
現在突然丟一隻草泥馬 也想要他判斷出來
(之前覺得這種事情完全不合理 啊不過看完之後好像有變的合理一點點
提到很多方法 略介紹一下
微調(fine tune):術語太多了 好像沒啥人在看
反正顧名思義 就是微調一下 就可以判斷草泥馬
多任務(multi-task): 故事說明就是例如在學籃球跟桌球要分開學 才會學得好
但是發現同時讓機器籃球跟桌球一起打
會比分開學的效果還好(??
漸進式(progressive): 故事有點難解 不講了
領域對抗(Domain adversarial): 太抽象了 有點像是 現在學的是籃球
但是今天讓機器打桌球 騙機器說 籃球跟桌球是同一個領域的事情
他就會打得很好
零樣本(zero shot):有兩種方法
-1:Devise 要自己建一個很大的屬性資料庫
例如機器分類狗的時候 特徵會找到有毛.四隻腳.尾巴等等
突然要預測一隻沒看過的草泥馬
雖然不知道這是什麼 但是可以從又有羊的特徵 又有馬的特徵 判斷這介於羊跟馬中間 去資料庫找有沒有類似的
這部分的數學式也滿妙的就是了
-2:凸組合(convex combination):
剛是用資料庫來比喻 這次用字典好了
假設有一本很好的字典
現在預測這隻草泥馬有50%像羊50%像馬
去翻字典羊跟馬的中間那樣
結果居然就會是草泥馬(???
很不合理 但是有論文證明實驗結果是好的
自我教學(self-taught):
這好像是非監督式的東西 還聽不懂在講什麼
3.討論(discussion):
有提到降維來補充一下
PCA就是應用以前學的SVD分解 再對他加減乘除一下
這叫線性降維
還有一個叫t-SNE
用很奇怪的公式 有e有log有根號 有空再看一下這是啥
白話版的降維就是說
一棟房子 直接壓扁(拆掉)的話會全部東西混在一起
今天想要找一個角度把他壓扁
壓扁之後 門窗桌椅衣服 反正一樣的東西會剛好全都聚在一起
## Machine learning Lecture 20: Support vector machine
1.筆記(notes):







2.介紹(introduction):
svm 支援向量機
先講最白話的 logistic regression 分類只考慮分的對 找一條線有分開不同的東西
svm在分類的時候 還會最大化兩類中間的邊界
然後hinge loss 鉸鏈損失
公式就是max(0,1-y•f(x)) 這串
寫成這樣就是取最大值而已
如果1-y•f(x)變負的時候 值就當0
(意思就是忽略會造成負值的sample )
再來是基本款線性svm
function是wx+b 在平面上就是一條線
然後做最佳化
可以用梯度下降(gradient descent )
或是二次規劃解(quadratic problem)
(就是線性代數的解eigenvector
再來是非線性SVM
kernel trick
概念是 在平面上沒辦法畫線分開data的話
把他投影到高維空間 就變比較容易把data分開
3.討論(discussion):
.....這段難到哭夭
其實以前就看過好幾次了
從來沒看懂過
所以我都亂打而已
不過這次看完再總結一下有稍微知道一點svm在幹嘛了
不過這個數學有點複雜我都沒算
有人討論的話再算好了
沒人就擺著
## Machine learning Lecture 22&23: Ensemble &Deep Reinforcement Learning
1.筆記(notes):
image.jpeg
image.jpeg
image.jpeg
image.jpeg
image.jpeg
2.介紹(introduction):
先是ensemble(合奏)的部分
這裡再說 已經有一些預估模型了之後
要怎麼讓正確率再提高一個檔次的方法
先是bagging 大概是說把一堆模型的結果
平均起來 就會變的更好
然後是boosting
做法是 先訓練一個弱的模型
然後針對第一個弱的模型 預估錯的data 再去加強
依序下去 最終得到的結果會很好
不過都聽不懂 pass
再來是DRL(增強式學習)
好像普遍用在玩遊戲上面
邏輯大概是說
玩遊戲的當下
都有一個environment(想當前時刻畫面)
跟agent(就是自己)
每個時刻都要決定一個action(動作)
做完這個動作 會得到reward(獎勵)
就這四個組合 寫成算式
想要讓一場遊戲能得到的reward最大
電腦就會去算說 什麼時候做什麼動作
結果會最好
3.討論(discussion):
太抽象了這裡當故事聽就好
反正我也不會
不過之前修過RL的課 有比較有fu一點點
阿到最後上完我還是覺得很智障
程式裡打一段數學公式
就會玩得很好
阿根本不知道原理 寫錯也無從debug
只知道我玩得不好 但不知道問題出在哪
然後補個待看事項
decision tree & random forest
markov division process
聽起來感覺很潮的東西
有空要看一下
## Next step of Machine Learning:
•Anomaly Detection
•Attack and Defense
•Explainable ML
1.筆記(notes):
image.jpeg
image.jpeg
image.jpeg
image.jpeg
image.jpeg
image.jpeg
2.介紹(introduction):
先是異常偵測
這裡在說怎麼看預測出來的結果有沒有異常
最直覺的方法是 預測結果是一個數字(機率)
機率太低的話 就當作異常
還有用常態分佈判斷 如果離平均值太遠
那就是異常
不過總而言之 異常的範圍還是自己訂的
只能亂試(應該吧
還有用auto encoder 判斷
如果不能重建的話 就是異常
這段提到以上這三個方法
再來是攻擊和防禦模型
大概是說
如果有一張照片 會被機器判讀成狗
那改掉照片某些部分 想辦法讓機器判讀成貓
但是人肉眼還是覺得是狗
(總之攻擊就是在說要騙過機器
防禦的話有點無聊 如圖 pass
最後是explainable ML
講得很簡單但是做的事很數學
有點不知道怎麼講 pass
3.討論(discusses):
提到混淆矩陣
補充一下
聽起來有點炫炮
其實就是一個表格
紀錄 預測對錯 跟 真實對錯的比例
還有準確率 精確率 召回率 F1 score
這五個名詞
反正就是 分子/分母的概念
但是講出這幾個字 聽起來都覺得在發光
還有decision tree
還是沒看 再記錄個 只後有空一定要看