NTU Maching Learning

# NTU Maching Learning @auther: chi 讀書筆記 - [李弘毅 ML](https://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html) ## Machine learning Lecture 1 : Regression 1.筆記(notes): ![](https://i.imgur.com/qljt1nT.png) ![](https://i.imgur.com/O3aN8SK.png) 2.介紹(introduction): 有real data (x,y) 和預測function f=b+wx 做回歸(regression) 所以現在有 y:真實答案(label) f(x):預測答案(prediction) 再來是定義loss L(f)=(y-f(x))^2 意義是這個預測跟正確答案差多少期望越低越好所以gradient descent 先初始一組(w,b) 算Loss分別對w,b微分沿斜率下降會找到loss 最低的點（越小代表預測的跟真實的越接近）再來是討論到多種類(species) 太難表達這段pass 再來是過擬合(over fitting) 前情提要期望是想要預測未知資料也預測的準所以先當作假設現有資料預測的太準的話未知資料會不准想做的事是不要預測太準(我在工三小?) 接著是解決over fitting的方法正規化(regularization) 在loss function 加入平方懲罰項(penalty term) 想在weight參數變小的情況也能達到loss很低因為前面的預測function公式 f(x)=b+wx 邏輯上是w越小對各種不同的x 擾動也越小就是剛說的想要預測位置data也很準的意思 3.討論(discussion): 補充個loss部分基本款是MSE(平方差）之前有看過4.5.6次方的不知道是什麼鬼補充個regularization‍‍部分 L2正規化又叫Ridge regression 公式意義能看出讓擾動變小幾何意義是跟圓形有關啊有人問的話再說好了打字麻煩還有L1正規化 Lasso regression L2就是以前學長度公式 L1是絕對值向量(-3,4) L2長度就是（-3）^2+4^2=25 L1長度是 |-3|+|4|=7 再補充個叫Lagrange multiplier的東東 Loss的懲罰項如果變的很複雜這個東東照樣能懲罰 ## Machine learning Lecture 2：Error 1.筆記(notes): ![](https://i.imgur.com/jW701Et.png) 2.介紹(introduction): loss function 出來的數字在描述預測跟真實的誤差(error) 誤差分兩個部分偏差(bias)跟方差(variance) 用這兩個角度形容模型預測的準確期望是 bias跟variance都很小大概是說預測的結果跟樣本真實結果差很多(under fitting) ->bias太大 ->預測的函式(y=b+wx)就出問題要重新設計預測的結果跟樣本真實結果很接近但是在未知資料上預測的差很多(over fitting) ->variance太大 ->增加樣本、製造假樣本(data augmentation 、正規化(regularization) 再來是討論訓練集驗證集測試集的關係能在訓練的時候就先拿一部分驗證找最好的model 對在測試未知資料也會有好的效果 3.討論(discussion): bias跟variance 的意義太抽象了不過之前有看到一個式子 Loss = (y - f(x))^2 這個function 能推成loss= bias + variance + blah blah blah 只從數學角度來看的話大概就是這樣解釋資料擴增(data augmentation) 有什麼翻轉旋轉裁切偏移放大縮小的方法大概是說資料不夠多的情況可以用這些方法增加資料還有訓練集驗證集測試集的部分也太抽象了不過好像是很make sence的東西啊不會寫程式所以這段pass ## Machine learning Lecture 3: Gradient Descent 1.筆記(notes): ![](https://i.imgur.com/SpZCNdZ.png) ![](https://i.imgur.com/kzEWT3N.png) ![](https://i.imgur.com/DlEqOdn.png) 2.介紹(introduction): 這邊講梯度下降就是以前單變數的斜率沿著反方向扣會越來越低就是找斜率=0(極值)的地方改用慢慢迭代的方法多變數同理最佳化(optimization theory ）在講的好像就是這件事找函數極值再來是adaptive learning rate系列想法是梯度下降的距離靠近極小值要越來越慢因為每個變數的梯度可能很大很小如果都統一下降一樣的距離效果很差所以除上過去梯度平方根幾何意義是讓每個變數的距離能取到剛好的值代數意義是說平方根這個東東和二次微分有關係剛好跟最佳距離有關係再來是SGD 原本的梯度下降是考慮全體樣本的角度 sgd策略是一次隨機考慮一個樣本每個樣本輪過一次大意是能更快找到極值還有feature scaling 就如圖 data的表示大部分都用行代表樣本列代表特徵想法是讓data分佈變比較漂亮效果比較好不過不知道為啥大家都很喜歡bias 0 variance 1 然後是gradient descent theory 跟泰勒展開式有微妙的關係大概是說反正要只是找周圍更小的值那簡化這些運算一樣找得到然後泰勒展開可以推到gradient descent 證明了梯度下降只要learning rate(距離)取得好就可以保證找到最小值還有提到Newton’s method （牛頓法）泰勒展開式再多展開一點 3.討論(discussion): 這裡都太抽象了不知道該怎麼討論不過補充個特徵的地方好了例如一個data(人) 的參數有3個性別身高體重 feature scaling大概是在說電腦計算的時候不必知道切確數字只要知道這個身高體重是比平均高還是比平均低就好了機器學習大概就是想要知道重要的特徵就好所以有降維這件事保留重要的特徵像是身高跟性別就有一點正關係例如說判斷這個人是男女用身高就能判斷大guy4這個意思 ## Machine learning Lecture 4: Classification 1.筆記(notes): ![](https://i.imgur.com/BVUb6QM.png) ![](https://i.imgur.com/AXvw6a4.png) ![](https://i.imgur.com/3KuIZpc.png) ![](https://i.imgur.com/FfdIoH0.png) 2.介紹(introduction): 這次在講分類上次說的迴歸大概可以想成找近似的函數曲線有未知的data的特徵可以預測他的值是多少分類的話大概可以想成找一條函數曲線可以把不同種類分成兩邊有未知data的特徵可以預測他是哪一個種類 Loss function 的改成定義預測錯的程度然後提到這種定義方式沒辦法微分(? 要改用perceptron SVM(??? 再來是講怎麼用連續機率分佈來預測高斯模型高斯分佈曲線如示意圖因為是連續分佈所以找maximum likelihood(最大似然) 大概是說想找到一個最像的連續分佈接著是說原本的maximum likelihood 考慮不同class 的variance 這樣的模型non linear 所以提出只用一個variance 的方法(取平均) 這樣就變linear 然後變很好(????? 再來提到naive bayed classifier 就是高中的那個貝氏機率還有後驗機率(posterior probability ）就是以前學的機率取到紅=3紅球/全部10球那個再乘上一堆有的沒的東東變得很醜然後推一推變成1/(1+e^(-z)) 把這東西叫做sigmoid function 然後再推一推變成 wx+b(????????! 就是高中的那個直線方程式 3.討論(discussion): 這裡也太抽象了不知道要怎麼討論講個高斯分佈就是高中的常態分佈標準差68 95 99.7那個在一個軸上就是中間凸凸的形狀兩個軸變成圈圈的形狀連續分佈我也不熟不知道怎麼介紹大概就是說箱子裡有3紅7白紅球機率是3/10 白球機率是7/0 綠球雖然不在裡面但還是給他一個0.00001的機率這個概念(? 隨便反正我亂講的所以有了連續的概念之後現在的問題變成討論不在的球機率要給他多少 0.0001 還是 0.0000001 maximum likelihood 大概是在講這個再來講個共異變數矩陣(covariance matrix) 例如說一堆人的身高會有平均(mean) 方差(variance,標準差的平方) 一堆人的體重也有平均跟方差然後那堆人的身高跟體重也給他定義一個數字叫協方差(covariance）大概是說身高跟體重的關係不太懂這數字的意義不過計算很多過程時都會用到這個東東然後結論是講了一大堆數學最後問題變成解 y=ax+b ## Machine learning Lecture 5: Logistic Regression 1.筆記(notes): ![](https://i.imgur.com/QnJdxm9.png) ![](https://i.imgur.com/tC4qM3z.png) ![](https://i.imgur.com/WMYKydF.png) ![](https://i.imgur.com/bLgyvw6.png) 2.介紹(introduction): 這裡在說羅吉斯回歸用來分類樣本跟前面說的線性回歸差在之前function 輸出是預測他的值現在function 再多一個sigmoid 讓輸出介於0~1中間接著再來用cross entropy 這個函數來衡量好壞預測每一類答對的準度(機率) 乘起來越大越好然後再取-log 變成越小越好問題又變回梯度下降了再來就是推 -log的微分大意是推出來的結果可以化簡的很漂亮還有比較羅吉斯回歸跟線性回歸的差別如圖最後是說機器學習受到的限制很難分類的問題可以人為對data transformation 但這樣就是人在學習了不是機器學習想法是什麼function比較好機器也會自己去產生去看深度學習就是在講這個 3.討論(discussion): 這裡都在講數學太醜了看不懂反正就是分類的時候 loss function 用cross entropy(交叉熵)比較好大意是這公式會獎勵預測對的類別跟懲罰預測錯的類別還有最後一個例子很多書都喜歡用xor舉例大概是說不同類別沒辦法直接找一條線分成兩邊的時候 data(座標軸)要先經過轉換至於轉換的公式也是電腦來計算後面的深度學習就是在講這個東東 ## Machine learning Lecture 6: Brief introduction of deep learning 1.筆記(notes): ![](https://i.imgur.com/HQMkOeP.png) ![](https://i.imgur.com/5cvmHvd.png) 2.介紹(introduction): 這裡沒說什麼內容就是介紹深度學習的歷史原本前面講的有regression. classification 方法深度學習大概是說把原本的classification 的logistic function 串在一起變成神經網路函數變得更複雜能做到的事也可以更複雜的概念還有提到Evolution artificial neural network(進化人工神經網路) 不知道他是啥然後結論是說DL的概念跟ML一樣定義網路最小化loss function 得最佳解 3.討論(discussion): 這節太短了什麼都沒講不知道能補充啥 ## Machine learning Lecture 7: Backpropagation 1.筆記(notes): ![](https://i.imgur.com/GF3kV73.png) ![](https://i.imgur.com/fXPHcHJ.png) ![](https://i.imgur.com/2eZaJAw.png) 2.介紹(introduction): 這邊在講反向傳播就是講原本在做的梯度下降因為函數變得很複雜(變數很多) 所以偏微分求梯度然後每次都從頭計算一次偏微分太麻煩因為是一堆函數串在一起所以在每個函數的節點都記下這個點的偏微分這樣連鎖律連乘回去就可以得到output對input的梯度而且比較快 3.討論(discussion): 這裡比較多微積分跟線性代數的概念比前面的機率好懂一點然後這裡講了整節的東西實作上好像也不用會 api都做好了程式上只要寫兩行 loss=cross entropy loss.backword() 直接算好梯度還幫你扣好直接找到minimum ...... 心得是深度學習就很黑盒子的感覺什麼都不知道結果對了再來想辦法解釋為什麼會對就好 ## Machine learning Lecture 8&9: Implement Deep Learning & Tips for training DNN 1.筆記(notes): ![](https://i.imgur.com/c75EBvy.png) ![](https://i.imgur.com/uwbnIqM.png) ![](https://i.imgur.com/JmgOB2P.png) ![](https://i.imgur.com/F7nAYn2.png) ![](https://i.imgur.com/vOp3xv5.png) ![](https://i.imgur.com/coNVkEQ.png) 2.介紹(introduction): 這兩段沒啥重點我就放一起講前面講code怎麼寫的地方那個import 有夠麻煩這裡我不會 pass 再來是sgd batch size的問題太小沒利用到gpu 速度慢太大 gradient descent 不會接近local minimum 接著是講一些training的策略 early stopping (提早結束) regularization（前面說的L1 L2懲罰) 這應該歸在ml的東西(? 概念是optimize 時 L2在讓weight 接近0(保持很小,但是還是要） L1在讓weight sparse（找稀疏解想要辨識說某些特徵其實沒有幫助的概念) Dropout 每層都丟失一些訊息想法是讓每個神經元都會學到重要的訊息 New activation function 以前知道的有tanh sigmoid（S曲線) 現在變成說Relu比較好還有各種變形和更強的maxout Adaptive learning rate:就是說加動量給他考慮過去梯度平方和最佳化那段解釋過了再來又是code pass 3.討論(discussion): deep learning 好難討論因為都很抽象唸一唸覺得都是發現結果好再來應解釋這樣做的理由比較特別的地方想補充normalization 的部分我自己覺得資料預處理應該是整個deep learning 最莫名其妙的部分了吧看過一些奇怪的作法直接除最大值讓data都變成0-1之間也有扣掉平均除到-0.5 ～0.5之間再+0.5 還有QR分解.SVD分解.LU分解 ## Machine learning Lecture 10: Convolution Neural Network 1.筆記(notes): ![](https://i.imgur.com/UYezAoJ.png) ![](https://i.imgur.com/iq9DBzk.png) ![](https://i.imgur.com/Po6ALj4.png) ![](https://i.imgur.com/GB8ReFr.png) 2.介紹(introduction): 這裡再說從原本的dnn變成cnn的故事跟filter的由來是因為pattern 這裡開始術語變得很非常多但其實概念上跟前面的東西是一樣的我自己的感覺是這裡就只是換個炫炮一點的術語阿不過真的是很厲害就對了還有提到input前先放大縮小照片旋轉照片這裡指的就是資料擴增(data augmentation) max pooling 可以微分的故事要在下一段才會講還有一個特別的地方是hidden layer 很多人都喜歡說低階的叫特徵(feature) 高階的叫語意(semantic) (因為太抽象了不知道叫啥) 還有卷積池化 input output的算法這裡pass 這要自己去算過加一下才會知道在幹嘛接著是講visualization (可視化)的故事概念上大概是把一堆不知道是什麼意義的數字想辦法講出他的意義提到GAN, deep style, alpha go, speech, text 上的用途 3.討論(discussion): 總之這裡都在介紹術語有一個課程stanford cs231n 把dnn講的很狂有興趣可以看不過都英文還有mit 18.065也用線性代數把cnn的地方解釋得很狂最後一張圖補充個卷積跟矩陣乘法的關係示意圖都是在說把input跟weight做dot的故事(簡易版) 實務上好像在電腦上計算寫成矩陣乘法會比較快+容易平行+方便微分如圖每個filter 擺成列攤成循環矩陣 ## Machine learning Lecture 11&12 : why deep? & semi-supervised 1.筆記(notes): ![](https://i.imgur.com/1M4cJgK.png) ![](https://i.imgur.com/Xalbfay.png) ![](https://i.imgur.com/lOQfC6d.png) ![](https://i.imgur.com/fIf3KSI.png) ![](https://i.imgur.com/7eaiSFK.png) 2.介紹(introduction): 11集沒啥重點前面在講語音辨識以前怎麼做的後面才開始說DNN的辨識效果更好用一些故事解釋為什麼會比較好 12集在講半監督式學習故事要從頭講首先是機器學習分4類監督式非監督式半監督式強化學習這裡都在講故事直接pass 後面的數學越來越少都前面的東西 3.討論(discussion): 補充個折疊數 dnn越深越好的原因有一個理由是函數越多層 relu越多次(也是在折疊) 空間能折疊成更多維度大概是這概念然後第二張圖最下面那個公式就是幾維空間切幾刀最多能分成幾片例子就是三維空間的立方體切1.2.3刀還有SVM後面好像會在講講到再說好了還有clustering(聚類) 大概是想說透過一些方法去計算哪些data 會屬於同一類 (分類是已知哪一類要怎麼分開這裡是未知) 可以用聚集度(k-mean)來判斷聚集度就用距離判斷距離近的屬於同一類或是連接度(spectral clustering) 這裡滿妙的用eigenvalue.eigenvector來判斷 ## Machine learning Lecture 13: Unsupervised learning- linear method 1.筆記(notes): ![](https://i.imgur.com/u315WCT.png) ![](https://i.imgur.com/yp95daP.png) ![](https://i.imgur.com/xHXFtmn.png) ![](https://i.imgur.com/7bPPq9d.png) 2.介紹(introduction): 這裡主要在講clustering(聚類)& dimension reduction(降維) 這裡的例子就是舉大名鼎鼎的k-mean跟pca 先是聚類故事介紹大概就是如果有一大堆動物的圖片人工去分的話就是全部的照片都看過才能分出來 clustering 的概念是讓很像的照片聚在一起 k-mean的作法說起來就是把圖片都寫成坐標放在坐標空間上(就是小時候學的x,y軸阿長得像的照片在坐標空間中就會比較接近的位置然後用坐標距離去算比較近的就歸成同一類動物然後就得到K類種分好的圖片這樣就不用一張一張自己看再來是降維這裡提pca(主成分分析) 例如說用人臉辨識舉例的話人臉的主成分就是五官輪廓顏色啊等等意思大概是說一張臉的照片可以寫成五官輪廓顏色等等的組合線代一點的說明就是找照片的獨立向量的線性組合找法就是算他的svd 取前幾個eigenvalue eigenvector 講切確一點是算covariance matrix 的svd 最後還有NMF(非負矩陣分解) 剛剛提到的eigenvector會有正有負用nmf的方法那些獨立向量就會全正不過我沒看 pass 3.討論(discussion): 有提到LDA (線性判別分析) 跟pca很像做法就最後一張圖 pca是解A=USV^T lda是解 Sx=入Mx 看起來很像找eigenvalue 不過有難一點因為多一個M矩陣所以叫做廣義eigenvalue 有很多方法最簡單的就是M反矩陣移過去 M^(-1)Sx=Ax=入x 結論是會算平均跟距離跟eigenvalue 跟svd 就懂這些但是說自己會eigenvalue SVD人家會覺得你白癡說自己懂k-mean PCA LDA 聽起來就屌100倍 ## Machine learning Lecture 14&15&16 :Unsupervised learning word embedding & neighbor embedding & auto-encoder 1.筆記(notes): ![](https://i.imgur.com/DMN5M4L.png) ![](https://i.imgur.com/llkUIaN.png) ![](https://i.imgur.com/1Uclqfl.png) ![](https://i.imgur.com/HWbJZ1W.png) ![](https://i.imgur.com/hAaDpvk.png) ![](https://i.imgur.com/rle3YpA.png) ![](https://i.imgur.com/KTT6fxD.png) ![](https://i.imgur.com/H31Qufi.png) ![](https://i.imgur.com/GmhNPzs.png) ![](https://i.imgur.com/a8m0ca9.png) ![](https://i.imgur.com/TvhunAC.png) 2介紹inroduction): 先從word embedding 開始最直觀的方法就是每個字都給他一個軸 [1,0,0,0....] [0,1,0,0,0.....]一直下去但是太多了表示不完所以乘上一個矩陣他就會變小大概是 [m*n]•[n*1]=[m*1]的概念 m讓他變小細節跳過我也沒仔細看啊不過主要概念就是在說怎麼把 word(文字)轉成vector(坐標) 再來是t-SNE 這也很有名的之前提到的降維而且降的最好的方法(? 主要就是在高維空間的距離到低維空間距離也不變有點像線代那個linear transformation 要保距離去找他basis怎麼取不過這裡的距離是用兩點的機率分佈衡量叫T-distribution 再來是auto encoder 想成壓縮解壓縮的概念 input*Encoder(壓縮)=code(壓縮檔) code*Decoder(解壓縮)=output(還原） ....好像講的太簡單了不過這裡厲害的就是他產生的code size很小但是裡面的資訊量很大 3.討論(discussion): 看一下auto encoder的程式用mlp就能做到用cnn的話更強(? 應該吧是說這裡都在介紹專有名詞而已多聽一些專有名詞也不錯 ## Machine learning Lecture 17&18: Unsupervised learning- Deep Generative Model 1.筆記(notes): ![](https://i.imgur.com/VVCEyvo.png) ![](https://i.imgur.com/MGyivBD.png) ![](https://i.imgur.com/nn8WvJm.png) ![](https://i.imgur.com/hQeGxSu.png) ![](https://i.imgur.com/qhNlAwb.png) image.jpeg image.jpeg image.jpeg image.jpeg 2.介紹(introduction): 深度生成模型意思大概就是原本電腦會產生亂數經過一些計算之後有辦法讓亂數變成影像跟語音到可以以假亂真的地步然後提到 pixel RNN （像素遞迴神經網路) 大概是說一張圖有很多格像素用第一格顏色(像素) 預測下一格顏色(像素)是是什麼感覺天馬行空阿不過預測完全部格子之後真的就會跑出一張很像真實的照片 VAE (variational auto-encoder變分自動編碼器) 原本的auto-encoder 在處理的都是向量(離散) 這裡變成用機率(連續)的方法來做這件事然後機率太多了 pass 再來是GAN（generate adversarial network生成對抗網路) 這個又更抽象了大概是說有一個產生器(generator）跟判別器(discriminator) 產生器隨便亂數判別器隨便亂判斷這和不合格判別器會越來越嚴苛然後經過很多次就會變的越來越像真實照片 3.討論(discussion): 這裡都太抽象了而且都是機率只能pass 以後會了再補還有提到EM algorithms （最大期望值演算法) 原本也想至少看懂這個但還是太難了 pass以後看懂再補 ## Machine learning Lecture 19: Transfer learning 0.前言(preface): 先跳過13～18 unsupervised learning (非監督式)的部分還有跳過Anomaly Detection Attack & Defense Explain ML 之後再補不過心得是不照順序會有聽不懂的東西跑進來不過管他的 1.筆記(notes): ![](https://i.imgur.com/3VGYcq4.png) ![](https://i.imgur.com/xa7h76n.png) ![](https://i.imgur.com/FpySF69.png) 2.介紹(introduction): 轉移學習大概是再說原本訓練好的機器只會分類貓狗現在突然丟一隻草泥馬也想要他判斷出來（之前覺得這種事情完全不合理啊不過看完之後好像有變的合理一點點提到很多方法略介紹一下微調(fine tune）:術語太多了好像沒啥人在看反正顧名思義就是微調一下就可以判斷草泥馬多任務(multi-task): 故事說明就是例如在學籃球跟桌球要分開學才會學得好但是發現同時讓機器籃球跟桌球一起打會比分開學的效果還好(?? 漸進式(progressive): 故事有點難解不講了領域對抗(Domain adversarial): 太抽象了有點像是現在學的是籃球但是今天讓機器打桌球騙機器說籃球跟桌球是同一個領域的事情他就會打得很好零樣本(zero shot):有兩種方法 -1:Devise 要自己建一個很大的屬性資料庫例如機器分類狗的時候特徵會找到有毛.四隻腳.尾巴等等突然要預測一隻沒看過的草泥馬雖然不知道這是什麼但是可以從又有羊的特徵又有馬的特徵判斷這介於羊跟馬中間去資料庫找有沒有類似的這部分的數學式也滿妙的就是了 -2:凸組合(convex combination)：剛是用資料庫來比喻這次用字典好了假設有一本很好的字典現在預測這隻草泥馬有50%像羊50%像馬去翻字典羊跟馬的中間那樣結果居然就會是草泥馬(??? 很不合理但是有論文證明實驗結果是好的自我教學(self-taught): 這好像是非監督式的東西還聽不懂在講什麼 3.討論(discussion): 有提到降維來補充一下 PCA就是應用以前學的SVD分解再對他加減乘除一下這叫線性降維還有一個叫t-SNE 用很奇怪的公式有e有log有根號有空再看一下這是啥白話版的降維就是說一棟房子直接壓扁(拆掉)的話會全部東西混在一起今天想要找一個角度把他壓扁壓扁之後門窗桌椅衣服反正一樣的東西會剛好全都聚在一起 ## Machine learning Lecture 20: Support vector machine 1.筆記(notes): ![](https://i.imgur.com/1BSqxoN.png) ![](https://i.imgur.com/icnDuPs.png) ![](https://i.imgur.com/13jSPco.png) ![](https://i.imgur.com/DdwtCQK.png) ![](https://i.imgur.com/Vvz1CgP.png) ![](https://i.imgur.com/tu47Y9j.png) ![](https://i.imgur.com/wDoNJKx.png) 2.介紹(introduction): svm 支援向量機先講最白話的 logistic regression 分類只考慮分的對找一條線有分開不同的東西 svm在分類的時候還會最大化兩類中間的邊界然後hinge loss 鉸鏈損失公式就是max(0,1-y•f(x)) 這串寫成這樣就是取最大值而已如果1-y•f(x)變負的時候值就當0 (意思就是忽略會造成負值的sample ) 再來是基本款線性svm function是wx+b 在平面上就是一條線然後做最佳化可以用梯度下降(gradient descent ）或是二次規劃解(quadratic problem）（就是線性代數的解eigenvector 再來是非線性SVM kernel trick 概念是在平面上沒辦法畫線分開data的話把他投影到高維空間就變比較容易把data分開 3.討論(discussion): .....這段難到哭夭其實以前就看過好幾次了從來沒看懂過所以我都亂打而已不過這次看完再總結一下有稍微知道一點svm在幹嘛了不過這個數學有點複雜我都沒算有人討論的話再算好了沒人就擺著 ## Machine learning Lecture 22&23: Ensemble &Deep Reinforcement Learning 1.筆記(notes): image.jpeg image.jpeg image.jpeg image.jpeg image.jpeg 2.介紹(introduction): 先是ensemble(合奏)的部分這裡再說已經有一些預估模型了之後要怎麼讓正確率再提高一個檔次的方法先是bagging 大概是說把一堆模型的結果平均起來就會變的更好然後是boosting 做法是先訓練一個弱的模型然後針對第一個弱的模型預估錯的data 再去加強依序下去最終得到的結果會很好不過都聽不懂 pass 再來是DRL(增強式學習) 好像普遍用在玩遊戲上面邏輯大概是說玩遊戲的當下都有一個environment(想當前時刻畫面) 跟agent(就是自己) 每個時刻都要決定一個action(動作) 做完這個動作會得到reward(獎勵) 就這四個組合寫成算式想要讓一場遊戲能得到的reward最大電腦就會去算說什麼時候做什麼動作結果會最好 3.討論(discussion): 太抽象了這裡當故事聽就好反正我也不會不過之前修過RL的課有比較有fu一點點阿到最後上完我還是覺得很智障程式裡打一段數學公式就會玩得很好阿根本不知道原理寫錯也無從debug 只知道我玩得不好但不知道問題出在哪然後補個待看事項 decision tree & random forest markov division process 聽起來感覺很潮的東西有空要看一下 ## Next step of Machine Learning: •Anomaly Detection •Attack and Defense •Explainable ML 1.筆記(notes): image.jpeg image.jpeg image.jpeg image.jpeg image.jpeg image.jpeg 2.介紹(introduction): 先是異常偵測這裡在說怎麼看預測出來的結果有沒有異常最直覺的方法是預測結果是一個數字(機率) 機率太低的話就當作異常還有用常態分佈判斷如果離平均值太遠那就是異常不過總而言之異常的範圍還是自己訂的只能亂試(應該吧還有用auto encoder 判斷如果不能重建的話就是異常這段提到以上這三個方法再來是攻擊和防禦模型大概是說如果有一張照片會被機器判讀成狗那改掉照片某些部分想辦法讓機器判讀成貓但是人肉眼還是覺得是狗 (總之攻擊就是在說要騙過機器防禦的話有點無聊如圖 pass 最後是explainable ML 講得很簡單但是做的事很數學有點不知道怎麼講 pass 3.討論(discusses): 提到混淆矩陣補充一下聽起來有點炫炮其實就是一個表格紀錄預測對錯跟真實對錯的比例還有準確率精確率召回率 F1 score 這五個名詞反正就是分子/分母的概念但是講出這幾個字聽起來都覺得在發光還有decision tree 還是沒看再記錄個只後有空一定要看