Machine Learning
【機器學習2021】類神經網路訓練不起來怎麼辦 系列(一)~(五)
使用梯度下降時,當gradiant為0,不一定是卡在local minima,只能說卡在crtical point~
判斷critical point是屬於local minima or saddle point?
若判斷為saddle point:可透過H解
總結:根據研究,大部分時候並非卡在local minima
big batch size較穩定,small batch size產生較noisy的gradient
因GPU paralled運算,大的batch size不會比較差,反而有優勢
opt. issue: in training set,過大batch size也不好
overfitting:small batch size在testing set表現好?
各有優劣,是一個超參數
大原則:觀察error surface
如何實作:Adagrad
其他版本方法:RMSPropd方法來dynamically調整learning Rate
今日最常使用之optimization方法:Adam
進化的gradient descent
完整版本:
本堂課為方便解釋,定義
softmax():把y vector contain 各種值,轉換成one-hot vector y promt
當binary classification時,多用sigmoid
pyTorch:call cross-entropy時,softmax()會自動被加入到network最後一層,所以TA code中找不到softmax XD
cross-entropy
改變loss function(將error surface鏟平?)可影響optimization時的難易度。
將error surface鏟平的技術之一
convex error surface產生原因
feature normalization
testing時候遇到的問題
batch normalization in CNN
internal covariate shift是否有影響之研究
讓error surface比較不崎嶇的其他方式