# 5.1 <!--{%hackmd ti1dn9r5TUaNntzUVd3CdQ %}--># 改善神經網路性能的基本技巧 ## 5.1 資料處理 ### 資料是機器學習的關鍵,而資料的好壞取決下列幾點 - 數量 - 品質 ### 在現有條件下增加資料數量和改善品質 - 擷取、生成 - 資料增強、規範化、特徵工程 ## 5.1.1 資料增強(增加資料) - 旋轉、映射、剪貼、變形、濾波、改顏色、對比度、增加雜訊.... - 除了圖片,文字、語音...等也可以使用 - 優點: 節省成本、快速 - 缺點: 跟原本的其他資料有相關性(所以減少相關性也是一個要注意的點) ## 5.1.2 規範化(提高品質) --- why: - 絕對值數值過大-->神經網路數值計算溢位-->梯度爆炸 - 不同尺度的資料特徵-->算出來數值大小不同-->特徵偏見 --- 方法: - 看特徵間的差異大小 - 對整個data進行規範化(normalization) - 對每種特徵進行規範化 :::warning 對驗證集、測試集必須做相同的操作(參數),否則將完全沒有意義 ::: ## 5.1.3 特徵工程 - 因為特徵間常常相互有關連、互相牽制-->影響結果 - 包括 - 前置處理(preprocessing),如規範化 - 資料降唯 - 特徵選擇 - 人工特徵設計 - 特徵學習 ### 1.資料降唯與主成分分析法 - 資料降唯 - 壓縮 - pooling (增加效率) - 主成分分析 - 介紹 - Principal Component Analysis(PCA) - 將data表示為主元的線性組合-->消除特徵間的連結性 - eg: 256\*256 pixel的彩色人臉圖形需3x256x256=196608 pixel表示,透過PCA法可以只用23個數值表示,且保留97%的資訊(部分損失,但極小) - 步驟 - 對各軸中心化(平均值變為0) - 對斜方差矩陣進行SVD分解,得到特徵向量(U)和方差(S),S用來表示資料的發散程度 - 向量分解(拆除特徵關連性) ### 2.白化(Whitening) 降低樣本特徵的關聯性、降低發散程度、避免模型因特徵的方差而偏向某個特徵、並使其有相同的方差 步驟(PCA白化): 1. PCA投影 2. 對每個特徵除以其特徵方差 問題:比較常用的資料降維方法簡稱是什麼?
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up