AI - HackMD

AI === ###### tags: `AI` # 神經網路名詞 ## 神經元神經網路的基本單元，包括特定數量的數入和一個偏移植。當一個信號(value)輸入，他會乘以一個權重值。如果一個神經元有四個輸入，則有4個可以在訓練中調節的權重值。 ![](https://i.imgur.com/0v89Eqv.png) ![](https://i.imgur.com/Qpcx9K9.png) 神經網路中一個神經元的運算。 ## 連接 ![](https://i.imgur.com/Rv1ggBM.png) 連接：負責連接同層或兩層之間的神經元，一個連接總是帶有一個權重值。訓練的目標是更新這一權重值以降低誤差(損失)。 ## 偏移(Offset) ![](https://i.imgur.com/0V698bf.png) 神經元的額外輸入，值總是1，並有自記的連接權重。確保即使當所有的輸入為0時，神經元中也在一個激活函數。 ## 激活函數激活函數負責偽神經網路引入非線性特徵。 ![](https://i.imgur.com/aZwGz05.png) [神經網路中的激活函數](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650732724&idx=4&sn=5230b8bb1811cda38ab97afb417d1613&chksm=871b3ccab06cb5dcdf0bdfadcc7ae85d8ae95588bed0b884a55ba50b76d541771104675fbb3e&scene=21#wechat_redirect) ## 神經網路 ![](https://i.imgur.com/EJYsyw2.png) 基本的神經網路設計 ### 輸入層神經網路的第一層。它接收輸入信號(值)並將其傳遞到下一層。但不對輸入信號進行任何運算。他沒有自己的權重和偏移值。上圖身經網路有四個輸入信號X1,X2,X3,X4。 ### 隱藏層隱藏層的神經元，通過不同方式轉換輸入層數據。一個隱藏曾是一個垂直stack的神經元集。如上圖有5個隱藏層，第一個引層曾有四個神經元(節點)，以此類推，最後一個隱藏層把直傳遞給輸出層。隱藏層中所有神經元彼此相連，得到一個權連接的隱藏層。 ### 輸出層神經網路的最後一層，皆熟來自最後一個隱藏層的輸入。通過他我們可以得到合理範圍內的理想數值。該神經網路有3個神經元，分別輸出y1,y2,y3。 ### 輸入型狀狀傳遞到輸入層的矩陣形狀。舉例來說，上圖神經網路輸入曾有四個神經元，他預計一個樣本中需要有四個值，若一次傳送一個樣本，則該網路輸入的理想形狀是(1,4,1)，若傳送100個樣本，則輸入形狀是(100,4,1)。 ### 權重(參數) 權重表示不同單元間連接的強度。如果從節點1到節點2的權重有較大的數值，表示神經元1對神經元2有較大影響力。一個權重降低了輸入值得重要性。權重近於0表示改變這一輸入將不貴改變輸出。負權重表示曾負權重表增加此一署入會降低輸出。權重決定著輸入對輸出的影響力。 ### 向前傳播 ![](https://i.imgur.com/nWYIuo6.png) 向前傳播是將輸入值貴送至神經網路的過程，並獲得一個稱時我們冶將向前傳播稱為推斷。當當我們饋送輸入直到神經網，他不座任何運他不執行任何運算。第二層接受第一層的值，接著執行乘法、加法、和激活運算，然後傳遞至下一層，後續的層重複相同過程，最後我們從最後一層或的輸出值。 ## 反向傳播 ![](https://i.imgur.com/hNrGhEo.png) 向前傳播後我們得到一個輸出值，即預測值，為了計算誤差我們對比了帶有真實輸出值得預測值。我們使用一個損失函數計算誤差值。接著我們計算每個誤差值的導數和神經網路中的每個權重。反向傳播運用微分中[鏈式法則](https://zh.wikipedia.org/wiki/%E9%93%BE%E5%BC%8F%E6%B3%95%E5%88%99)，在其中最後一層中每我們使用這些導數、梯度，並使用這些梯度值計算導數第二層中的梯度，並重複這一過程直到獲得梯度以及每個權重。接折將權種植從中減去這一梯度以降低誤差。通過這種方式不斷接近局部最小值。 ## 學習率神經網路的時候通常會使梯度下降優化權重。在每一次一代中使用反向傳遞計算損失函數對每個權重的導數，並從當前權重減去導數和學習率的乘積。學習率決定了更新權重(參數)值得快慢。學習率應盡量提高而不會花費太多時間達到收斂，也應該近可能降低從而找到局部最優。 ![](https://i.imgur.com/Z3z3lo1.png) ## 精度和召回率 ![](https://i.imgur.com/0V2xOGJ.png) ### 準確率測直對標準(或已知)值得接近程度。 ### 精度兩個測量值之間的接近程度，表示測量的可重複性或可再現性。 ### 召回率(敏感度) 檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率。 ### 公式 ![](https://i.imgur.com/nQ2uhxB.png) Tp(True postiive)，Tn(True negative)，Fp(False positive)，Fn(False negative)。 eg: 手上有60個正樣本40個負樣本，交給系統判斷，系統檢索出50個，其中只有40個是正樣本。 Tp:將正類預測為正類40 Fn:將正類預測成負類20 Fp:將負類預測成正類10 Tn:將負類預測為負類30 Accuracy:(40+30)/(100)=70% Precision:40/(50)=80% Recall:(2\*0.7\*.08)/1.5=2/3 ### 混淆矩陣 by wiki >在人工智慧中，混淆矩陣（英語：confusion matrix）是可視化工具，特別用於監督學習，在無監督學習一般叫做匹配矩陣。矩陣的每一列代表一個類的實例預測，而每一行表示一個實際的類的實例。基於實際的名稱可以更容易判斷機器是否將兩個不同的類混淆了。在機器學習領域，混淆矩陣通常被稱為列聯表或誤差矩陣。 > ![](https://i.imgur.com/fvO3WOF.png) ### 收斂隨著迭代次數增加，輸出越來越接近具體的值。 ### 正規劃(Regularization) >正则化—用于克服过拟合问题。正则化过程中通过添加一个 L1（LASSO）或 L2（Ridge）规范到权重向量 w（通过给定算法学习到的参数）上以「惩罚」损失项： L（损失函数）+λN（w）—这里的λ是正则项，N（w）是 L1 或 L2 规范。 https://blog.csdn.net/jinping_shi/article/details/52433975 ### 歸一化(dummy) 將多個或一個屬性縮放置0到1的範圍的過程。當不知道數據分佈或分佈不是高斯分佈(常態分配)的時候，皈依化可加速學習過程。 ### 全連階層一個層所有的節點的激活函數作為下一層的每隔節點的輸入，若若這對所有的層層都成立，則稱這些為全連階層。 ### 損失函數/代價函數損失函數計算擔個訓練樣本的誤差，代價函數是整個訓練集中的損失函數的平均。 * mse:平均方差 * binary_crossentropy:二分類數對數損失(logloss) * categorical crosssentropy:多分類對數損失(logloss) ### 模型優化器優化器器是一種搜索技術，用於更新模型的權重。 * SGD * RMSprop * Adam ### 性能指標用於測量神經網路中性能的指標，例如:準準確率、損失、驗證準確率、驗證損失、平均絕對誤差、精度、召回率、f1分數等等。 ### 批大小一次向前/反向傳播中是用的樣本數，批大小越大，佔用的記憶體。 ### 訓練epochs 模型模型在訓練數據集中重複訓練的總次數一個epoc＝全全部訓練實例的一次向前和一次反向傳播。 ## Something interesting [LLM Visualization](https://bbycroft.net/llm) [LLM benchmark](https://llm.aidatatools.com/results-linux.php)