神經網路發展史

我想大家第一個想法是：跟AI發展有什麼差別嗎？首先，對於現在的學生應該很難想像，但AI最早以前包含的對象有迴歸分析、機械學習、專家系統等，神經網路反而是資歷比較淺的一環。再來是神經網路的發展並不全然和AI發展有正相關，不如說正是這些研究者即使AI發展低潮，依然在神經網路上努力，才有了後面等硬體發展到位後能直接迎接又一次的發展期。因此特別獨立一篇來講講神經網路的發展。 ## 基本建設類 ### 神經網路與神經元萬年經典神經元： ![](https://hackmd.io/_uploads/B1V-inTph.png) 簡單來說，接收許多輸入之後通過一個函式（f，稱為激勵/活化函數）轉換成一個輸出。最簡單的例子是，大於某個值為1否則為0。 ### 感知機所謂的神經網路就是由眾多這種神經元所構成的。而剛剛舉的栗子則是我們最早的神經網路：Perceptron 感知機。 ![](https://hackmd.io/_uploads/By-4j36Th.png) 接收一些輸入，把它們加總，通過激活函數並傳遞到輸出層。 ### 前饋神經網路堆疊一些感知機之後就成為了簡單的前饋神經網路（FF），這是一個很古老的方法——起源於 50 年代。它的工作原理通常遵循以下規則： * 所有節點都完全連接 * 激活從輸入層流向輸出，無迴環 * 輸入和輸出之間有一層（隱含層）同時，它被視為是最小的神經網路，甚至現在很多人學神經網路的第一課XOR還是以這個模型為標準。 ![](https://hackmd.io/_uploads/SJqUj2Tpn.png) ### 深度前饋神經網路延伸剛剛的概念，我們加多顆、多層神經元後就可以得到第一個深度學習網路：DFF。DFF 深度前饋神經網路在 90 年代初期開啟了深度學習的潘多拉盒子。這些依然是前饋神經網路，但有不止一個隱含層。我們也曾經在機器人產品上實做過DFF。 ![](https://hackmd.io/_uploads/B1kai2pan.png) ## 影像類 ### 深度卷積網路深度卷積網路（DCN）是人工神經網路之星。它具有卷積單元（或者池化層）和內核，每一種都用以不同目的。卷積核事實上用來處理輸入的數據，池化層是用來簡化它們減少不必要的特徵。通常被用來做圖像識別。目前的影像辨識多屬此類－－也是最容易被對抗例擊穿的一類。 ![](https://hackmd.io/_uploads/HJgfh3pa2.png) ## 語言類 ### 遞歸神經網路 RNN 遞歸神經網路引入不同類型的神經元——遞歸神經元。這種類型的第一個網路被稱為約旦網路（Jordan Network），在網路中每個隱含神經元會收到它自己的在固定延遲（一次或多次迭代）後的輸出。如果說，DCN是藉由捲積讓神經元可以感知到一塊區域的抽象特徵，那麼RNN就是藉由遞迴，讓神經元可以感知到不同時段數據的抽象特徵。 ![](https://hackmd.io/_uploads/BJASn26a3.png) ### 長短期記憶網路不過，RNN存在一些問題。對於某些抽象規則，可能要更大的時間尺度才能觀察到，但這麼做會使得RNN運算時長大幅拉長。因此出現了一個想法：如果僅將變化劇烈或高效的特徵存起來，平時還是以一般的短程RNN運算，是不是可以解決問題？因此有了LSTM長短時記憶網路，它可以通過「記住」許多之前發生的事情學習更細緻的規則，常用於自然語言處理。 ![](https://hackmd.io/_uploads/H1mG63aph.png) ## 大一統時期：萬物歸於特徵空間 ### AutoEncoder AutoEncoder 是多層神經網絡的一種非監督式學習算法，稱為自動編碼器，它可以幫助資料分類、視覺化、儲存。其架構中可細分為 Encoder（編碼器）和 Decoder（解碼器）兩部分，它們分別做壓縮與解壓縮的動作，讓輸出值和輸入值表示相同意義。直接一點的比喻是，AE學習怎麼把資料變成簡單的向量，並學會怎麼把簡單的向量還原成複雜的、有原先資料特徵的資料。這個資料不限於文字或影像，像聲音這類，只要是可以序列化的資料都可以被壓到這個「簡單」的向量空間中。要說的話，它有點像以前的主成分分析（PCA），但能抓出更有意義的特徵空間而非單純壓縮。當然，單純的壓縮還原意義比較小，最多就是有去雜訊的功能。因此在AutoEncoder中通常會對隱藏層後解壓縮的部分做一些約束或規則，讓它還原的東西和原本不同，比方說。 * 降噪專業的DAE * 專精影像的CAE（這邊的C就是卷積網路） * 擴散模型核心的VAE ![](https://hackmd.io/_uploads/HJICg6aTn.png) ### Transformer Transformer模型（直譯為「變換器」）是一種採用自注意力機制的深度學習模型，這一機制可以按輸入資料各部分重要性的不同而分配不同的權重。例如： >She poured water from the pitcher to the cup until it was full.（她將水罐中的水倒入杯子，直至它滿了為止。）我們知道此句中的「it」是指杯子 She poured water from the pitcher to the cup until it was empty.（她將水罐中的水倒入杯子，直至它空了為止。）而在這一個句子中的「it」則是指水罐。很顯然的，兩個句子我們關注的點會是滿和空，藉此推導出it的對象為何，而這就是所謂的注意力。從2017至今，無論是語音或者影像幾乎都被這個模型佔據。結構上看就是AutoEncode，加上位置與注意力權重： ![](https://hackmd.io/_uploads/B1z7Xppp2.png) 強大的點有以下幾個： * Transformer 模型是透過數學尋找元素之間的模式，無須使用加上標籤的大型資料集，即可妥善利用網路和企業資料庫中的海量影像及文字資料。 * Transformer 模型使用的數學適合進行平行運算，使這些模型可以快速運行。 * 接近於人類認知資料的方式，至少跟人解釋起來比較簡單當然也有幾個問題： * 大力出奇蹟的同時，代表資料不夠多就無法得到結果 * 訓練大型 Transformer 模型既耗費成本又耗時 * 失敗時的成本過高以致於心臟要夠強（？） * 後調整比較費事，比方說篩選出GPT的不洽當回應不知道花了多少人力去人工訓練強化學習層這麼厲害，那現在那些網路是Transformer？ * 已經成為新的文字AI基底的GPT…… * 提示生成圖片，其文字轉為生成向量的部分 * 有機會成為新的影像AI基底模型的CLIP * 語音辨識與合成，這邊指的是MockingBird那類的仿造（？）語音合成技術 * 可能有更多東C……畢竟HuggingFace上面的專案多如繁星