Try   HackMD

我想大家第一個想法是:跟AI發展有什麼差別嗎?

首先,對於現在的學生應該很難想像,但AI最早以前包含的對象有迴歸分析、機械學習、專家系統等,神經網路反而是資歷比較淺的一環。

再來是神經網路的發展並不全然和AI發展有正相關,不如說正是這些研究者即使AI發展低潮,依然在神經網路上努力,才有了後面等硬體發展到位後能直接迎接又一次的發展期。

因此特別獨立一篇來講講神經網路的發展。

基本建設類

神經網路與神經元

萬年經典神經元:

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

簡單來說,接收許多輸入之後通過一個函式(f,稱為激勵/活化函數)轉換成一個輸出。
最簡單的例子是,大於某個值為1否則為0。

感知機

所謂的神經網路就是由眾多這種神經元所構成的。而剛剛舉的栗子則是我們最早的神經網路:Perceptron 感知機。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

接收一些輸入,把它們加總,通過激活函數並傳遞到輸出層。

前饋神經網路

堆疊一些感知機之後就成為了簡單的前饋神經網路(FF),這是一個很古老的方法——起源於 50 年代。它的工作原理通常遵循以下規則:

  • 所有節點都完全連接
  • 激活從輸入層流向輸出,無迴環
  • 輸入和輸出之間有一層(隱含層)

同時,它被視為是最小的神經網路,甚至現在很多人學神經網路的第一課XOR還是以這個模型為標準。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

深度前饋神經網路

延伸剛剛的概念,我們加多顆、多層神經元後就可以得到第一個深度學習網路:DFF。DFF 深度前饋神經網路在 90 年代初期開啟了深度學習的潘多拉盒子。這些依然是前饋神經網路,但有不止一個隱含層。

我們也曾經在機器人產品上實做過DFF。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

影像類

深度卷積網路

深度卷積網路(DCN)是人工神經網路之星。它具有卷積單元(或者池化層)和內核,每一種都用以不同目的。
卷積核事實上用來處理輸入的數據,池化層是用來簡化它們減少不必要的特徵。通常被用來做圖像識別。目前的影像辨識多屬此類--也是最容易被對抗例擊穿的一類。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

語言類

遞歸神經網路

RNN 遞歸神經網路引入不同類型的神經元——遞歸神經元。這種類型的第一個網路被稱為約旦網路(Jordan Network),在網路中每個隱含神經元會收到它自己的在固定延遲(一次或多次迭代)後的輸出。

如果說,DCN是藉由捲積讓神經元可以感知到一塊區域的抽象特徵,那麼RNN就是藉由遞迴,讓神經元可以感知到不同時段數據的抽象特徵。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

長短期記憶網路

不過,RNN存在一些問題。對於某些抽象規則,可能要更大的時間尺度才能觀察到,但這麼做會使得RNN運算時長大幅拉長。因此出現了一個想法:如果僅將變化劇烈或高效的特徵存起來,平時還是以一般的短程RNN運算,是不是可以解決問題?

因此有了LSTM長短時記憶網路,它可以通過「記住」許多之前發生的事情學習更細緻的規則,常用於自然語言處理。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

大一統時期:萬物歸於特徵空間

AutoEncoder

AutoEncoder 是多層神經網絡的一種非監督式學習算法,稱為自動編碼器,它可以幫助資料分類、視覺化、儲存。
其架構中可細分為 Encoder(編碼器)和 Decoder(解碼器)兩部分,它們分別做壓縮與解壓縮的動作,讓輸出值和輸入值表示相同意義。
直接一點的比喻是,AE學習怎麼把資料變成簡單的向量,並學會怎麼把簡單的向量還原成複雜的、有原先資料特徵的資料。這個資料不限於文字或影像,像聲音這類,只要是可以序列化的資料都可以被壓到這個「簡單」的向量空間中。

要說的話,它有點像以前的主成分分析(PCA),但能抓出更有意義的特徵空間而非單純壓縮。

當然,單純的壓縮還原意義比較小,最多就是有去雜訊的功能。因此在AutoEncoder中通常會對隱藏層後解壓縮的部分做一些約束或規則,讓它還原的東西和原本不同,比方說。

  • 降噪專業的DAE
  • 專精影像的CAE(這邊的C就是卷積網路)
  • 擴散模型核心的VAE

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

Transformer

Transformer模型(直譯為「變換器」)是一種採用自注意力機制的深度學習模型,這一機制可以按輸入資料各部分重要性的不同而分配不同的權重。例如:

She poured water from the pitcher to the cup until it was full.(她將水罐中的水倒入杯子,直至它滿了為止。)
我們知道此句中的「it」是指杯子
She poured water from the pitcher to the cup until it was empty.(她將水罐中的水倒入杯子,直至它空了為止。)
而在這一個句子中的「it」則是指水罐。

很顯然的,兩個句子我們關注的點會是滿和空,藉此推導出it的對象為何,而這就是所謂的注意力。從2017至今,無論是語音或者影像幾乎都被這個模型佔據。

結構上看就是AutoEncode,加上位置與注意力權重:

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

強大的點有以下幾個:

  • Transformer 模型是透過數學尋找元素之間的模式,無須使用加上標籤的大型資料集,即可妥善利用網路和企業資料庫中的海量影像及文字資料。
  • Transformer 模型使用的數學適合進行平行運算,使這些模型可以快速運行。
  • 接近於人類認知資料的方式,至少跟人解釋起來比較簡單

當然也有幾個問題:

  • 大力出奇蹟的同時,代表資料不夠多就無法得到結果
  • 訓練大型 Transformer 模型既耗費成本又耗時
  • 失敗時的成本過高以致於心臟要夠強(?)
  • 後調整比較費事,比方說篩選出GPT的不洽當回應不知道花了多少人力去人工訓練強化學習層

這麼厲害,那現在那些網路是Transformer?

  • 已經成為新的文字AI基底的GPT……
  • 提示生成圖片,其文字轉為生成向量的部分
  • 有機會成為新的影像AI基底模型的CLIP
  • 語音辨識與合成,這邊指的是MockingBird那類的仿造(?)語音合成技術
  • 可能有更多東C……畢竟HuggingFace上面的專案多如繁星