Literature Reading
Self-supervised
Transformer
蛋糕類比
“If intelligence is a cake, the bulk of the cake is self-supervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).”
-Yann LeCun, ICIP 2019
Self-supervised learning: The dark matter of intelligence
圖靈獎得主 Yann LeCun關於自監督學習的見解,也是更著重在用更少的標籤,或著讓模型自己去挖掘、學習分辨資料的特性,取代人為主觀、分類的標籤(監督式方法)
一個工作假設是,關於世界的概括性知識,或常識,構成了人類和動物的生物智慧的大部分。 這種常識能力在人類和動物中被認為是理所當然的,但從一開始就一直是人工智慧研究中的一個公開挑戰。 在某種程度上,常識是人工智慧的暗物質。
常識幫助人們學習新技能,而不需要為每一項任務進行大量的教學。 例如,如果我們只給小孩子看幾張牛的畫,他們最終就能認出他們看到的任何牛。 相比之下,用監督學習訓練的人工智慧系統需要許多奶牛圖像的例子,並且可能仍然無法對不尋常情況下的奶牛進行分類,例如躺在海灘上。 為什麼人類可以在很少的監督下,在大約20個小時的練習中學會駕駛汽車,而我們最好的人工智慧系統在用人類司機數千小時的數據訓練后仍然無法實現完全自主駕駛? 簡短的答案是,人類依靠他們以前獲得的關於世界如何運作的背景知識。
我們相信,自監督學習(self-supervised learning,SSL)是建立這種背景知識,並在 AI 系統中建立一種近似常識形式的最有前途的方法之一。自監督學習讓 AI 系統能夠從很少的數據中學習知識,這樣才能識別和理解世界上更微妙、更不常見的表示形式
實作方法上的解讀(見圖1):
替數據加上標籤非常的昂貴(人力、時間、財力上),而無標籤的數據集成本相對低廉且易於取得
因此,自監督學習(SSL)的訓練分為兩階段:
![圖1 自監督學習(SSL)的訓練兩階段]
圖1: [自監督學習(SSL)的訓練階段]
Self-Supervised Learning 不僅是在NLP領域,在CV, 語音領域也有很多經典的工作,如下圖2所示。它可以分成3類:Data Centric, Prediction (也叫 Generative) 和 Constractive。
待補
推薦學習資源
Attention is a core ingredient of ‘conscious’ AI (ICLR 2020 Yoshua Bengio)
注意力機制(Attention),即人(或算法)一次專注於單個元素或多個元素的機制,是機器學習中的一種數據處理方法,廣泛應用在自然語言處理、圖像識別及語音識別等各種不同類型的機器學習任務中。
Bengio在其著作《Thinking, Fast and Slow》中描述了以美國心理學和經濟學家丹尼爾•卡尼曼(Daniel Kahneman)提出的認知系統。
- 第一種是無意識的——它是直覺的和快速的,非語言和習慣性的,它只處理隱性的知識。
- 第二種是有意識的——它是語言和算法的,它結合了推理和計劃,以及明確的知識形式。
人類的視覺注意力焦點
注意力模型家族
圖1:模型概述。我們將圖像分割成固定大小的圖像塊(image patch/token),對每個圖像塊進行線性嵌入並添加位置資訊,並將得到的向量序列送入一個標準的Transformer編碼器。
相對於NLP領域的每個輸入單位使用的是Word Embedding,本篇論文提出了Patch Embedding作法,將影像切分為圖塊向量