Literature Reading
Self-Attention
Transformer
ViT
Attention is a core ingredient of ‘conscious’ AI (ICLR 2020 Yoshua Bengio)
注意力機制(Attention),即人(或算法)一次專注於單個元素或多個元素的機制,是機器學習中的一種數據處理方法,廣泛應用在自然語言處理、圖像識別及語音識別等各種不同類型的機器學習任務中。
Bengio在其著作《Thinking, Fast and Slow》中描述了以美國心理學和經濟學家丹尼爾•卡尼曼(Daniel Kahneman)提出的認知系統。
- 第一種是無意識的——它是直覺的和快速的,非語言和習慣性的,它只處理隱性的知識。
- 第二種是有意識的——它是語言和算法的,它結合了推理和計劃,以及明確的知識形式。
人類的視覺注意力焦點
注意力模型家族
代號註記
自注意力機制特色
模型架構
每個單詞同時去計算自己本身與所有單詞的相似性,來得到注意力分數
可理解為在所有詞庫中,建立所有單詞間的相似性分數矩陣
所有句子中的每個單詞(token/sequence)本身同時作為Query與Key,Value
注意力分數
關注力權重 = Q x K
encoder :
decoder :
以當前embedding vector作為Q,在encoder所學習到的注意力矩陣中進行查詢
在推論時,
Scaled Dot-Product Attention 縮放後的點積注意力