or
or
By clicking below, you agree to our terms of service.
New to HackMD? Sign up
Syntax | Example | Reference | |
---|---|---|---|
# Header | Header | 基本排版 | |
- Unordered List |
|
||
1. Ordered List |
|
||
- [ ] Todo List |
|
||
> Blockquote | Blockquote |
||
**Bold font** | Bold font | ||
*Italics font* | Italics font | ||
~~Strikethrough~~ | |||
19^th^ | 19th | ||
H~2~O | H2O | ||
++Inserted text++ | Inserted text | ||
==Marked text== | Marked text | ||
[link text](https:// "title") | Link | ||
 | Image | ||
`Code` | Code |
在筆記中貼入程式碼 | |
```javascript var i = 0; ``` |
|
||
:smile: | ![]() |
Emoji list | |
{%youtube youtube_id %} | Externals | ||
$L^aT_eX$ | LaTeX | ||
:::info This is a alert area. ::: |
This is a alert area. |
On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?
Please give us some advice and help us improve HackMD.
Syncing
xxxxxxxxxx
[Self-supervised] Self-supervised Learning 與 Vision Transformer重點筆記與近期發展
tags:
Literature Reading
Self-supervised
Transformer
AI / ML領域相關學習筆記入口頁面
一、 Self-supervised Learning(SSL)
概念
蛋糕類比
Self-supervised learning: The dark matter of intelligence
圖靈獎得主 Yann LeCun關於自監督學習的見解,也是更著重在用更少的標籤,或著讓模型自己去挖掘、學習分辨資料的特性,取代人為主觀、分類的標籤(監督式方法)
實作方法上的解讀(見圖1):
替數據加上標籤非常的昂貴(人力、時間、財力上),而無標籤的數據集成本相對低廉且易於取得
因此,自監督學習(SSL)的訓練分為兩階段:
![圖1 自監督學習(SSL)的訓練兩階段]

圖1: [自監督學習(SSL)的訓練階段]
(https://zhuanlan.zhihu.com/p/381354026)
Self-Supervised Learning 不僅是在NLP領域,在CV, 語音領域也有很多經典的工作,如下圖2所示。它可以分成3類:Data Centric, Prediction (也叫 Generative) 和 Constractive。
图2:各領域Self-Supervised Learning
SSL近期研究進展
待補
推薦學習資源
二、 注意力機制
Attention Mechanism概念與脈絡
Attention is a core ingredient of ‘conscious’ AI (ICLR 2020 Yoshua Bengio)
人類的視覺注意力焦點
注意力模型家族
三、 Self-Attention與Transformer
Transformer模型的整體結構
第四大類深度學型模型
On the Opportunities and Risks of Foundation Models
與CNN、RNN對比
四、Transformer在視覺領域的突破
Vision Transformer(ViT)
原始論文:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
模型主架構
圖1:模型概述。我們將圖像分割成固定大小的圖像塊(image patch/token),對每個圖像塊進行線性嵌入並添加位置資訊,並將得到的向量序列送入一個標準的Transformer編碼器。
相對於NLP領域的每個輸入單位使用的是Word Embedding,本篇論文提出了Patch Embedding作法,將影像切分為圖塊向量
詳見Vision Transformer(ViT)重點筆記
五、 Self-Supervised x ViT
Masked Autoencoders: 結合Self-Supervised與ViT
原始論文: :2111.06377 Masked Autoencoders Are Scalable Vision Learners
Deep Learning相關筆記
Self-supervised Learning
Object Detection
ViT與Transformer相關
Autoencoder相關