tags: `nlp`

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

ICLR 2020

abstract

隨著參數增加模型效能也會隨之增加，但並不是所有環境都能跑巨大的語言模型
開發了兩種參數節省的方式並減少訓練時間
提出 self-supervised loss 來讓模型內部更具有連貫性並讓下游任務執行得更好
用更少的參數在 GLUE, RACE, and SQuAD benchmarks 都超越 bert-large

動機

Full network pre-training (Dai & Le, 2015; Radford et al., 2018; Devlin et al., 2019; Howard & Ruder, 2018) 所提出的概念讓 nlp 界有了巨大突破。最值得注目的是在中國的 RACE test (初中和高中的閱讀理解考試) 準確率達到了 44.1%，現在最高為 83.2%，而本論文進步到了 89.4%。
目前的模型都太大了，而且要訓練很久。而大部分人的做法都是去 distill (蒸餾) 這些大模型來做實際應用，或是讓模型平行化 / 記憶體管理來解決硬體限制，但這並沒有解決模型本身肥大的問題，所以他們透過二種方式來節省 bert 的參數，並叫做 albert(a lite bert)

改進的點

factorized embedding parameterization

透過因式分解，把超巨大的 vocabulary embedding matrix 給分解成兩個小矩陣，並把 hidden size 跟 word embedding size 給區分開來，這樣即便 hidden size 增加，word embedding size 也不用隨之增加

避免參數量隨著深度增加而變多

sentence-order prediction (SOP).

self-supervised loss for sentence-order prediction (SOP)
sop 主要在增強句子間的連貫性，並改進 bert 原始提出的 next sentence predicting
根據以上三點，可以讓 albert 在參數量更少的情況超越 bert，並且在架構接近的情況下，訓練速度可以1.7x倍，並且節省 18x 的參數
- RACE accuracy to 89.4%
- e GLUE benchmark to 89.4
- e F1 score of SQuAD 2.0 to 92.2.

SCALING UP REPRESENTATION LEARNING FOR NATURAL LANGUAGE

Task-specific fine-tuning (動機一提到的三篇) 開啟了大 fine-tune 時代，而根據研究，模型的 hidden size 或是層數越多效果就越好。
現有的論文只解決了速度問題
- Chen et al. (2016) 提出了 gradient checkpointing 來減少記憶體需求
- Gomez et al. (2017) ropose a way to reconstruct each layer’s activations from the next layer，這樣就不用儲存中間的 activations

CROSS-LAYER PARAMETER SHARIN

https://blog.csdn.net/orangerfun/article/details/106018818

在 Attention is all you need (Vaswani et al. , 2017) 的論文提出了跨層的參數共享，但主要應用在 encoder-decoder 環節，而不是在 pretraining/finetuing。
UNIVERSAL TRANSFORMERS ,(Dehghani et al. 2018) 提出跨層參數共享可以比一般的 transformer 好

SENTENCE ORDERING OBJECTIVE

ALBERT 在預訓練階段，透過預測兩個句子的順序來當作 loss
目前已有許多語句連貫與銜接 (Coherence and cohesion) 的研究，而跟本文最接近的是 Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning (Jernite et al. (2017)) 提出透過預測兩個句子的順序來訓練 sentence embedding。 BERT 則是用預測兩段句子是否是相連的來訓練
這篇論文比較兩者，發現預測 sentence 順序更困難，並在下游任務更有效，

模型架構