###### tags: `nlp`
# ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
> ICLR 2020
# abstract
+ 隨著參數增加模型效能也會隨之增加,但並不是所有環境都能跑巨大的語言模型
+ 開發了兩種參數節省的方式並減少訓練時間
+ 提出 self-supervised loss 來讓模型內部更具有連貫性 並讓下游任務執行得更好
+ 用更少的參數在 GLUE, RACE, and SQuAD benchmarks 都超越 bert-large
# 動機
+ Full network pre-training (`Dai & Le, 2015`; `Radford et al., 2018`; `Devlin et al., 2019`; Howard & Ruder, 2018) 所提出的概念讓 nlp 界有了巨大突破。最值得注目的是在中國的 RACE test (初中和高中的閱讀理解考試) 準確率達到了 44.1%,現在最高為 83.2%,而本論文進步到了 89.4%。
+ [Dai & Le, 2015,Semi-supervised Sequence Learning](https://papers.nips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf)
+ [ Radford et al. Improving language
understanding by generative pre-training](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf)
+ [ Devlin et al., 2019, BERT: Pre-training of deep
bidirectional transformers for language understanding](https://aclanthology.org/N19-1423/)
+ 目前的模型都太大了,而且要訓練很久。而大部分人的做法都是去 distill (蒸餾) 這些大模型來做實際應用,或是讓模型平行化 / 記憶體管理來解決硬體限制,但這並沒有解決模型本身肥大的問題,所以他們透過二種方式來節省 bert 的參數,並叫做 albert(a lite bert)
# 改進的點
## factorized embedding parameterization
+ 透過因式分解,把超巨大的 vocabulary embedding matrix 給分解成兩個小矩陣,並把 hidden size 跟 word embedding size 給區分開來,這樣即便 hidden size 增加,word embedding size 也不用隨之增加
## cross-layer parameter sharing
+ 避免參數量隨著深度增加而變多
## sentence-order prediction (SOP).
+ self-supervised loss for sentence-order prediction (SOP)
+ sop 主要在增強句子間的連貫性,並改進 bert 原始提出的 next sentence predicting
+ 根據以上三點,可以讓 albert 在參數量更少的情況超越 bert,並且在架構接近的情況下,訓練速度可以1.7x倍,並且節省 18x 的參數
+ RACE accuracy to 89.4%
+ e GLUE benchmark to 89.4
+ e F1 score of SQuAD 2.0 to 92.2.
# Related work
## SCALING UP REPRESENTATION LEARNING FOR NATURAL LANGUAGE
+ Task-specific fine-tuning (動機一提到的三篇) 開啟了大 fine-tune 時代,而根據研究,模型的 hidden size 或是層數越多效果就越好。
+ 現有的論文只解決了速度問題
+ `Chen et al. (2016)` 提出了 gradient checkpointing 來減少記憶體需求
+ `Gomez et al. (2017)` ropose a way to reconstruct each layer’s activations from the next layer,這樣就不用儲存中間的 activations
## CROSS-LAYER PARAMETER SHARIN
https://blog.csdn.net/orangerfun/article/details/106018818
+ 在 [Attention is all you need (Vaswani et al. , 2017)](https://arxiv.org/pdf/1706.03762.pdf) 的論文提出了跨層的參數共享,但主要應用在 encoder-decoder 環節,而不是在 pretraining/finetuing。
+ [UNIVERSAL TRANSFORMERS ,(Dehghani et al. 2018)](https://arxiv.org/pdf/1807.03819.pdf) 提出跨層參數共享可以比一般的 transformer 好
## SENTENCE ORDERING OBJECTIVE
+ ALBERT 在預訓練階段,透過預測兩個句子的順序來當作 loss
+ 目前已有許多語句連貫與銜接 (Coherence and cohesion) 的研究,而跟本文最接近的是 [**Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning (Jernite et al. (2017))** ](https://arxiv.org/pdf/1705.00557.pdf) 提出透過預測兩個句子的順序來訓練 sentence embedding。 BERT 則是用預測兩段句子是否是相連的來訓練
+ 這篇論文比較兩者,發現預測 sentence 順序更困難,並在下游任務更有效,
# 模型架構