nlp
ICLR 2020
Full network pre-training (Dai & Le, 2015
; Radford et al., 2018
; Devlin et al., 2019
; Howard & Ruder, 2018) 所提出的概念讓 nlp 界有了巨大突破。最值得注目的是在中國的 RACE test (初中和高中的閱讀理解考試) 準確率達到了 44.1%,現在最高為 83.2%,而本論文進步到了 89.4%。
目前的模型都太大了,而且要訓練很久。而大部分人的做法都是去 distill (蒸餾) 這些大模型來做實際應用,或是讓模型平行化 / 記憶體管理來解決硬體限制,但這並沒有解決模型本身肥大的問題,所以他們透過二種方式來節省 bert 的參數,並叫做 albert(a lite bert)
self-supervised loss for sentence-order prediction (SOP)
sop 主要在增強句子間的連貫性,並改進 bert 原始提出的 next sentence predicting
根據以上三點,可以讓 albert 在參數量更少的情況超越 bert,並且在架構接近的情況下,訓練速度可以1.7x倍,並且節省 18x 的參數
Chen et al. (2016)
提出了 gradient checkpointing 來減少記憶體需求Gomez et al. (2017)
ropose a way to reconstruct each layer’s activations from the next layer,這樣就不用儲存中間的 activationshttps://blog.csdn.net/orangerfun/article/details/106018818
在 Attention is all you need (Vaswani et al. , 2017) 的論文提出了跨層的參數共享,但主要應用在 encoder-decoder 環節,而不是在 pretraining/finetuing。
UNIVERSAL TRANSFORMERS ,(Dehghani et al. 2018) 提出跨層參數共享可以比一般的 transformer 好