Try   HackMD
tags: nlp

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

ICLR 2020

abstract

  • 隨著參數增加模型效能也會隨之增加,但並不是所有環境都能跑巨大的語言模型
  • 開發了兩種參數節省的方式並減少訓練時間
  • 提出 self-supervised loss 來讓模型內部更具有連貫性 並讓下游任務執行得更好
  • 用更少的參數在 GLUE, RACE, and SQuAD benchmarks 都超越 bert-large

動機

改進的點

factorized embedding parameterization

  • 透過因式分解,把超巨大的 vocabulary embedding matrix 給分解成兩個小矩陣,並把 hidden size 跟 word embedding size 給區分開來,這樣即便 hidden size 增加,word embedding size 也不用隨之增加

cross-layer parameter sharing

  • 避免參數量隨著深度增加而變多

sentence-order prediction (SOP).

  • self-supervised loss for sentence-order prediction (SOP)

  • sop 主要在增強句子間的連貫性,並改進 bert 原始提出的 next sentence predicting

  • 根據以上三點,可以讓 albert 在參數量更少的情況超越 bert,並且在架構接近的情況下,訓練速度可以1.7x倍,並且節省 18x 的參數

    • RACE accuracy to 89.4%
    • e GLUE benchmark to 89.4
    • e F1 score of SQuAD 2.0 to 92.2.

Related work

SCALING UP REPRESENTATION LEARNING FOR NATURAL LANGUAGE

  • Task-specific fine-tuning (動機一提到的三篇) 開啟了大 fine-tune 時代,而根據研究,模型的 hidden size 或是層數越多效果就越好。
  • 現有的論文只解決了速度問題
    • Chen et al. (2016) 提出了 gradient checkpointing 來減少記憶體需求
    • Gomez et al. (2017) ropose a way to reconstruct each layer’s activations from the next layer,這樣就不用儲存中間的 activations

CROSS-LAYER PARAMETER SHARIN

https://blog.csdn.net/orangerfun/article/details/106018818

SENTENCE ORDERING OBJECTIVE

模型架構