ALBERT - HackMD

# ALBERT ## 基本情報 - date 2019/9/26 - doc https://huggingface.co/docs/transformers/model_doc/albert - arxiv https://arxiv.org/abs/1909.11942 - 引用数(2021/12/04) 2192 ## 内容 BERTの少パラメータ省メモリ版("**A** **L**ite" version of **BERT**)。 BERTより少パラメータにも関わらず、GLUE・RACE・SQuADベンチマークで当時SOTA達成。パラメータ削減のために以下の二つを行った、 - BERTでは単語の埋め込み層($E$)の次元と隠れ層($H$)の次元が同じ$(E=H)$ 故に単語の多さに対して隠れ層の次元の小ささが相容れない関係にある。そこで単語の埋め込み層を2つの小さな行列 $O(V × H )→O(V × E + E × H)$ に分解することで、単語埋め込み層の次元を上げることなく隠れ層の次元を上げることが可能に。 - FFN・attention全てのパラメータを層で共有する。 ![](https://i.imgur.com/1pSoE70.png) _<center>ALBERTはBERTよりパラメータが少なく、隠れ層の次元が単語埋め込み層の次元に比べて大きい。</center>_ 18倍少ないパラメータで1.7倍速いパフォーマンスを実現。また、next sentence prediction(NSP) の無効性を考慮し、sentence-order prediction (SOP)を導入。SOPは下流タスクの改善に有効であることを示した。 ![](https://i.imgur.com/MaX6EsA.png) その他、2019年時点でGLUEベンチマークでSOTA・パラメータ共有の手法と精度への寄与の検証・追加データの精度への寄与の検証・drououtを無くすと下流タスクの精度向上など。 ## ひとこと matrixの複数形ってmatricesなんですね