# BERTweet - date 2020/5/20 - doc https://huggingface.co/docs/transformers/model_doc/bertweet - arXiv https://arxiv.org/abs/2005.10200 - 引用数(2021/12/06) 136 ## 内容 英語ツイートを事前学習済みの、最初の公開された言語モデル。アーキテクチャはBERT(base)と同じで、事前学習過程がRoBERTaと同じ。ツイートのNLPタスクでSOTAを達成。 ## 学習データ 850Mツイートからなるコーパス 内訳としては、 - 2012/1~2019/8までの4TBのツイートデータのうち、fastTextで英語のみを抽出した845Mツイート - 2020/1~2020/3までのCOVID-19関連のツイートを同様に処理した5Mコーパス ## 実験 下流タスクとして POS(Part of Speech、品詞) タグ付けとNER(Named Entity Recognition、固有表現抽出)、分類タスクを実験。 比較対象として、同じアーキテクチャを持つRoBERTa(base)とXLM-R(base)を使用。 _<center><img src="https://i.imgur.com/nzaPkza.png" width="100%"/><br>左から、POSタグ付け・NER・感情分類(右二つ)の結果。<br>Ritterを除いて、BERTweetが最も精度が高い</center>_ また、2020/9までのコロナ関連ツイート23M文を追加で学習した[BERTweet-COVID19 ](https://huggingface.co/vinai/bertweet-covid19-base-cased)も公開した。 ## ひとこと 特定ドメインを学習させると、そのドメインでは性能が向上することが数値でわかって面白かったです。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up