# BARThez ## 基本情報 - date 2020/10/23 - doc https://huggingface.co/docs/transformers/model_doc/barthez - arxiv https://arxiv.org/abs/2010.12321 - 引用数(2021/12/04) 10 ## 内容 初めて大規模にフランス語でseq2seqを事前学習した論文。名前に含まれるように、ベースはBARTのため、同様にテキスト生成の精度が高い。 フランス語で学習したBERT系のモデルは[mBART](https://arxiv.org/abs/2001.08210)、[CamemBERT](https://arxiv.org/abs/1911.03894)(フランス料理カマンベールチーズと同じ綴り)、 [FlauBERT](https://arxiv.org/abs/1912.05372)など既に存在するが、それらよりもテキスト生成に適合している。さらに、mBARTを追加でBARThezのコーパスで学習させた(mBARThez)ところ、BARThezの性能を上回った。 また要約データセットXSumのフランス語に相当するOrangeSumを作成。 _<center><img src="https://i.imgur.com/Swn2YwP.png"/><br>作成したモデルと関連する数値</center>_ _<center><img src="https://i.imgur.com/1izm7Yt.png"/><br>OrangeSumによる結果</center>_ ### ネイティブスピーカーによる評価 3つの評価軸でネイティブスピーカーの評価を受け、Best-Worst Scalingを行った - 正確さ 要約は正しい事実を含んでいるか - 情報生 要約は文章の重要な情報を捉えているか - 流暢さ 要約はきちんとしたフランス語で書かれているか ![](https://i.imgur.com/rHgw9Ll.png) 今回作成したモデルが最も高い。 ## ひとこと CamemBERT:フランス料理カマンベールチーズと同じ綴り、FlauBert:同名のフランスの小説家が存在 BARThez:フランスに姓が存在 で笑いましたw日本語で同じ名前考えようにも、`*ばあと*`って言葉ほとんど聞かないから難しいですね