2021/04/08
議論文章のマルチラベル分類分析
概要
- いただいた議論テキストと特徴ラベルからマルチラベル分類を行い、ある発言に特定の特徴が含まれるかを予測する学習モデルを構築した。学習アルゴリズムにはBERTを用いた。
- 結果として、「発言者の意見」「発言者の理由」「コスト・量」に対応する発言の予測が比較的良い精度(F値が0.7以上)となった。
- 「リスク」「風評被害スティグマ」の予測精度が良くなかった。理由としては、これらの特徴を持っ発言数が少なく、十分に学習できていない可能性が考えられる。
環境
- Python3
- Google Colab (GPU使用)
- BERT (Simple TransformersのMultilabelClassificationModelライブラリ)
- bert日本語事前学習モデル → cl-tohoku/bert-base-japanese-whole-word-masking
パラメータ
- 学習率 → 1.7e-4
- 最大シークエンス長 → 512
- エポック数 → 10
学習データ
- いただいたテキスト + 各特徴のラベルがついたもの
- 3人または2人で評価したものをで多数決でラベルを決定(3人ならば2人以上で1、2人なら1人以上で1とみなす)
- 特徴がすべて0のテキスト、またはNaN(値がないもの,例えば進行役のテキストなど)については学習から除外させている。
- 訓練データ数は526、テストデータ数は50
精度
Image Not Showing
Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →
- 左がLRAP、右がTrain_lossのグラフ
- 精度の指標としてLRAP (Label Ranking Average Precision)を使用
- LRAPが1に近いほど正解の特徴に近い予測をしていると言える
- 結果は0.78となった。78%あってそうな予測を出してくれる。
Precision,Recall,F1-Score
Image Not Showing
Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →
No |
特徴 |
Precision |
Recall |
F1-score |
件数(50件中) |
0 |
発言者の意見 |
0.68 |
1.00 |
0.81 |
34 |
1 |
発言者の理由 |
0.64 |
1.00 |
0.78 |
21 |
2 |
尊重なし(他の参加者) |
0.00 |
0.00 |
0.00 |
1 |
3 |
尊重あり(他の参加者) |
0.91 |
0.53 |
0.67 |
19 |
4 |
慮りなし(福島) |
0.00 |
0.00 |
0.00 |
0 |
5 |
慮りあり(福島) |
0.67 |
0.44 |
0.53 |
9 |
6 |
特定の地域・人々への言及 |
0.00 |
0.00 |
0.00 |
2 |
7 |
社会全体の良さ(リスク・コスト・量) |
0.29 |
0.80 |
0.42 |
5 |
8 |
社会全体の良さ(分かち合い・負担軽減) |
0.57 |
0.80 |
0.67 |
5 |
9 |
社会全体の良さ(福島の人々の気持ち) |
0.60 |
0.50 |
0.55 |
6 |
10 |
疑問・論点 |
0.64 |
0.53 |
0.58 |
17 |
11 |
対案・代替案 |
0.00 |
0.00 |
0.00 |
1 |
12 |
まとめようとする発言 |
0.00 |
0.00 |
0.00 |
2 |
13 |
妥協案、和解案 |
0.00 |
0.00 |
0.00 |
0 |
14 |
発言者の体験 |
0.00 |
0.00 |
0.00 |
0 |
15 |
他人の体験 |
0.00 |
0.00 |
0.00 |
0 |
16 |
当事者性 |
0.00 |
0.00 |
0.00 |
0 |
17 |
リスク |
0.25 |
0.20 |
0.22 |
5 |
18 |
コスト・量 |
0.85 |
0.69 |
0.76 |
16 |
19 |
風評被害・スティグマ |
0.00 |
0.00 |
0.00 |
7 |
20 |
発言者の感想 |
0.00 |
0.00 |
0.00 |
1 |
- テストデータ50件での各特徴のPrecison,Recoll,F1-Scoreの一覧
- F1-Scoreが高いものから、「発言者の意見」「発言者の理由」「コスト・量」「尊重あり」「疑問・論点」となっている。
- 意見だったり理由を述べていたり、その意見に賛同している文章はよく予測できると考えられる。
- ラベルが不足しているデータに関してはF1-Scoreは0となっている。