2021/04/08

議論文章のマルチラベル分類分析

いただいた議論テキストと特徴ラベルからマルチラベル分類を行い、ある発言に特定の特徴が含まれるかを予測する学習モデルを構築した。学習アルゴリズムにはBERTを用いた。
結果として、「発言者の意見」「発言者の理由」「コスト・量」に対応する発言の予測が比較的良い精度（F値が0.7以上）となった。
「リスク」「風評被害スティグマ」の予測精度が良くなかった。理由としては、これらの特徴を持っ発言数が少なく、十分に学習できていない可能性が考えられる。

Image Not Showing Possible Reasons

Image Not Showing Possible Reasons

No	特徴	Precision	Recall	F1-score	件数(50件中)
0	発言者の意見	0.68	1.00	0.81	34
1	発言者の理由	0.64	1.00	0.78	21
2	尊重なし（他の参加者）	0.00	0.00	0.00	1
3	尊重あり（他の参加者)	0.91	0.53	0.67	19
4	慮りなし（福島）	0.00	0.00	0.00	0
5	慮りあり（福島）	0.67	0.44	0.53	9
6	特定の地域・人々への言及	0.00	0.00	0.00	2
7	社会全体の良さ（リスク・コスト・量）	0.29	0.80	0.42	5
8	社会全体の良さ（分かち合い・負担軽減）	0.57	0.80	0.67	5
9	社会全体の良さ（福島の人々の気持ち）	0.60	0.50	0.55	6
10	疑問・論点	0.64	0.53	0.58	17
11	対案・代替案	0.00	0.00	0.00	1
12	まとめようとする発言	0.00	0.00	0.00	2
13	妥協案、和解案	0.00	0.00	0.00	0
14	発言者の体験	0.00	0.00	0.00	0
15	他人の体験	0.00	0.00	0.00	0
16	当事者性	0.00	0.00	0.00	0
17	リスク	0.25	0.20	0.22	5
18	コスト・量	0.85	0.69	0.76	16
19	風評被害・スティグマ	0.00	0.00	0.00	7
20	発言者の感想	0.00	0.00	0.00	1