Try   HackMD

安田システムでIBISノードタイプを考慮した処理を試す

  • アプローチ0: 2013年のIBISノードタイプなしで学習させる

    • 入力: 全ての入力データでテキスト情報のみ
    • 出力: 入力した後続候補テキストが後続しやすいか
  • 仮説A: IBISノードタイプを考慮したら、関連情報の質が向上する

  • 問題点: IBISノードタイプがアノテーションされたデータは、2013年のデータだけ

  • アプローチ1: 2013年のデータだけで学習させる

    • 入力:全ての入力データでテキスト情報+IBISノードタイプが使える
    • 出力: (1)入力した後続候補テキストが後続しやすいか、(2) 入力した先行テキストのIBISノードタイプ、(3)入力した後続候補テキストのIBISノードタイプ
  • 仮説B: IBISノードタイプがアノテーションされた2013年のデータだけでなく、アノテーションのない2016年や2019年のデータも併用した方が関連情報の質が向上する。なぜなら、2016年や2019年のデータにはIBISノードタイプは無いが、テキスト情報(「~が問題だ」「~が望ましい」「~が利点だ」)が含まれているため、IBISノードタイプが入力に含まれていなくても、性能向上に寄与すると考えられるため。

  • アプローチ2: 2013年のIBISノードタイプ付きデータと、他の年のIBISノードタイプ無しデータを併用して学習する

    • 入力:一部の入力データではテキスト情報+IBISノードタイプ、その他の入力データではテキスト情報のみ(IBISノードタイプについては「無い」という次元のフラグが立つ)
    • 出力: (1)入力した後続候補テキストが後続しやすいか、(2) 入力した先行テキストのIBISノードタイプ、(3)入力した後続候補テキストのIBISノードタイプ