<div>2020/9/24</div> # 打ち合わせ資料 ## 研究テーマ:キュレーションマップ自動生成 <div style="text-align:right;">M1 内田寛人</div> ### 1.進捗報告 *** ### ①Web文書の前処理 扱う文書の前処理が不完全なこともありそこを変更するなどした。 <ul> <li><b>タグを除去して得られた文章が30文字より小さい場合削除</b></li> ⇒明らかに情報量が少ないため。<br> この処理後に文章を読点ごとに分割している <li><b>全体の文章量が300文字より少ない場合使用しない</b></li> ⇒文書として利用できる情報が少ないため。 </ul> ### ②併合処理後のテキスト断片を最小単位としたトップダウンセグメンテーション 評価実験はこれから行う ボトムアップ処理では、 リンクのないテキスト断片 = 同様の情報がないorクエリに沿った情報ではない と考えられるので、 <font color="Crimson">併合処理のみ</font>  <font color="Blue">併合処理+語彙的連鎖(新しい方)</font>  ### 2.現状の課題 *** <ul> <li><b>文書検索技術</b></li> 通常の検索とAPIで得られるランキングに違いがあるため、<br> 使用するWeb文書集合は別途用意して使用すべきかどうか。<br> <br> <font color="Crimson">例:クエリ「なぜ空は青いのか」で得られるWeb文書をCustomSearchAPIで取得した場合</font><br> "グラブル「どうして空は蒼いのか」は"通常の検索では4ページ目あたりから出現していた  <li><b>対象クエリの修正</b></li> <b>・「大化の改新」や「アベノミクス」や「なぜ空は青いのか」などのクエリが適正</b><br> ⇒「コブクロ」や「ビリヤード」のようなクエリで得られる文書集合は、直近のライブ情報や施設情報が上位に食い込み情報として扱いにくくなっている。<font color="Crimson">この問題は、本研究においては必要としていない情報が検索上位に来てしまっていることが原因であり、文書検索技術に関する問題と考えている。</font><br> 追加で情報を与えるとなると「コブクロ 経歴」「コブクロ 出身地」など取得される情報が明確になっており、情報全体の俯瞰の必要がなくなる。<br> この点から、<font color="Crimson">事象である「大化の改新」や自然言語による質問「なぜ空は青いのか」などの情報要求の明確なクエリを採用して実験</font>を行うことがいいと考えている。 <li><b>補助リンクの有効性</b></li> トップダウンなテキストセグメンテーションにおいては、テキスト断片の最小単位が大きくなったことで、補助リンクが張られると良くない結果になる場合があった。<br> <b>進捗で述べた方法においては、1段階目の処理(併合処理のみ)においては有効に働いていた。</b> </ul> ### 3.今後の方針 *** ### ①DOM構造の利用 前回も口頭で話した通り、<b>緩やかに構造を利用してセグメンテーションの境界に考慮すること</b>を考えている。 <b>前処理の部分でも使用する必要</b>があるかもしれない ⇒ テキストのみを取り出しているが、「http~」という文字列が取れていることがあるので、 <b>aタグなどのリンク先情報と文字列が一致している場合は削除するなど・・・</b> <br> ### ②前処理で削除している文章の表示 現状では<b>情報量をあまり持たない文章を削除しているが、</b> キュレーションマップで表示した際に文書を正しく読むためには必要な情報が含まれている場合があるので、 <b>情報としては利用せず表示のみを行う</b> ### ③サブトピックの抽出(方法未定) まとめ文書のテキスト断片をさらに分割する必要があるかどうかを判定する 1. まとめ文書のテキスト断片を再度最小単位へと分割する。 2. 併合する最小単位テキスト断片を増やしつつ、リンク先の詳細文書のテキスト断片との類似度の変動を見る <条件> <ul> <li>リンク先の詳細文書のテキスト断片が1つの観点で記述されている必要がある</li> <li>リンク先が複数あることが望ましい</li> </ul> <b>リンク先の詳細文書の評価は行えていないので実データを分析する必要がある</b>
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up