遇到的問題
文本內有 官方網站 這個詞,但在搜尋時卻沒辦法用 官方 找到該文檔。
主要原因
會有這個問題產生,在於文本被索引的詞。目前自訂的字典檔內有的大量的詞,包含短詞和短詞延伸的長詞,而原本的分詞方法是用 ik_smart,搜尋方法也是使用ik_smart,會使得多數的長詞會被索引,短詞會被忽略。如上述問題,文本中如果出現官方網站,搭配現有的字典檔,分詞後的結果會是官方網站,也只有單一長詞的索引,如此一來就沒辦法使用官方 去搜尋到這文檔。
解決方法
改變分詞的方法,從原本索引分詞的方法 ik_smart 改用 ik_max_word,搜尋方法依舊使用 ik_smart。
因為使用 ik_max_word 建立索引時,會將 官方網站 分為 官方網站、官方、網站,會有較多的詞被索引,如此一來就可以增加短詞被搜尋到的機率。
如此就可以透過 官方 或 網站 或 官方網站 搜尋到有 官方網站 的文檔。