fymote

@fymote

Joined on Apr 25, 2023

  • 遇到的問題 文本內有 官方網站 這個詞,但在搜尋時卻沒辦法用 官方 找到該文檔。 主要原因 會有這個問題產生,在於文本被索引的詞。目前自訂的字典檔內有的大量的詞,包含短詞和短詞延伸的長詞,而原本的分詞方法是用 ik_smart,搜尋方法也是使用ik_smart,會使得多數的長詞會被索引,短詞會被忽略。如上述問題,文本中如果出現官方網站,搭配現有的字典檔,分詞後的結果會是官方網站,也只有單一長詞的索引,如此一來就沒辦法使用官方 去搜尋到這文檔。 解決方法 改變分詞的方法,從原本索引分詞的方法 ik_smart 改用 ik_max_word,搜尋方法依舊使用 ik_smart。 因為使用 ik_max_word 建立索引時,會將 官方網站 分為 官方網站、官方、網站,會有較多的詞被索引,如此一來就可以增加短詞被搜尋到的機率。 如此就可以透過 官方 或 網站 或 官方網站 搜尋到有 官方網站 的文檔。
     Like  Bookmark
  • 介紹 Elasticsearch 是一個免費的、分散式的、RESTful 風格的全文檢索引擎,它基於 Apache Lucene 開發而成。不僅支持全文檢索,還具有分散式和高可用性的特點,使其成為大規模數據檢索和分析的理想選擇。以下是主要特點: 分散式架構:可以自動將數據和查詢負載分散到多個節點,實現橫向擴展和高可用性。 實時檢索:提供近實時的檢索性能,使數據在被索引後很快就可以被查詢到。 高度可擴展:可以輕鬆擴展到數百個節點,並且可以處理 PB 級別的數據。 RESTful API: 使用標準HTTP方法(GET/POST/PUT/DELETE)進行操作。 強大的查詢和分析功能:支持多種查詢類型,如全文檢索、範圍查詢、地理位置查詢等,並提供豐富的數據聚合和分析功能。 Apache Lucene: 用於全文檢索和搜尋的開放原始碼程式庫
     Like  Bookmark