深度搜尋(Deep Search)與深度研究(Deep Research)相關NLP論文(2024年9月後) 以下整理了2024年9月以後發表的多篇與「深度搜尋」與「深度研究」主題相關的自然語言處理(NLP)研究論文,包括頂級會議論文和預印本。每篇論文提供標題、發表來源與日期、摘要、核心貢獻點、應用領域及訪問連結。 ChatRetriever: Adapting Large Language Models for Generalized and Robust Conversational Dense Retrieval • 發表來源:EMNLP 2024 主會論文(Empirical Methods in NLP 2024) • 發表日期:2024年11月(會議) • 摘要:對話式搜尋需要能從複雜多輪上下文中準確理解使用者意圖。該研究提出了一種名為 ChatRetriever 的模型,通過對大型語言模型(LLM)進行對比學習和遮罩指令調校(masked instruction tuning),使其能夠強健地表示複雜對話會話,用於密集檢索。在五個對話搜尋基準上,ChatRetriever明顯優於現有對話密集檢索器,達到與基於LLM查詢重寫方法相當的最新性能。此外,ChatRetriever在處理不同類型的對話上下文時表現出更高的魯棒性。這表明通過調適LLM來執行檢索任務具有很大潛力。 • 核心貢獻: 提出ChatRetriever模型,採用雙重學習目標(對比學習結合指令微調)來改造預訓練LLM,使其適應對話資訊檢索;在多個對話檢索任務上取得最先進(SOTA)的效果,證明了方法的有效性和泛化性。模型在面對多樣化對話情境時依然表現穩健,顯示出對複雜輸入的強適應能力。 • 應用領域: 多輪對話的信息檢索與問答系統(如對話式搜尋引擎、智能客服),需要在用戶多次交互中保持上下文理解並檢索相關資訊的場景。這有助於構建更智能的對話式搜索助手,在開放域問答和對話資訊查詢中提供更準確的結果。 • 訪問連結: ACL Anthology: 2024.EMNLP-main.71 LitSearch: A Retrieval Benchmark for Scientific Literature Search • 發表來源:EMNLP 2024 主會論文 • 發表日期:2024年11月 • 摘要:LitSearch 提供了一個專門針對學術文獻搜尋的檢索評估基準。該基準包含597個關於近期機器學習或NLP論文的現實查詢(如:「哪裡可以找到關於生成摘要一致性評估的研究?」),這些問題一部分由GPT-4根據論文中含引用的段落生成,另一部分由論文作者針對自己工作手動撰寫。所有問題都經專家審核或編輯以確保高品質。作者使用LitSearch評測了多種最新檢索模型並測試了兩種基於LLM的重排序管線。結果顯示,密集檢索模型相較傳統BM25有顯著優勢:在召回率@5上高出24.8%。同時,加入LLM的重排序策略進一步將最優密集檢索模型的效果提升了4.4%。值得注意的是,現有商業搜尋引擎和工具(如Google搜尋)在LitSearch上的表現明顯較差,比最佳學術檢索模型落後約32個百分點。這些結果表明LitSearch構成了一個具有資訊檢索挑戰性且貼近真實需求的新測試平台。 • 核心貢獻: 構建了首個專注於科學文獻檢索的開放測試基準LitSearch,填補了現代搜尋引擎在深度學術搜尋場景下缺乏評估標準的空白。LitSearch的查詢集來源多樣且經過專家驗證,真實反映研究者的信息需求。基準實驗揭示了密集向量檢索相對於傳統稀疏檢索(BM25)的巨大優勢,以及大型語言模型重排序在提升精確率方面的潛力。同時指出了當前主流搜尋引擎在該類專業查詢上的明顯不足,強調需要研發更強大的語意搜尋技術。 • 應用領域: 學術搜尋引擎與文獻推薦系統的評估與開發。例如Semantic Scholar、Google Scholar等,可利用LitSearch衡量檢索模型對複雜學術查詢的有效性,進而改善對研究人員的文獻搜尋支持。該基準也適用於資訊檢索和語義搜索領域的模型訓練與測試,推動更深入的文本理解與檢索研究。 • 訪問連結: ACL Anthology: 2024.EMNLP-main.840 Learning Interpretable Legal Case Retrieval via Knowledge-Guided Case Reformulation • 發表來源:EMNLP 2024 主會論文 • 發表日期:2024年11月 • 摘要:法律案件檢索在維護司法公正上至關重要,但與一般網頁搜尋不同,這類檢索需要處理篇幅長、結構複雜且高度專業的法律文件。現有方法往往忽略了融入法律專家知識,導致對案件的理解和建模不充分,檢索效果不佳。本文提出了一種基於LLM的大型語言模型並結合法律知識的可解釋案例重構方法,稱為KELLER,用於有效且可解釋的法律案例檢索。透過引入專業法律知識(如罪名、法條等),KELLER將原始冗長的案件重述為簡明的「犯罪事實子集」,涵蓋案件的關鍵資訊。在兩個法律案例檢索基準上的實驗表明,相較現有方法,KELLER對複雜法律查詢的檢索性能有明顯提升,且在結果上具有更好的魯棒性。 • 核心貢獻: 指出了法律檢索任務中領域知識融合的重要性,創新性地提出利用專業知識指導LLM進行案例重構的框架KELLER。KELLER能將繁瑣的法律文本轉換為關鍵事實集合,使檢索對象更加簡潔且針對性強,從而提高檢索的準確性和可解釋性。實驗證實了該方法在法律案例檢索基準上的卓越表現,明顯超越以往無結合專家知識的模型。該工作展示了在專門領域(法律)中結合知識與深度檢索模型的巨大價值。 • 應用領域: 法律信息檢索系統和司法判例搜索。例如法院判例檢索、律師事務所內部案例查找系統,可應用KELLER提升相關案例搜尋的準確率,同時提供可解釋的關鍵匹配依據。廣義上,這種結合知識的重構思路也適用於其他專業領域的語義搜索(如醫學文獻檢索),在需要專家知識輔助理解長文本的檢索任務中具有借鑒意義。 • 訪問連結: ACL Anthology: 2024.EMNLP-main.73 Dense X Retrieval: What Retrieval Granularity Should We Use? • 發表來源:EMNLP 2024 主會論文(arXiv預印本,後收錄於EMNLP 2024) • 發表日期:2024年10月(arXiv最終修訂版) • 摘要:Dense X Retrieval 探討在開放域NLP任務中使用密集檢索時,索引內容的粒度應該如何選擇。傳統做法常將文檔拆分為段落或句子作為檢索基本單元。然而,作者提出了一種新的細粒度檢索單元——「命題」(proposition),即文本中的原子斷言,每個命題包含一個獨立事實並以簡潔、自含的自然語言表述。通過對不同粒度索引單元的系統比較,實驗發現:以更細粒度(命題級別)建立索引,在檢索任務中顯著優於傳統的段落級索引。此外,在檢索增強的語言模型應用中(如問答),在給定固定計算資源預算下,使用細粒度檢索單元構建提示能提升下游問答任務的性能。 • 核心貢獻: 本研究首次系統性地分析了檢索單元粒度對密集檢索系統的影響,提出將文本劃分為更原子的命題級單元來進行索引。結果證明,相較於常用的段落/句子級檢索,命題級的精細索引能顯著提高檢索效果,尤其在需要精確定位事實的情況下。同時,作者展示了在檢索增強生成(RAG)場景下,檢索粒度對下游任務如問答性能的影響:細粒度檢索結果可構建更有效的提示,進一步提升模型的回答準確性。這項工作為如何選擇檢索索引單元提供了經驗指導,對建立高效的語義搜索索引具有參考價值。 • 應用領域: 開放域問答系統、事實查證、知識圖譜問答等需要從大型文本語料中精確檢索事實的任務。開發者可採用命題級索引來構建語義搜索引擎或知識檢索模組,提高檢索精度和下游應用表現。例如,在維基百科知識檢索、法律/醫學問答中,細粒度的檢索單元可幫助模型找到更準確的依據句。 • 訪問連結: arXiv: 2312.06648 Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations (Co-STORM) • 發表來源:EMNLP 2024 主會論文 • 發表日期:2024年11月 • 摘要:大型語言模型驅動的聊天機器人和生成式搜索引擎善於回答具體問題,但發現未知的未知資訊對使用者而言仍是挑戰。該研究受啟發於教育場景中學生透過聆聽並參與老師對話來學習知識,提出了協作式STORM(Co-STORM)系統。與傳統問答系統需用戶自己提出所有問題不同,Co-STORM讓多個LM代理(agent)之間相互對話提問,用戶旁觀並適時介入引導。這些代理相當於代替用戶提出問題,使使用者即使不知該問什麼,也能透過代理對話意外發現重要資訊。為了幫助使用者理解對話進程,Co-STORM將探討到的資訊動態組織成思維導圖,最終生成一份全面的報告供用戶參考。作者還建立了WildSeek資料集來自真實用戶資訊探索記錄,以評估系統性能。結果顯示,Co-STORM在對話過程跟蹤和最終報告品質方面均優於基線方法。在人類評估中,70%的參與者更喜愛Co-STORM勝過傳統搜索引擎,78%的人偏好它勝過檢索增強的聊天機器人。 • 核心貢獻: 引入了一種全新的深度研究互動模式:透過多智能體協作對話來發掘用戶潛在感興趣但未明確提出的資訊。Co-STORM系統創新地提供了動態思維導圖界面,幫助使用者追蹤復雜對話中的知識點,並自動生成結構化報告。作者發布了WildSeek數據集作為該場景的評測基準,同時實驗和用戶研究證明了該系統在資訊探索任務上的優勢:相比傳統搜尋或檢索問答,Co-STORM能帶來更完整且讓用戶滿意的研究體驗。這項工作展示了人機協作深度搜尋的新可能,有望作為未來探索式搜尋和教育輔助的基礎。 • 應用領域: 探索式搜索與研究輔助。例如,科研人員調研一個陌生課題時,可利用Co-STORM自動生成的對話來發掘相關概念和未知資訊;教育領域中,學生可以通過觀察AI代理討論一個主題來增進理解。該系統也適用於決策支持(讓AI幫助梳理未知領域的信息),以及高階的語意搜索引擎,提升用戶在海量資訊中的探索效率。 • 訪問連結: arXiv: 2408.15232 DIRAS: Efficient LLM-Assisted Annotation of Document Relevance in Retrieval Augmented Generation • 發表來源:arXiv預印本(已提交,代碼開源)(註:為NLP/IR領域最新研究) • 發表日期:2024年10月(arXiv) • 摘要:DIRAS 提出了一種面向領域的資訊檢索標註框架,用於提升檢索增強生成(RAG)系統對相關文檔的識別能力。RAG在針對特定領域回答查詢時,常面臨兩個挑戰:(1) 可能遺漏重要相關資訊(召回不足)或引入過多不相關內容(精度不足);(2) 人工或GPT-4標註所有查詢-文檔對的相關性成本高昂且無法覆蓋全部組合,易導致標註選擇偏差。為了解決這些問題,DIRAS提出了一個無需人工參與的標註方案:微調開源LLM來考慮細緻定義的相關性標準,並為給定的查詢-文檔對生成帶有置信度校準的相關性標籤。廣泛的評估顯示,經DIRAS微調的小型模型(8B參數)在標註和排序未知查詢-文檔對時可達到與GPT-4相媲美的性能。這種方法有助於為特定領域構建客製化的IR評測基準,同時避免人工標註成本和偏差,在實際RAG系統開發中顯著提升檢索階段效能。 • 核心貢獻: 提出DIRAS這一創新框架,使用小型LLM經過精調來自動執行文檔相關性標註,完全免除人工標註需求。DIRAS解決了RAG評價中長期存在的領域相關性定義不一致和標註代價高昂問題,能根據定製的相關性標準產生連續概率得分,捕捉部分相關等細微差異。實驗證明,DIRAS微調後的模型在相關性判斷上達到了與GPT-4等大型模型相當的水準,驗證了其標註質量和可靠性。這為研發高召回高精度的檢索模組提供了一條可行途徑,幫助RAG系統更有效地利用長尾資訊。 • 應用領域: 檢索增強生成(例如開放域問答、企業知識庫問答)開發中的評估與優化。開發者可使用DIRAS快速構建特定領域的檢索測試集,評估不同檢索策略對下游生成的影響,從而調整系統以最大化召回重要資訊而不引入噪音。此外,DIRAS適用於任何需要大規模相關性判斷的場合,例如搜索引擎調優、推薦系統文檔篩選等,在資訊檢索與文本理解領域具有廣泛的實用價值。 • 訪問連結: arXiv: 2406.14162 各篇論文均代表了深度搜尋/深度研究方向的高影響力進展,涵蓋從對話式檢索、學術文獻搜索,到專領域(法律)檢索、新型檢索粒度、人機協作探索和檢索增強生成評估等主題。這些研究不僅在頂會發表,還在資訊檢索、文本理解、機器閱讀理解、語意搜索等領域具有重要意義和應用前景。