論文閱讀 : On the Theoretical Limitations of Embedding-Based Retrieval

# 論文閱讀 : On the Theoretical Limitations of Embedding-Based Retrieval [On the Theoretical Limitations of Embedding-Based Retrieval](https://arxiv.org/abs/2508.21038) ## 摘要 ### **論文背景與動機** 向量嵌入（vector embeddings）過去主要用於搜尋與檢索，但近年來被廣泛應用在更多複雜任務，如： * 推理（reasoning） * 指令遵循（instruction-following） * 程式碼理解與生成（coding） * 通用語意查詢與相關性判定新型評測基準要求嵌入模型能處理「任意查詢」與「任意形式的相關性」，也就是希望 embeddings 能泛化到所有查詢情境。 --- ### **研究問題** 雖然先前研究提出向量嵌入存在理論限制，但普遍存在一種假設： > **只要查詢不是不合理的（unrealistic），模型就可以透過更大的模型與更好的訓練數據克服限制。** 本研究正式挑戰這個假設。 --- ### **核心主張** 作者指出：嵌入模型的理論限制不是只存在於不合理查詢即使是「非常簡單、現實的查詢設定」，也會遇到這些根本限制 --- ### **理論貢獻** 研究結合學習理論已知結果，證明： > **一個 embedding 的維度，會限制 query 能返回的不同 Top-k 結果組合（subsets of documents）。** 換句話說： * 若向量維度有限，模型能分辨與排列的文件組合數量也有限 * 當查詢變多或相關性定義多樣，必然會「撞到天花板」特別指出： * 即使將 k 限制成非常小的 **k = 2** * 即使允許在測試集上直接最佳化參數（不考慮訓練過程）仍然會明顯受到維度限制。 --- ### **實證研究** 為驗證上述理論： 1. 作者建立了一個名為 **LIMIT** 的資料集 * 設計目的：讓嵌入模型必須面對 Top-k 子集合限制 * 情境為「真實且簡單的任務」，不是刻意刁難 2. 實驗結果 * 即使是目前的頂尖嵌入模型（state-of-the-art） * 在 LIMIT 資料集上仍表現失敗 * 顯示限制確實存在，且並非透過更大模型或更好訓練就能輕易解決 --- ### **研究意義** 目前主流「單一向量（single-vector）」嵌入架構存在根本瓶頸此瓶頸會在真實任務中出現，而非只限於極端或理論案例嚴重限制向量模型對「多樣查詢」與「多種相關性」的能力模式需要新的方法或架構來突破這一限制 ## Introduction ### 從 Sparse 到 Dense Retrieval** 過去二十年，資訊檢索（IR）從傳統稀疏模型（如 BM25）轉向以神經語言模型為主的架構，尤其是「單向量嵌入（single-vector embeddings）」： * 模型將整個輸入文本編碼成 **一個向量** * 也稱為 **dense retrieval** * 能跨任務、跨資料集泛化 * 已被用於越來越複雜的檢索問題 ### **新挑戰：指令型與推理型檢索** 近期，檢索不再只是找相似文，而是要求模型： * 理解 **任意查詢** * 配合 **任意定義的相關性** 例如： | 資料集 | 挑戰型態 | 示例 | | ------ | ------------ | --------------------------------------- | | QUEST | 組合邏輯（OR/AND） | 「找與『蛾 OR 昆蟲 OR 瓜地洛普節肢動物』相關文件」 | | BRIGHT | 推理與任務分解 | 「給一個 Leetcode 題目，找出與其擁有相同子步驟（如 DP）的其他題」 | 這類基準測試象徵一個隱含目標： > dense retrievers 必須有能力處理**任何可能形式的查詢與相關性定義** --- ### **本研究的核心出發點：從實驗轉向理論** 多數研究關注「能否讓模型做得更好」，透過： * 更多資料 * 更強模型 * 更複雜訓練技巧本論文選擇反方向： > **不是問模型能做到什麼，而是問它根本「做不到什麼」** 因為單向量嵌入運作於幾何空間中，能利用**幾何代數與通訊複雜度理論**來推導其能力上限。 --- ### **理論貢獻：嵌入維度的根本限制** 研究證明： > 對於給定的嵌入維度 ( d )，**存在一群 Top-k 的文件組合，無論輸入什麼查詢，嵌入模型都無法把它們當成結果返回。** 也就是： * 向量維度會限制模型可區分的「文件組合」數量 * 當文件數量變大時，可能出現某些 Top-k 結果本質上無法表示 * 這是 **數學上的限制**，不是訓練技巧或模型大小能簡單克服 --- ### **實證驗證** 為了避免「可能是訓練方法不好」的爭議，作者做了極端且公平的測試設計： #### 測試方法 * 不使用既有語料或模型 * 直接在測試集上「自由優化 embedding」 * 換句話說：**如果嵌入可以做到，那這個測試就是它的最佳情況** #### 結果 * 仍然存在明顯分界點：當文件量超過某個臨界值，該維度的 embedding **無法表徵所有 Top-k 組合** * 對不同維度 ( d ) 測試後，發現能用 **多項式函數**描述維度與容量的關係 --- ### **LIMIT 資料集** 作者更進一步建構了一個真實語言資料集 **LIMIT**，內容非常簡單：例： * Query：`Who likes Apples?` * Doc：`Jon likes Apples. …` 結果： * 即使是頂尖的 MTEB 模型（例如 Gemini embedding、Qwen embedding） * **表現極差，Recall@100 < 20** * 低維度模型更是「理論上不可能」解決 --- ## **研究貢獻整理** 1. **理論貢獻** * 提出單向量嵌入在 Top-k 組合表徵上的根本極限 2. **最佳情況驗證（free embedding optimization）** * 即使人工直接在測試集最佳化，也仍受維度限制 3. **現實語言資料集（LIMIT）** * 任務簡單卻仍難以被最強模型攻克 ### Theoretical Bounds 本小節建立三個概念之間的理論關係： * **Row-wise order-preserving rank** $\rank_{\text{rop}} A$ * **Row-wise thresholdable rank** $\rank_{\text{rt}} A$ * **Globally thresholdable rank** $\rank_{\text{gt}} A$ 以及跟**Sign rank**之間的關係。透過這些理論，可以建立嵌入維度的數學下界。 --- ### Proposition 1： ### **對二元 relevance matrix（0/1），row-wise ordering 與 row-wise thresholding 是等價的** $$ \rank_{\text{rop}} A = \rank_{\text{rt}} A $$ ### 證明想法 1. **如果能用 row-wise thresholding** * relevant > τ > irrelevant * 所以 relevant 一定比 irrelevant 分數高 → 一定符合 order-preserving 2. **如果只知道 order-preserving** * 同一列中 relevant 的分數全部比 irrelevant 高 * 所以一定可以找到一個 τ * 例如兩者中間值 → 可轉成 row-wise thresholding 因此兩者 rank 完全相等 --- ### 接下來引入 Sign Rank ### **Sign rank** 定義：對一個只含 -1 / +1 的 matrix $M$ $$ \rank_\pm(M) = \text{最小的矩陣 } B \text{ 的 rank，使得 } \sign(B_{ij}) = M_{ij} $$ 意思是： > B 的正負號分布與 M 完全一致 > 不管數值大小，只在意正負 --- ### Proposition 2：建立四種 rank 之間的上下界關係 --- ### Step 0：將 binary A 轉成 ±1 matrix $$ 2A - \mathbf{1}_{m \times n} $$ 所以 $2A - \mathbf{1}$ 是一個 (-1, +1) 的矩陣，可以用 sign rank 來分析。 --- ### Main result（非常重要）： $$ \rank_\pm(2A - \mathbf{1}) - 1 \ \le\ \rank_{\text{rop}} A = \rank_{\text{rt}} A \ \le\ \rank_{\text{gt}} A \ \le\ \rank_\pm(2A - \mathbf{1}) $$ --- ### 每個不等式 ### **(1) $\rank_{\text{rop}} A = \rank_{\text{rt}} A$** 這就是前一個 Proposition 得到的結論。 --- ### **(2) $\rank_{\text{rt}} A \le \rank_{\text{gt}} A$** 合理：若存在一個「全球一致的門檻」能分出所有查詢的 relevant/irrelevant，那當然也能用「每列一個門檻」。 **global threshold** 是最強限制 → 通常需要更大維度 **row threshold** 更寬鬆 → 維度不會更大 --- ### **(3) $\rank_{\text{gt}} A \le \rank_\pm(2A - 1)$** 若 B 與 $2A-1$ 的正負號一致： * B>0 → A=1 * B<0 → A=0 所以只要 $\tau = 0$ 就能當作一致門檻因此 sign rank 給了 **global threshold** 上界 --- ### **(4) $\rank_\pm(2A-1) \le \rank_{\text{rt}} A + 1$** 這是一個技術性但很重要的界限： * (B) 若能 row-wise threshold： * $B_{ij} > \tau_i$ (relevant) * $B_{ij} < \tau_i$ (irrelevant) * 做一個轉換 $B - \tau \mathbf{1}_n^T$ * 每列減掉自己的門檻 * 讓所有 relevant 正、irrelevant 負 * → 與 sign matrix 一致但減去一個 rank-1 矩陣只會讓 rank 最多增加 1 因此 sign rank ≤ row-wise threshold rank + 1 ### Consequences（推論與意義）前面一連串的證明，總結出**對向量嵌入模型而言**： > 若要完全正確地表示某個檢索任務（用正確排序或門檻分開 relevant / irrelevant）， > 嵌入維度 (d) 必須介於以下界線： $$ \rank_\pm(2A - \mathbf{1}) - 1 \le d \le \rank_\pm(2A - \mathbf{1}) $$ 這告訴我們： **Sign rank 幾乎直接決定最小需要的 embedding 維度** 最多差 1（下界和上界差距最大 1 維） --- ### 實際代表什麼？ #### 結論 1：永遠會有太難的檢索任務 > **只要 embedding 維度固定為 (d)，就一定存在某個檢索任務，永遠無法用 (d)-維向量表示。** 原因： * sign-rank 可以非常大（甚至隨文件變多而爆炸） * 若 $\rank_\pm(2A-1) > d$，就算你想再怎麼訓練 embedding，也不可能成功 **表示嵌入模型有理論上無法跨越的天花板** --- #### 結論 2：什麼 qrels 會很難？ > sign-rank 越高 → 表示查詢與文件之間的相關性組合越複雜 → 需要更高維度 embedding 來表示例如： * 查詢越多 * 文件越多 * 不同查詢對文件的排序關係越不一致 → sign-rank 就越高 → embedding 必須更高維這正是 LIMIT 資料集後面會做的事情：設計高 sign-rank 的 relevance matrix → 測試現有模型能否扛住 --- #### 結論 3：如何實際估計 sign-rank？論文說： > 如果你用 (d)-維 embedding 成功訓練出 row-wise 正確排序， > 那就代表： > $$ > \rank_\pm(2A - 1) \le d+1 > $$ 也就是— 透過實際訓練（gradient descent），就能估計某個 relevance matrix 大概需要的維度 ## 5. Empirical Connection: Best Case Optimization 前面理論上已經證明： **嵌入模型的能力受限於 sign-rank，維度不夠就永遠無法表示某些檢索任務。** 本節要回答： > 這只是理論嗎？現實中會發生嗎？作者用一種最極端、最偏向模型的設定，來檢驗理論是否真的成立。 --- ### 核心方法：Free Embedding Optimization 目標是打造**嵌入模型的「最佳可能情況」**： | 普通 embedding | Free embedding（本研究） | | ------------ | --------------------------- | | 受到語言模型架構限制 | 完全自由，每個 query/doc 是可直接訓練的向量 | | 受訓練資料分布影響 | 直接在測試集上最佳化（不管泛化） | | 儲存語言語意 | 不需要語意，只要能滿足 relevance 排序 | > **若 free embedding 都解不了，那任何現實 embedding 模型都不可能解。** 因為它沒有任何語言或模型結構的限制甚至直接在測試集上過擬合若仍達不到 100% 正確 → 是硬限制，而不是訓練問題 --- ### 實驗設定 1. 建一組隨機文件向量（大小 (n)） 2. 建所有 top-(k) 文件子集合作為查詢 * 若 (k=2)，查詢數量 = (\binom{n}{2}) * 每個查詢標記哪些文件是 relevant 3. 使用 Adam 直接訓練查詢向量與文件向量 4. Loss：**InfoNCE**（效果最好） 5. 所有文件都當 in-batch negatives 6. 向量每次更新後都正規化（符合真正 embedding 慣例） 7. 若 1000 step 沒進步 → early stop 8. 對每個 embedding 維度 (d)，逐漸增加文件數量 (n)，直到訓練**無法達到 100% 正確** 這個「模型無法再完成所有排序需求」的最大 (n)，稱為： > **critical-n** 意思是：某個維度 (d) 最多能分辨多少文件的所有 top-(k) 組合 --- ### 實驗結果實驗畫出：「embedding 維度 (d)」 vs 「可容納的最大文件數 critical-n」結果：取前幾個小 d 進行測試擬合出 3 次多項式： $$ y = -10.5322 + 4.0309d + 0.0520d^2 + 0.0037d^3 \quad (r^2 = 0.999) $$ 其中 (y) = critical-n 代表關係非常吻合。 --- ### 外推到常見 embedding 維度 | embedding 維度 (d) | critical-n（模型最多能處理的文件數） | | ---------------- | ----------------------- | | 512 | 500,000 | | 768 | 1,700,000 | | 1024 | 4,000,000 | | 3072 | 107,000,000 | | 4096 | 250,000,000 | --- ### 重要啟示即使在「作弊設定」： * 自由 embedding（不是語言模型） * 直接訓練在測試集 * 全批次訓練 * 最佳 loss、最佳優化器仍然出現「維度不夠就無法解決」的 critical-n 界限。這意味著： > **embedding 不是怎麼訓練都能變強的，它受數學限制。** 尤其在 **web-scale search**（數百萬到數十億文件）： * 512 / 768 / 1024 維根本不夠容納所有可能的 top-k 組合 * 即使 4096 維（已是極大型 embedding），仍遠遠不足處理真實網路規模 ## 6. Empirical Connection: Real-World Datasets 前面做的「free embedding」實驗證明： **嵌入維度存在實際且可觀察到的能力上限** 但那畢竟是理論化、抽象的設定。本節要回答兩件事： 1. 這對現實世界的 embedding 模型有什麼影響？ 2. 是否真的能做出一個「看起來很簡單但實際上 embedding 無法解」的任務？ --- ### 6.1 現有資料集的問題：太少 query → 看不到限制大部分 IR（Information Retrieval）資料集： * 採用固定的 evaluation set * query 數量通常很少 * 原因：人工標註 relevance 很貴 **這代表什麼？** > 評估資料集只測試了整體可能查詢空間的一小小小部分 --- ### 用 QUEST 做例子 * 文件數：325,000 * 每個查詢有 20 個相關文件 * 只有 3,357 個查詢但從理論角度看： > 所有可能的 top-20 文件集合數量是： $$ \binom{325,000}{20} \approx 7.1 \times 10^{91} $$ 這數字：大於整個可觀測宇宙的原子數量（約 (10^{82})）也就是： * 現在測的 3,357 個 queries * 和可能存在的 query space 比起來微乎其微 * 完全不足以暴露 embedding 模型的能力天花板 --- ### 為什麼資料集會這麼少 query？不是因為「沒有更多可能查詢」而是： * 人工標 relevance 成本太高 * 算 recall / ranking 太花計算資源換句話說： > **現有 benchmark 沒有測到 embedding 會失敗的地方，只是因為沒人去測** 不是因為 embedding 沒有限制。 --- ### 真正的使用者會做什麼？使用者可任意組合條件，例如： | 查詢類型 | 例子 | | ----- | ---------------------------------------- | | OR 問題 | "Novels from 1849 OR George Sand novels" | | 多條件組合 | BrowseComp 中一條 query 有 5+ 條件，還有範圍運算 | 只要文件內容夠豐富，就能形成任意 top-(k) 組合。因此：使用者會觸發複雜組合但 benchmark 通常只測一小部分所以 embedding 的 failure zone 被隱藏了 --- ### 作者的策略：反其道而行既然大規模資料集無法枚舉所有組合，那就換方向：選 **少量文件** 產生 **所有 top-k 子集合** 不用複雜語意，不用邏輯運算 > 單純看 embedding 能否表示所有可能的 relevant 組合因為： * 若 embedding 理論上無法表示所有組合 * 即使 query、語言、資料再簡單 * 模型仍會失敗這正是 LIMIT 的設計哲學： > 文件和查詢可以非常簡單，但「組合複雜度」會壓垮 embedding ### 6.2 The LIMIT Dataset 本節目標： 1. 把「高 sign-rank、組合爆炸」的 qrel matrix，做成真實的自然語言檢索任務 2. 測試真正的 SOTA embedding models 3. 證明：**不是語言困難，而是嵌入維度受限** --- ### Dataset Construction #### 目標希望 query 和 document 都是自然語言，但底層邏輯仍是「所有 top-k 組合要求都要被模型區分」。因此挑選了一種非常簡單、自然的表達方式：文件 = 一個人的名字 + 他喜歡的東西查詢 = “Who likes X?” 例： | Document | Text | | -------- | -------------------------------------------- | | D1 | “Jon likes Hawaiian pizza, sushi, Ferraris…” | | D2 | “Maria likes Marvel movies, cats, tacos…” | | Query | Text | | ----- | --------------------------- | | Q | “Who likes Hawaiian pizza?” | → Relevant = 所有喜歡 Hawaiian pizza 的人 → 2 個 → 非 relevant = 其他所有人這種設定非常直覺、語言簡單、零推理、零邏輯難度。 --- #### 建立屬性清單 * 用 LLM (Gemini 2.5 Pro) 生成大量「人可以喜歡的東西」 * 之後不斷清理： * 移除重複、同義、過大概念 * 用 BM25 檢查語意重複 * 最終得到 1,850 個可使用的「喜好項目」 --- #### 文件與查詢量 * **50,000 documents** * 每個人喜歡 ≤ 50 個東西（保持文件短小、自然） * **1,000 queries** * 每一個 query 都有 **2 個 relevant 文件**（k=2） * 與前面理論一致：希望檢驗所有 top-2 組合 --- #### 重要：如何選 qrel matrix？研究者希望： * qrel matrix 要包含**最多的不同 top-2 文件組合** * 形成難度最大的 sign-rank 組合數 = (\binom{n}{2}) 因此選： * n = 46 * (\binom{46}{2} = 1035)（> 1000 queries）這代表：每個 query 對應一個 top-2 文件組合 1,000+ 個組合全部要被模型分開 sign-rank 高、維度需求高 embedding 模型將暴露其能力上限 --- #### 怎麼讓語言化成立？ 1. 對 1,000 個 queries，每個 query 取一個自然語言屬性（X） 2. 找兩個文件，把屬性 X 加進去 → 它們成為 relevant 3. 每份 document 都會有一些隨機屬性 4. 為避免不公平，每個文件都補到相同屬性數量 5. 多數文件對所有 query 都是 non-relevant（很像真實世界）最後還做了一個「small version」： * 只保留 46 個 relevant documents * 測試模型在非常小的語料庫是否也會失敗 --- ### 模型測試 (Models) 測 SOTA embedding models （Embedding 維度約 1024–4096） * GritLM * Qwen3 Embeddings * Promptriever * Gemini Embeddings * Snowflake Arctic * E5-Mistral 也測 **非單向量模型**： * BM25（稀疏、詞袋法、超高維度） * gte-ModernColBERT（multi-vector 模型） * Token-wise TF-IDF（保證 100%）也測縮小維度（MRL truncation）來看維度影響。 --- ### 結果 ![image](https://hackmd.io/_uploads/Byq-HsJxZg.png) #### Full LIMIT dataset（50k docs） * 多數 embedding 模型：Recall@100 < 20% * 幾乎完全失敗 * Multi-vector（ColBERT）好一點，但遠遠不夠 * BM25 幾乎接近完美（因為稀疏表示維度極高）語言簡單只有「喜歡吃什麼／喜歡什麼東西」沒有推理、沒有邏輯、沒有歧義仍然放倒 SOTA Embeddings --- #### Small LIMIT（46 docs） ![image](https://hackmd.io/_uploads/HJG7HsJxWl.png) * 只剩 46 文件，幾乎玩具級資料集 * 但 embedding 模型依然做不好 * 即使 Recall@20（找前 20 個答案），仍無法保證全部 relevant 文件被找出 ➡ **即使是 46 個文件，向量維度仍不夠把所有 top-2 組合分開** --- #### 越高維度 → 越好 * 隨著 embedding dimension 增加，表現慢慢變好 * 但沒有任何單向量 embedding 能真正「解決任務」 * 多向量模型做得比較好（因為本質上維度更高） * 稀疏模型（BM25）最好，因為 token space 非常大（極高維隱向量空間） ### 6.3 Is this Domain Shift?（是否只是領域差異造成的） LIMIT 的結果很震撼：語言簡單、邏輯簡單、文件短小、查詢直白但 SOTA embedding 模型仍然崩潰。研究者提出一個可能的疑問： > 會不會不是 embedding 本身能力不足，而是「模型沒看過這種語料」？ > （也就是 **domain shift**）如果是 domain shift：用 LIMIT 的訓練資料微調模型 → 應該會顯著改善但如果是 embedding 的內在限制：就算用同領域資料訓練 → 表現仍然非常差 → 唯有直接對 test set 過擬合才成功 --- ### 實驗方法挑一個現成 embedding 模型： * `lightonai/modernbert-embed-large` 在三種情況下微調： | 微調方式 | 預期結果 | | ------------------------ | ------------------------- | | 用 LIMIT 的 training set | 若是 domain shift → 應該會大幅提升 | | 用 LIMIT 的 test set | 若是維度限制 → 只能靠過擬合才成功 | | 用不同維度 | 看 embedding 維度是否影響結果 | 訓練細節： * 采用 SentenceTransformers * 全批次 in-batch negatives（排除正樣本） * 把最後隱層投影到指定 embedding dimension（而非用 MRL） --- ### 結果 ![image](https://hackmd.io/_uploads/H1QGUoylbx.png) #### fine-tune 在 training set * 模型**幾乎沒有變好** * recall@10 從 ≈0 → 最多 2.8 * 遠遠不夠解決任務 ➡ **證據：失敗不是因為 domain shift** ➡ 模型即使看到同類型語言，也無法學會所有 top-2 組合 --- #### fine-tune 在 test set * 模型**立刻學會任務，成功過擬合** * 意味著： * 知道答案時，它可以硬記 * 但無法泛化這與前面 free embedding 一樣： * 若直接對 test set 最佳化，低維也能記住 * 但若要真正學會「所有可能組合」，維度不夠 → 無解 --- #### 關鍵觀察：真實模型比 free embeddings 更弱在 free embedding 實驗中： * (N = 46) 文件版本 * 只需要 **12 維** 就能過擬合但用真正的 transformer-based embedding： * 甚至 **64 維** 都無法完全解決 ➡ 真實模型受更多限制： * 語言建模結構 * tokenization * 訓練方式 * 表示分配不均 * 非線性約束這證明： > 現實中的 embedding 比「自由向量」還弱 > 嵌入限制更嚴重 > sign-rank 導致的瓶頸甚至更快出現 ### 6.4 Effects of Qrel Patterns（Qrel 組合模式的影響）作者前面已經強調：**LIMIT 的困難來自於它測試了大量 top-k 組合**，使 qrel matrix 高度稠密、組合爆炸。這一節要做驗證： > 如果我們把 qrel 的組合減少，會不會變得容易？ #### 實驗設置保持所有條件與 LIMIT 一樣： * 50,000 documents * 1,000 queries * top-2 * 自然語言建構相同唯一改變：**qrel 組合模式** | 模式 | 說明 | | ------------------ | -------------------------------------------- | | **1. random** | 從所有組合中隨機取樣 top-2 檔案集合 | | **2. cycle** | 每個 query 的兩個 relevant 文件與前一個 query 有連接（依序輪替） | | **3. disjoint** | 每個 query 都用不同新檔案 → 組合互不重疊 | | **4. dense（主要版本）** | 使用最多組合、所有 (\binom{n}{2}) 覆蓋 | #### 結果 ![image](https://hackmd.io/_uploads/B1BDDsygbg.png) * random / cycle / disjoint：表現相對相似、沒有太難 * **dense：表現崩壞** 例子： | 模型 | 非 dense 版本 recall@100 | dense recall@100 | | ---------- | --------------------- | ------------------------------ | | GritLM | 高很多 | **掉 50 個 absolute recall@100** | | E5-Mistral | 40.4 | **4.8（幾乎 10 倍下降）** | 證明 LIMIT 的難不是語言難是因為它涵蓋了最多的 top-k 組合，導致嵌入維度不夠區分 --- ### 6.5 Correlation with MTEB（與 MTEB 的關係）人們常說 embedding 模型「過度擬合 BEIR/MTEB” → 那麼，LIMIT 做不好是否說明模型只是不擅長新資料集？作者檢驗： * 把模型在 LIMIT 與 BEIR 的分數做散點圖（Figure ~\ref{fig:mteb_vs_limit}） ### 結果 ![image](https://hackmd.io/_uploads/SyB9Pj1x-e.png) * **幾乎沒有相關性** * 在 BEIR 很好 → 不代表在 LIMIT 也好 * 在 LIMIT 很差 → 不代表 BEIR 差 * 小 embedding 的模型（如 Arctic）在兩邊都弱（因為維度小＋知識少） ➡ LIMIT 不只是 “不同領域” ➡ 它測的是 **維度容量限制**，不是領域差異 --- ### 6.6 Alternatives to Embedding Models（替代方案）核心發現： > 單向量 embedding 無法表示所有 top-k 組合 > 即使維度增到 4096，也遠遠不夠涵蓋真實世界規模所以必須考慮其他架構。 --- #### A. Cross-Encoders（重排模型 / rerankers）特點： * 讀入 query 和 document 完整文本 * 不是向量點積，而是直接模型判斷匹配度 * 表達能力遠大於 embedding * **但計算昂貴**，無法做大規模 first-stage retrieval #### 實驗（small LIMIT）給 Gemini-2.5-Pro： * 全部 46 documents * 全部 1000 queries * 一次 forward pass 直接輸出所有答案 100% 正確完全解決 LIMIT 但計算開銷龐大，不適合百億文件的第一階段檢索 --- ### B. Multi-vector Models（如 ColBERT） * 每個 document 是多個向量，而不是一個 * 用 MaxSim 聚合匹配 * 表達能力更強結果： * 在 LIMIT 上明顯優於單向量模型 * 但仍離百分百很遠 * 且尚不確定能否遷移到推理 / 指令跟隨型任務 --- ### C. Sparse Models（如 BM25、TF-IDF） * 可看成「稀疏但超高維 embedding」 * 隨著詞表大小，上萬~上百萬維 * 因為維度極大，所以能表示大量組合 * 在 LIMIT 中幾乎滿分弱點： * 依賴字面重疊（lexical match） * 無法處理語意、推理、同義詞或複雜任務 * 難接到指令/推理型 IR ## **6. 結論（Conclusion）** 本研究提出 LIMIT 資料集，用來揭示 **單向量嵌入模型（embedding models）** 在理論與實務上的根本侷限。 ### 主要貢獻 1. **理論貢獻** * 透過 sign-rank 與矩陣階數的關係，我們證明： > *嵌入模型若維度不夠，就無法表示所有 top-𝑘 文件組合。* * 換句話說，若查詢的相關文件組合過於多樣、相互交錯，其關聯無法被有限維度的向量空間完整表達。 2. **經驗驗證** * 我們直接對查詢與文件向量做「最佳情況」的自由優化（free embedding） * 即便如此，仍出現明確臨界點（critical-n）——當文件數超過某門檻，即使直接訓練向量也無法達到 100% 正確率 * 验證理論限制真實存在 3. **實務連結** * 我們提出 LIMIT：一個語言極度簡單、無推理需求、純粹測試組合能力的自然語言資料集 * 最先進的 SOTA 嵌入模型（即便 embeddings 維度大、受過指令類訓練）仍無法解出此任務 * 即使文件只有 46 個，模型仍做不到完美召回 **核心結論：** > 嵌入模型可以處理很多組合，但無法處理「所有」組合。 > 隨著 instruction-based retrieval 興起，這個限制會越來越明顯。 --- ## **研究限制與未來方向** ### 1. 理論目前主要適用於「單向量」嵌入模型 * 我們的結論目前最適用於單向量 dense embeddings * 多向量模型（如 ColBERT）與稀疏模型（如 BM25）表現更好 * 但其理論界限仍待未來研究擴展 ### 2. 尚未處理「允許部分錯誤的情況」 * 本研究探討的是「必須完美區分所有 top-𝑘 組合」 * 如果允許模型只需涵蓋大部分組合、或允許小比例錯誤 → 仍沒有明確的理論界線 * 該方向留待後續研究（作者亦提到 Ben-David 等人 2002 的相關工作） ### 3. 無法事先預測「哪一類任務必定會失敗」 * 雖然理論證明 *一定存在* 無法被表示的任務 * 但目前無法事先指出哪些任務一定失敗 * 代表： * 有些推理或指令檢索可能仍能完美解決 * 但也一定存在永遠無法處理的任務