Evaluating Open-QA Evaluation

###### Author Cunxiang Wang, Sirui Cheng, Qipeng Guo, Yuanhao Yue, Bowen Ding, Zhikun Xu, Yidong Wang, Xiangkun Hu, Zheng Zhang, and Yue Zhang ###### organizaiton Westlake University, Northeastern University, Amazon AWS AI, Fudan University ## Abstract :::info 這項研究專注於開放式問答（Open-QA）任務的評估，該任務可以直接估計大型語言模型（LLMs）的事實性。目前的自動評估方法存在局限性，表明人類評估仍然是最可靠的方法。我們引入了一個新的任務，評估問答評估（QA-Eval）和相應的數據集EVOUNA，旨在評估AI生成的答案與Open-QA中的標準答案之間的準確性。我們利用人類註釋的結果來衡量這些方法的性能。具體而言，該工作研究了與人類評估高度相關的方法，認為它們更可靠。我們還討論了當前方法的缺陷和改進基於LLM的評估器的方法。我們相信這個新的QA-Eval任務和相應的數據集EVOUNA將促進更有效的自動評估工具的發展，並對未來的研究有價值。 ::: ## 1 Introduction :::info 這篇論文的主要目的是探討開放式問答（Open-QA）任務的評估方法，這是一個直接估計大型語言模型（LLM）事實性的任務。作者指出，目前的自動評估方法存在局限性，不能準確地反映LLM生成的答案的品質和可信度。因此，他們提出了一個新的任務，評估問答評估（QA-Eval），以及一個新的數據集EVOUNA，用於評估AI生成的答案與Open-QA中的標準答案之間的準確性。他們利用人類註釋的結果來衡量這些方法的性能，並探討了如何改進基於LLM的評估器的方法。他們相信這個新的QA-Eval任務和相應的數據集EVOUNA將促進更有效的自動評估工具的發展，並對未來的研究有價值。這篇論文的主要貢獻有以下幾點： * 提出了一個新的任務，評估問答評估（QA-Eval），用於評估AI生成的答案與開放式問答（Open-QA）中的標準答案之間的準確性。 * 創建了一個新的數據集EVOUNA，包含了超過10萬個問題和答案對，以及人類註釋的評分，用於訓練和測試QA-Eval的方法。 * 比較了不同的自動評估方法，包括基於LLM的評估器，並分析了它們與人類評估的相關性和可靠性。 * 探討了當前方法的缺陷和改進基於LLM的評估器的方法，並提出了一些未來的研究方向。 ::: ## 2 Open Question Answering (Open-QA) :::info Open Question Answering (Open-QA) 是一種自然語言處理 (NLP) 的任務，目的是根據大規模的非結構化文檔來回答自然語言形式的問題1。 Open-QA 可以分為以下幾種類型： * 開放式書本抽取式問答（Open-book Extractive QA）：這種類型的問答需要先從一個開放式的資訊來源（例如網頁或文檔）中檢索相關的文本，然後從檢索到的文本中抽取出答案的片段12。這種類型的問答需要結合信息檢索（IR）和閱讀理解（ RC）的技術。 * 閉合式書本生成式問答（Closed-book Generative QA）：這種類型的問答不需要任何外部的資訊來源，而是直接從一個預先訓練好的大型語言模型（LLM）中生成答案13。這種類型的問答需要LLM具有強大的知識編碼和生成能力。 * 開放式書本生成式問答（Open-book Generative QA）：這種類型的問答結合了上述兩種類型的優勢，既可以利用外部的資訊來源，也可以從LLM中生成答案14。這種類型的問答需要LLM具有有效的知識檢索和融合能力。 ### 當前的評估方法 #### Lexical matching 如果產生的答案 $\hat{a}$ 與一個正確答案 $a ∈ A$ 完全匹配，我們將其分類為正確，否則分類為錯誤。由於LLM產生的答案通常很長，因此精確匹配不適用，因此如果AI生成的答案 $\hat{a}$中至少出現一個正確答案 $a ∈ A$，我們將其分類為正確，否則分類為錯誤。 #### Large Language Models 他們使用他們自己設計的 prompt 來詢問大型語言模型， prompt = “Here is a question, a set of golden answers (split with /), an AI-generated answer.Can you judge whether the AI-generated answer is correct according to the question and goldenanswers, simply answer Yes or No." + ‘Question: ’+q+‘; ’ + ‘Golden Answers: ’ + A+‘; ’+ ‘AI-generated answer: ’+$\hat{a}$+‘; ’+‘A:". q代表問題，A代表答案集合， $\hat{a}$代表模型的輸出答案 #### Neural Evaluation Methods Neural Evaluation Methods 是一種自動評估方法，用於測量AI生成的答案與標準答案之間的準確性，通過使用一些神經網絡或深度學習的模型。這篇論文中，作者使用了 BERTScore。BERTScore 是一種基於 BERT 的模型，用於預測人類對答案的文本相似度評分。 ::: ## 3 The EVOUNA Dataset :::info EVOUNA數據集由不同開放問答（Open-QA）模型的結果構成，包括FiD、GPT-3.5、ChatGPT-3.5/4和BingChat在自然問題（Natural Questions，NQ）和TriviaQA（TQ）數據集上的結果及其人類註釋。該數據集包括基於原始數據集和生成模型的不同組件，這些組件在表1中詳細列出。在QA-Eval任務中，評估模型$M$被給予一個開放領域問題$q$、一個AI生成的答案$\hat{a}$，以及一組標準答案$A$。任務要求模型評估AI生成答案與標準答案的正確性。預測結果$\hat{y}$應該是正面的（表示正確）或負面的（表示不正確）。 ### 任務性質及評估指標 QA-Eval任務在這種情境下被看作是一個二元分類任務，評估者的表現通過兩個指標來量化：準確度和F1分數。 ### EVOUNA數據集的示例表3提供了EVOUNA數據集中Natural Questions (NQ)子集的一個代表性例子。這個例子說明了不同模型對同一問題提供答案的過程，然後由人類評判員確定每個生成答案的準確性。 ![image](https://hackmd.io/_uploads/rJ5PWj43a.png) ### BingChat回答的標準化處理對於由BingChat產生的答案，我們進行了以下標準化處理： 1. 首先，我們移除了特殊符號和參考來源，以避免對評估模型性能的潛在影響。 2. 其次，一些BingChat的答案在末尾包含額外的問題，例如「你想要了解更多關於xx的信息嗎？」，這可能會導致評估模型回答這個問題，而不是提供判斷。因此，我們也移除了這些結尾問題。 ### 人工註釋過程我們研究的人工註釋過程是由作者自己進行的，從而消除了對外部付費服務的需求。該過程包括仔細移除不適當的問題和對模型生成的回答的正確性進行徹底評估。為了確保註釋過程的一致性和精確性，我們制定了詳細的指導方針，其中一部分可以在附錄C.2中找到。我們還對EVOUNA的每個子集中的500個樣本進行了互評者協議評估。這些評估的Cohen’s Kappa分數[Cohen 1960]代表互評者之間的一致性，並在表2中呈現。所有分數都在80以上，這表明我們的註釋之間存在強烈的一致性和協議。 ![image](https://hackmd.io/_uploads/rJQSXiVha.png) ::: ## 4 Experiments :::info ### Open-QA結果分析 Open-QA的結果展示在表4中。我們觀察到，通常使用的**词汇匹配度量標準與人類評估員評估的準確性在每個模型的輸出上並不一致**。此外，**模型間的相對排名也在词汇匹配度量和人類評估之間顯著不同**。 ![image](https://hackmd.io/_uploads/H1xB4oNna.png) ### ChatGPT-4 和 BingChat 模型的性能比較 ChatGPT-4和BingChat模型在Natural Questions（NQ）和TriviaQA（TQ）數據集上表現優於其他三個模型。然而，即使是這些表現最好的模型，ChatGPT-4和BingChat，在NQ上的準確率大約為80%，在TQ上為86%，這表明某些問題仍然具有挑戰性。DPR+FiD、GPT-3.5和ChatGPT-3.5在兩個數據集上的表現相當。Open-QA結果的更多分析可以在附錄E.1節中找到。 ![image](https://hackmd.io/_uploads/HJBWSsVna.png) ### 不同模型在EVOUNA數據集上的評估性能表5展示了在EVOUNA數據集的不同子集上不同模型的評估性能，這些模型包括Lexical Matching、BERT-Score、GPT-3.5和另一個用作參考的人類（Another Human）。這些子集根據用於創建它們的生成模型來識別，包括NQ-FiD、NQ-GPT35、NQ-ChatGPT35、NQ-ChatGPT4、NQ-BingChat及其TQ等價物。此外，我們還在附錄表8中呈現了精度和召回率的性能。 ![image](https://hackmd.io/_uploads/H1WBx-P36.png)  從表5中呈現的數據中，我們可以做出以下幾個關鍵觀察： #### BERT-Score分析 BERT-Score模型的性能通常比其他模型低，尤其是在TQ數據集上更為明顯。這可能意味著BERT-Score方法論，它利用預訓練的語言模型進行嵌入比較，可能在捕捉答案質量的複雜細節和精緻度方面存在困難，尤其是當AI生成的答案提供的信息比黃金標準更豐富時。 #### GPT-3.5的性能 GPT-3.5模型在所有數據集上的性能都相當不錯。然而，它的性能會根據數據集的不同而有顯著變化，這強調了特定數據集對評估這個模型的能力的影響。 #### 人類評估正如我們在前面提到的，我們也進行了互評者協議分析。這種次級評估產生了超過95%的準確率和F1分數，顯示出比所有使用的AI方法更優越的一致性。這一結果符合預期，因為人類評估員憑藉其天生的理解和評估能力，在準確評估答案質量方面往往優於AI模型。因此，人類評估員提供了一個重要的基準，可以用來衡量這些AI模型的性能。 #### 不同評估器給予的分數表6展示了不同評估者給予EVOUNA數據集中NQ和TQ子集的不同QA模型的評估分數，這些評估者包括詞匯匹配、BERT-Score、GPT-3.5，以及作為參考的人類評估者。這些分數顯示了不同QA模型的相對有效性。值得注意的是，**不同評估者給予不同QA模型的相對排名存在變化**，這表明評估者仍無法判斷不同模型在開放式問答（Open-QA）上的相對水平。例如，在NQ上，人類評估者將NQ-BingChat評為第二高，而GPT-3.5則將其評為最低。這些差異顯示沒有評估者能像人類一樣對NQ/TQ中不同QA模型輸出給出相同的相對排名，這揭示了開放領域QA模型評估的複雜性和細微差別。 ![image](https://hackmd.io/_uploads/Sk_Udo43p.png) 總之，這些發現突顯了在評估開放領域問答系統中答案質量所涉及的挑戰和複雜性。它們還強調了進一步研究的需要，以增強評估模型的性能，使其更接近人類級的評估能力。 ::: ## 5 分析 :::info ### QA-Eval結果分佈我們探討了包括詞匯匹配（Lexical Matching）、神經評估（BERT-Score），以及作為評估者的LLM（GPT-3.5）等不同評估者的評估結果。這些結果在圖1中使用餅圖展示，涵蓋了三種評估者在EVOUNA-NQ數據集的所有子集上的表現。 ![image](https://hackmd.io/_uploads/HyO15jEnp.png) 值得注意的是，詞匯匹配和GPT-3.5顯示出低比例的假陽性（False Positives），表明它們很少將不正確的答案誤判為正確。相比之下，BERT-Score在這兩種錯誤類型之間均勻分佈其錯誤。詞匯匹配在所有EVOUNA-NQ子集上保持一致的性能，而GPT-3.5特別在處理BingChat子集時遇到困難。這種差異可能是因為BingChat答案包含額外的信息和獨特的格式，這可能會干擾LLM的性能。詞匯匹配在很大程度上不受這些因素的影響。排除BingChat數據顯著提高了GPT-3.5的性能。 ### QA-Eval中的錯誤分析我們首先深入探討三種評估者類型的固有限制，考慮它們的內在機制和觀察到的錯誤案例。由於篇幅限制，這些限制的全面討論提供在附錄的E.4.1節。基於這些限制，我們設計了一套細緻的評估者錯誤類別。這包括所有評估者共有的兩種常見錯誤，即詞語轉換錯誤（Paraphrasing Error）和同義詞錯誤（Synonym Error），以及每種評估者類型特有的錯誤。具體而言，詞匯匹配存在部分匹配錯誤（Partial Match Error）、結構變化錯誤（Structure Variation Error）和整體誤導錯誤（Overall Misleading Error）；神經評估存在情境誤解錯誤（Contextual Misunderstanding Error）、閾值敏感性（Threshold Sensitivity）和擴展回答錯誤（Extended Answer Error）；LLM評估者存在字面理解錯誤（Literal Interpretation Error）、過度概括錯誤（Overgeneralization Error）、誤導強調錯誤（Misleading Emphasis Error）和不可知原因錯誤（Unknowable Reasons Error）。錯誤類別的詳細定義和示例可以在附錄的E.4.2節中找到。 ### QA-Eval中的錯誤分類根據錯誤類別，我們手動對詞匯匹配（Lexical Matching）、BERT-Score和GPT-3.5在我們的EVOUNA-NQ的每個子集上產生的錯誤進行了分類。對於每個子集，我們選擇了100個錯誤進行分析。我們在圖2中呈現了一個統一的結果（涵蓋所有子集）。更詳細的結果可以在附錄中的表11中找到。 ![image](https://hackmd.io/_uploads/BJUzjsVna.png) ![image](https://hackmd.io/_uploads/BJFQjsVhT.png) ### QA-Eval結果洞察根據每個評估者的限制和錯誤分類結果，我們提供以下洞察： #### 詞匯匹配（Lexical Matching）詞匯匹配雖然仍是開放式問答評估的一種簡單且有效的方法，但它在有限的情境理解、低召回率和結構變化方面存在困難。它經常將人類認為正確的答案標記為錯誤，但很少做相反的事情。這使詞匯匹配成為一種嚴格的衡量標準，適用於需要高錯誤召回的環境。當它將人類認為正確的答案標記為錯誤時，通常是因為生成的答案包含了黃金答案，但整體含義並不支持它。例如，它可能否定黃金答案或只將其作為回應的一部分。詞匯匹配在處理“結構變化”錯誤方面存在困難。例如，如果黃金答案是“8 September 2010”，而生成的答案是“Amnesia: The Dark Descent was released on September 8, 2010”，詞匯匹配無法識別它。其他兩種評估者很少有這個問題。由於其無法處理語義，它無法管理同義詞或情境理解情況。 #### 神經評估（這項工作中的BERT-Score和BLEURT）總體而言，它們並不適合這項QA-Eval任務，在三種類型中表現最差。它們只能衡量兩段文本之間的相似性。因此，它們能夠很好地處理同義詞錯誤。然而，如果生成的答案包含額外信息（在較大模型中常見），這很容易影響BERT得分。BERT-Score在情境理解方面並不出色。如果生成的答案解釋了黃金答案但沒有包含其實體，BERT-Score很容易判斷錯誤。通過調整閾值來適應這項QA-Eval任務是另一個問題。許多數據集對閾值設置非常敏感。 #### LLM評估者（本分析中的GPT-3.5）總的來說，LLM評估者可以作為詞匯匹配的補充，對於評估生成答案的準確性很有價值，但它仍然對提示和額外情境的影響敏感，尤其是對於BingChat答案。它最常見的錯誤是“詞語轉換錯誤”，可能是因為它容易受到其他情境的影響。它有自己的問題，比如“過度概括錯誤”，這在其他兩種評估者中不會出現，雖然它們是次要顧慮。有時LLM評估者會犯一些人類不會犯的明顯錯誤。例如，對於問題“西孟加拉邦的首位首席部長是誰？”黃金答案是“Prafulla Chandra Ghosh”，生成的答案是“西孟加拉邦的首位首席部長是Dr. Bidhan Chandra Roy。” GPT-3.5將生成的雖然詞匯匹配和LLM評估者相對於神經評估而言更有效，但它們仍然在與人類評估者相比時表現不佳，經常錯誤判斷正確的樣本。每種評估者都有其自身的優點和缺點。 #### 6.4 通過提示工程增強QA-Eval 我們還探討了通過提示工程改善LLM（特別是GPT-3.5）在QA-Eval中性能的策略。研究了四種不同的方法：忽略背景信息；提供判斷理由；思緒鏈（Chain of Thoughts）[Wei et al. 2022]；上下文學習（In-Context Learning）[Dong et al. 2023]。表12概述了在QA-Eval中使用GPT-3.5對每種方法使用的具體提示。這些提示旨在引發不同的模型行為或反應。例如，忽略背景信息、給出判斷理由、思緒鏈（Chain-of-Thoughts）和上下文學習（In-Context Learning）。 ![image](https://hackmd.io/_uploads/ByBJAjV2p.png) 我們採用了Auto-Cot [Zhang et al., 2023]的方法，使用K-Means聚類 [Hartigan and Wong, 1979]來選擇上下文學習的代表性示例。為了避免數據泄露，我們採用跨領域聚類；我們將NQ數據集聚類用於TQ實驗，反之亦然。例如，我們從NQ-ChatGPT4選擇代表性示例用於TQ-ChatGPT4實驗。每個數據集選擇四個代表性示例。表7展示了GPT-3.5評估者在EVOUNA-NQ數據集上使用不同提示的表現。以下是一些洞察： - 將GPT-3.5指導忽略背景信息會降低四個數據集（NQ-GPT35/ChatGPT35/ChatGPT4/BingChat）上的表現，這些數據集的答案較長。 - 要求模型對其判斷進行推理對所有數據集的表現都產生了負面影響。 - 思緒鏈（Chain-of-Thoughts）和上下文學習（In-Context-Learning）的效果各不相同。例如，這兩種方法都顯著提高了四個答案較長的數據集的表現，但思緒鏈在NQ-FiD上顯示出了明顯的下降。這種變化表明這些技術的影響取決於數據分佈。 ![image](https://hackmd.io/_uploads/SkPcCoNh6.png) ::: ## 6 結論 :::info 在本研究中，我們開發了EVOUNA數據集，專門用於評估開放式問答系統（Open-QA）的輸出，特別強調大型語言模型。我們的關鍵觀察是現有評估者的明顯不足——從傳統的詞匯匹配度量到神經評估模型和大型語言模型——在為這些輸出提供可靠評估方面。EVOUNA數據集提供了一種強大的工具，用於全面檢視開放式問答模型。我們檢查了QA-Eval任務中每種評估者類型的優缺點，並手動對它們在我們的數據集上產生的錯誤進行了分類。 :::