論文閱讀 : A Comparative Study of Quality Evaluation Methods for Text Summarization

# 論文閱讀 : A Comparative Study of Quality Evaluation Methods for Text Summarization ## 摘要 ### **研究問題** * 自動摘要的評估一直是 NLP 的難題。 * 傳統自動指標（如 ROUGE-2、BERTScore、SummaC）高度依賴「參考摘要 (reference summaries)」，在很多情況下不適用。 * 人工評估則耗時且成本高。 ### **研究動機** * 需要一種既能避免人工評估成本，又能比傳統自動指標更貼近人類判斷的方法。 * 作者希望藉由 **LLM 作為評估者 (LLM-based evaluation)** 來填補這個空缺。 ### **研究方法** * 提出一個新的 **LLM 驅動摘要評估方法**。 * 與 **8 個自動指標** + **人工評估** 進行對比。 * 測試對象：**7 種 SOTA 摘要模型**。 * 實驗資料：**專利文件 (patent documents)**。 ### **主要發現** * **LLM 評估結果與人工評估高度一致**。 * 傳統自動指標（ROUGE-2、BERTScore、SummaC 等）： * 與人類評估不一致 * 結果不穩定（缺乏一致性） ### **貢獻** * 實證顯示 LLM 可以用於更準確的摘要品質評估。 * 提出一個 **LLM 驅動的摘要評估框架**，可用於 **自動化評估** 與 **改善摘要模型**。 ## Introduction ### **1. 任務定義與應用** * **文本摘要 (Text Summarization)**：產生一個簡潔、連貫的摘要，保留原文的關鍵資訊與意義。 * **應用領域**：科學、醫學、法律文件 → 幫助快速掌握長篇內容。 ### **2. 兩大類方法** * **Extractive Summarization**（抽取式） * 從原文中抽取重要句子/片語。 * 優點：簡單、快速、準確，因為保留原文句子。 * 缺點：缺乏流暢性與連貫性。 * **Abstractive Summarization**（生成式） * 產生與原文不同的句子，但保留核心資訊。 * 優點：更自然、可讀性強。 * 缺點：容易產生 **幻覺 (hallucination)**，導致摘要與原文不一致。 * 研究指出：近 **30%** 的 SOTA 生成式摘要不忠實於原文。 ### **3. 摘要評估方法分類** * **依據參考文本 (Reference-based vs Reference-free)** * Reference-based：比較生成摘要與「參考摘要」的相似度。 * Reference-free：根據來源文件本身評估生成摘要。 * **依據執行方式 (Automatic vs Human Evaluation)** * **自動化方法**（快速、便宜、可擴展）： * **Text Overlap**：ROUGE, BLEU * **Vector-space Distance**：BERTScore, MoverScore * **Task-based Consistency**：SummaC, QuestEval * **人工評估**（可靠、權威，但成本高）： * 通常用 30–100 筆樣本，請評估者用 Likert scale（1–5 或 1–7）在多個維度打分。 ### **4. 現有問題** * **自動評估不足**：BLEU、ROUGE、BERTScore 等指標與人工評估相關性不佳，且多數為 reference-based，不適合 reference-free 場景。 * **人工評估不實用**：雖然可信，但太耗時、耗力，不適合用於模型開發迭代。 * **研究結論不一致**：部分研究認為 text-overlap 與人類評估高度相關，但近年研究否定此說法 → 評估方法需重新檢視。 ### **5. 本文研究問題** * **問題 1**：沒有完美的自動摘要評估指標。 * **問題 2**：人工評估過於昂貴與低效。 ### **6. 論文貢獻** 1. **全面評估**：比較最新 PLMs 與 LLMs 的摘要能力（以專利文件為例），使用自動與人工方法。 2. **重新檢視**：系統性重評目前廣泛使用的自動評估指標。 3. **提出框架**：設計一個基於 LLM 的框架，用於 **自動評估與改善摘要品質**。 ## Related Work : Text Summarization ### **1. Abstractive Summarization 基礎** * 大多依賴 **神經網路的 Seq2Seq 結構**： * **RNN Encoder–Decoder** (Bahdanau, 2015) * **Transformer Encoder–Decoder** (Vaswani, 2017) ### **2. RNN-Based 模型** ### **3. Transformer-Based 模型** ### **5. Sparse Attention 長文本模型** ## Related Work: Summarization Evaluation ### **1. Reference-based vs Reference-free** * **Reference-based** 評估 * 依賴「參考摘要 (reference summaries)」來判斷重要內容。 * 通過比較生成摘要與參考摘要的相似度來評估。 * **問題**：參考摘要可能過於簡略或根本不存在。 * **Reference-free** 評估 * 直接或間接從來源文件中抽取「重要資訊」作為基準，來評估生成摘要。 * **優點**：在參考摘要不足或缺失時特別有用。 * **本文重點**：研究主要聚焦於 **reference-free** 方法。 ### **2. Automatic vs Human Evaluation** * **Automatic Evaluation** * 優點：快速、便宜、可大規模處理。 * 缺點：難以評估人類關心的品質面向（清晰度 clarity、準確度 accuracy、覆蓋率 coverage 等）。 * **Human Evaluation** * 優點：可靠、可信度高，被視為 **gold standard**。 * 缺點：速度慢、昂貴、不適合在模型開發中頻繁使用。 ## Methodology: Summarization Models ### **1. 模型選擇範疇** 研究納入了多種類型的 **SOTA 預訓練語言模型 (PLMs) 與 LLMs**，涵蓋不同應用場景： 1. **Domain-specific models**：HUPD-T5-small, HUPD-T5-base（針對法律/專利文件）。 2. **General-domain models**：XLNet, BART, Pegasus（廣泛訓練於開放語料）。 3. **Long-input models**：LongT5, BigBird（支援長序列）。 4. **Large Language Models (LLMs)**：GPT-3.5（16k tokens）。目的：確保涵蓋 **法律領域、一般領域、長文本場景與 LLM**，做全面比較。 ### **2. 模型介紹** #### 🔹 **T5 Family**（Google） * Encoder–Decoder Transformer，將任務統一為 **text-to-text**。 * **HUPD-T5**： * Finetuned on **Harvard USPTO Patent Dataset (HUPD)** (2004–2018 專利申請)。 * 兩版本：`hupd-t5-small` 與 `hupd-t5-base`。 * **適用於法律/專利摘要**。 #### 🔹 **LongT5 (long-t5-tglobal-base-16384 + BookSum)** * T5 的長文本版本，**context window 擴展至 16,384 tokens**。 * 訓練於 **BookSum**（長篇書籍摘要語料）。 * 強於長文摘要，但訓練/推理計算需求大。 #### 🔹 **XLNet** * 自迴歸 Transformer（110M 參數）。 * **Permutation-based training** → 捕捉雙向上下文。 * 訓練語料：BooksCorpus、Wikipedia、Giga5。 #### 🔹 **BART** * Encoder–Decoder Transformer（140M 參數）。 * 訓練語料：BooksCorpus、Wikipedia、新聞、小說。 * 在 **摘要與 QA** 上廣泛使用。 #### 🔹 **BigBird** * 110M 參數，使用 **Sparse Attention (Random + Windowed + Global)**。 * 訓練語料：Wikipedia、BooksCorpus、新聞。 * **優點**：處理長序列時效能優於傳統 Transformer。 * **限制**：稀疏注意力可能捕捉較少上下文 → 輸出品質可能稍受影響。 #### 🔹 **Pegasus** * Encoder–Decoder Transformer，專為 **摘要預訓練目標設計**。 * 訓練語料：C4、HugeNews、PubMed、arXiv。 * 本研究使用 `pegasus-x-large-booksum-1`（568M 參數）。 * **在短文本與科學摘要上有強勢表現**。 #### 🔹 **GPT-3.5-turbo-16k** * **LLM (Large Language Model)**，具備 **16k context window**。 * 能產生 **流暢、類人類的摘要**。 * 文獻顯示：GPT-3.5/4 的摘要品質在人類偏好上 **顯著超越人類或傳統 PLMs (如 BART/T5)**。 ## Methodology: Dataset ### **1. 資料來源** * 收集 **1630 份專利文件**（透過 Google Patents 網頁爬取）。 * 範圍：**通訊與串流技術相關專利** → 減少主題複雜度，方便人工評估。 ### **2. 專利文件結構** * 專利文件通常包含： * **Abstract**（專利摘要，提供整體概覽） * **Claims**（專利權利要求，揭示新穎性與範圍） * **Detailed description, flow charts**（較冗長，次要） * 與 BIGPATENT 資料集不同： * BIGPATENT 僅將 abstract 視為參考摘要，但這樣 **缺乏 claims 的核心資訊**。 * 本研究：將 **abstract + claims** 作為 **輸入文本**，以便生成更完整的專利摘要。 ### **3. 人工評估資料抽樣** * 因人工評估成本高，僅 **隨機抽樣 30 份專利文件**。 * 選用代表性模型生成摘要進行人工評估： 1. **HUPD\_T5\_base** 2. **XLNet** 3. **BART** 4. **LongT5** 5. **GPT-3.5** 6. **LLaMA-3** （注意：這裡引入了一個新的 LLM） * 模型選擇依據：在傳統自動指標上的代表性表現。 ## Methodology: Evaluation Methods ### **1. 自動評估 (Automatic Evaluation)** * 選取 **8 個常用自動評估指標**（詳細內容下一段會展開）。 * 重點：不是所有自動指標都適合長文本摘要，因此需要嚴格篩選。 ### **2. 人工評估 (Human Evaluation)** * 對小樣本（30 份專利文件 × 代表模型）進行人工打分。 * 提供 **可靠性基準 (gold standard)**，作為比較基礎。 ### **3. LLM-based 評估** * 引入新的 **LLM-as-Judge** 方法，直接由 LLM 來進行摘要品質的判斷。 * 與自動評估、人工評估進行比較，驗證其可行性。 ## Automatic Evaluation Metrics (8 種) ### **1. ROUGE 系列** * **ROUGE-1** * 測量 **unigram (單字)** 的重疊率。 * 優點：簡單直觀。 * 缺點：不考慮詞序或語境。 * **ROUGE-2** * 測量 **bigram (連續兩字)** 的重疊率。 * 優點：捕捉部分語序與上下文。 * 缺點：仍較表層，無法衡量語意一致性。 * **ROUGE-L** * 基於 **Longest Common Subsequence (LCS)**。 * 優點：考慮詞序，比 unigram/bigram 更能反映摘要資訊性。 * 缺點：仍依賴參考摘要，語意敏感度有限。 --- ### **2. BLEU** * 最早用於機器翻譯，衡量 **n-gram (1\~4)** 的重疊程度。 * **幾何平均**計算不同 n-gram 的 modified precision。 * 分數範圍：0–1，越高表示越接近參考文本。 * 缺點：同樣依賴參考摘要，對語意/同義詞不敏感。 --- ### **3. BERTScore** * 基於 **BERT contextual embeddings**，比較 **語意相似度**。 * 可計算 Precision / Recall / F1，範圍 0–1。 * 優點：能捕捉語意關聯性，比 ROUGE、BLEU 更貼近人類評價。 * 缺點：仍需參考摘要；在長文本任務中效能可能下降。 --- ### **4. SummaC** * 測量摘要與來源文本的一致性（faithfulness）。 * 利用 **NLI 模型 (自然語言推理)** 檢測矛盾句子。 * **SummaC-ZS**：零樣本 NLI 模型。 * **SummaC-Conv**：額外 CNN finetune，表現最佳。 * 優點：直接針對 **忠實度 (faithfulness)**。 * 缺點：需要複雜模型，計算成本高。 --- ### **5. Flesch Reading Ease (FRE)** * 衡量文本可讀性： * $FRE = 206.835 - (1.015 \times ASL) - (84.6 \times ASW)$ * ASL = 平均句長；ASW = 平均音節數。 * 分數範圍：0–100，越高越容易讀。 * 缺點：只考慮句長與單詞長度，忽略語義與結構。 --- ### **6. Dale-Chall Readability (DCR)** * 可讀性評估，考慮「難字比例 (PDW)」與「平均句長 (ASL)」。 * $DCR = (0.1579 \times PDW \times 100) + (0.0496 \times ASL)$ * 分數越低 → 文本越難。 * 缺點：與 FRE 類似，無法捕捉內容/連貫性。 | 類別 | 指標 | 基礎原理 | 優點 | 缺點 | | ----------------------- | ----------- | -------------------- | ------------------ | --------------- | | **重疊式 (Overlap-based)** | ROUGE-1/2/L | n-gram 或 LCS 與參考摘要重疊 | 簡單直觀；ROUGE-L 考慮語序 | 僅表層相似度，不考慮語意 | | **翻譯傳統指標** | BLEU | n-gram 精確度幾何平均 | 廣泛使用；跨任務可比 | 不敏感於同義詞，過於僵硬 | | **語意向量** | BERTScore | BERT 向量相似度 | 捕捉語意，與人類評價較一致 | 依賴參考摘要；長文本表現下降 | | **忠實度檢測** | SummaC | NLI 檢測摘要與來源矛盾 | 直接檢查 hallucination | 模型成本高；依賴 NLI 質量 | | **可讀性** | FRE | 句長 + 單詞音節 | 簡單、直觀 | 忽略語義、結構 | | **可讀性** | DCR | 難字比例 + 句長 | 量化難度 | 同上，僅表層特徵 | ## Human Evaluation ### **1. 背景** * 現有自動指標 **無法穩定對齊人類評價**。 * 在 **法律文本摘要** 領域，**缺乏人工評估資料**。 * 因此作者設計了一個 **manual evaluation study**。 ### **2. 評估設計** * **參與者**：碩士生（資訊/工程領域） → 確保能理解專利/技術文件。 * **品質控管**： * 在測試題目中混入干擾題 (test questions)。 * 剔除答錯的低品質回覆。 ### **3. 評估維度 (Likert 1–5, Poor → Excellent)** 1. **Clarity**：摘要是否清楚易讀、表達流暢。 2. **Accuracy**：摘要是否準確反映來源文本內容。 3. **Coverage**：摘要是否涵蓋來源文本的重要資訊。 4. **Overall Quality**：整體上是否忠實傳達來源文件核心要點。 ## LLM-Based Evaluation (LLM 作為評估者) ### **1. 動機** * LLMs 具備理解指令與進行推理的能力 → **有潛力成為評估代理 (evaluation agent)**。 ### **2. 設計** * 為確保公平比較： * 對 **人類與 LLM** 使用 **相同的評估說明與指令 (prompts)**。 * 讓 LLM 根據 **相同四個維度 (Clarity, Accuracy, Coverage, Overall Quality)** 進行 1–5 Likert scale 評分。 ### **3. 研究目標** * 比較 LLM 評估結果與人工評估結果的一致性。 ## Summarization Improvement (基於 LLM Feedback 的摘要改進) ### **1. 理論基礎** * 借鑑 **Self-Refining** (Madaan, 2024) 與 **Self-Reflection** (Shinn, 2024) 概念。 * 類似人類修改文章：**初稿 → 評估 → 修正 → 新版本**。 ### **2. 方法** * 流程： 1. 生成 **初始摘要**。 2. LLM 對摘要進行 **四維度評估**。 3. 將 **LLM 評估結果融入 prompt**，引導生成下一版摘要。 4. **迭代 (iterative refinement)**，逐步提升摘要品質。 ## Results: Automatic Evaluation of Summarization Models ![image](https://hackmd.io/_uploads/Bktbyentge.png) ### **1. 評估指標** * **內容品質 (Content Quality)**：BLEU、ROUGE-1/2/L、BERTScore、SummaC * **可讀性 (Readability)**：FRE、DCR --- ### **2. 整體觀察** * **BLEU** * 所有模型分數極低（<< 0.01）。 * → 幾乎沒有辨識力，不適合摘要評估。 * **ROUGE & BERTScore** * **XLNet** 表現最佳（ROUGE 與 BERTScore 皆第一）。 * **GPT-3.5** 緊隨其後，BART 排第三。 * **BigBird** 表現最差（尤其在 ROUGE 與 BERTScore）。 * **SummaC (Faithfulness)** * **BART** 與 **XLNet** 得分最高，GPT-3.5 居中。 * **BigBird** 再次表現最差。 * **可讀性 (FRE / DCR)** * **T5 家族 (HUPD-T5)** 在可讀性上優於 XLNet / GPT-3.5 / BART。 * FRE：HUPD-T5-base 表現最佳 (\~41)，代表句子較易讀。 * DCR：LongT5 與 BART 稍微佔優，但差異不大。 --- ### **3. 模型表現排序** #### **內容品質 (語意/忠實度)** 1. **XLNet**（ROUGE, BERTScore 第一；SummaC 高分） 2. **GPT-3.5**（ROUGE/BERTScore 緊追） 3. **BART**（穩定第三） 4. **Pegasus / HUPD-T5**（中等） 5. **BigBird**（最差） #### **可讀性 (流暢性/易讀性)** 1. **HUPD-T5**（FRE, DCR 較高） 2. **LongT5 / BART**（次佳） 3. **GPT-3.5 / XLNet**（摘要清晰度不如 T5） 4. **BigBird**（差） --- ### **4. 關鍵發現** * **無法單一模型全面勝出**： * **XLNet/GPT-3.5**：內容品質最佳，但摘要不夠可讀。 * **T5 系列**：可讀性最佳，但內容品質不如前者。 * **BLEU 無效**：分數幾乎趨近 0，顯示其不適合作為長文摘要的評估指標。 * **BigBird 表現失敗**：儘管設計為處理長文本，但在本研究中結果最差。 * **一致性驗證**：全資料集與小樣本（30 documents）上的結果一致，支持結論穩健性。 ## Human vs LLM-based Evaluation ![image](https://hackmd.io/_uploads/SymokehFex.png) ### **1. 設計** * 評估維度：Clarity、Accuracy、Coverage、Overall Quality * 評估對象：5 個代表模型（HUPD-T5-base、XLNet、BART、LongT5、GPT-3.5） * 方式： * **人類評估**（碩士生標註） * **LLM 評估（GPT-4）**：同樣使用 1–5 Likert scale，與人類一致 ### **2. 結果比較** * **GPT-3.5** * 在四個維度上 **表現最佳**（Clarity \~4.55、Accuracy \~4.35、Coverage \~4.52、Overall \~4.45）。 * → 產生最清晰、準確、覆蓋完整的摘要。 * **XLNet & BART** * **Accuracy / Coverage** 接近，表現中等。 * **Clarity**：BART 略優於 XLNet。 * **HUPD-T5-base & LongT5** * **Clarity 最差**（\~2.0–2.3），摘要較難讀。 * 整體表現顯著低於 GPT-3.5 / XLNet / BART。 * **GPT-4 評估** * 與 **人類評估結果高度一致**。 * → 顯示 LLM-as-Judge 的潛力，可降低人工評估成本。 ## Meta-analysis: Automatic vs Human 評估的一致性 (Kendall Tau-b) ![image](https://hackmd.io/_uploads/SyNxWxhtlg.png) ### **1. 人類評估指標內部相關性** * **Accuracy, Coverage, Clarity, Overall** → 高度正相關 (0.8–0.95, \*\*\*顯著)。 * 人類在不同維度上的評分趨勢一致。 ### **2. Automatic Metrics vs. Human Evaluation** * **ROUGE-1 / ROUGE-L** * 與人類四維度 (accuracy, coverage, clarity, overall) **中等相關 (0.6–0.8)**。 * 但統計檢驗 → **不顯著** → 結果不穩定。 * **ROUGE-2 / BERTScore** * 與人類評估相關性 **低 (0.2–0.4)**。 * **SummaC** * 幾乎 **無顯著相關 (0–0.2)**，表現遠低於預期。 * **FRE / DCR (可讀性)** * 與大部分指標 **負相關**（含人類評估、ROUGE、BERTScore）。 * → 暗示 **可讀性 vs 內容豐富度之間存在 trade-off**： * 摘要若更容易閱讀，往往包含的資訊量較低，導致分數下降。 ### **2. LLMs vs. Human Evaluation** ![image](https://hackmd.io/_uploads/Byl_fe2Kle.png) * **GPT-4 與 Llama-3-8B** 評估 vs 人類： * **Accuracy / Coverage / Overall**：高度正相關 **(0.8–0.9, 顯著)**。 * **Clarity**：正相關 **(0.67–0.8)**，但統計檢驗不顯著（可能受隨機變異影響）。 * **GPT-4 與 Llama-3-8B 結果一致** → 顯示 **開源 LLM 也能可靠進行評估**。 * **多種相關係數檢驗 (Pearson, Spearman, Kendall)**： * 三種方法結論一致。 * **Kendall’s Tau-b** 數值較低，但趨勢一致。 **結論**： * LLMs（不論 GPT-4 或 Llama-3-8B）**可有效取代人類進行摘要評估**。 * 在 **專利 / 法律文本** 這種人工評估成本極高的場景，LLM-based 評估非常有價值。 ## Summarization Quality Improvement (基於 LLM Feedback 的改進) ### **1. 方法** * 使用 GPT-3.5 生成摘要，然後引入 **LLM 的 verbal feedback**（口頭評估意見）到下一輪 prompt 中，進行迭代改進。 ### **2. 結果 (Table \ref{tab\:sum\_improved})** ![image](https://hackmd.io/_uploads/rJ2izg2tee.png) * **Clarity**：4.167 → **4.5** ↑↑↑ （顯著提升） * **Coverage**：3.567 → **3.833** ↑↑ （中等提升） * **Accuracy**：3.9 → **3.833** ↓ （略微下降） * **Overall quality**：3.967 → **3.933** ↓ （輕微下降，不顯著） ## 核心結論 1. **Automatic metrics ≠ 人類評估**： * ROUGE-1 / L 勉強有用，SummaC 與可讀性指標不可靠。 2. **LLM 評估 ≈ 人類評估**： * GPT-4 與 Llama-3-8B 在三個核心維度高度對齊人類結果。 * Clarity 上稍弱，但整體仍可信。 3. **LLM Feedback 能提升摘要品質**： * Clarity & Coverage ↑，Accuracy 稍降。 * 顯示「**生成 ↔ 評估 ↔ 改進**」的迴圈有效，但需精細化設計避免精準度下降。 ## Conclusion & Future Work ### **1. 研究總結** * **比較方法**： * 傳統自動指標（ROUGE, BLEU, BERTScore, SummaC, FRE, DCR） * 人工評估 * LLM-based 評估 * **Meta-analysis**：探討自動指標、人類、LLM 評估間的一致性。 ### **2. 主要發現** * **自動指標局限性**： * **ROUGE-2, BERTScore, SummaC** 與人工評估相關性極弱或不顯著。 * **可讀性指標 (FRE, DCR)** 與大部分指標（含人工）呈 **負相關**。 * **LLM 作為評估者**： * GPT-4、Llama-3-8B 與人類評估結果高度一致。 * 開源 LLM 也能可靠執行摘要評估任務。 * **LLM 反饋改進**： * 使用 LLM 的 **verbal feedback** 進行迭代改進，摘要在 **Clarity 與 Coverage** 上顯著提升。 * **Accuracy** 略微下降 → 後續需針對此面向優化。 ### **3. 未來工作** * 進一步改善 **Accuracy** 與其他品質維度。 * 探索更廣泛領域（非僅限法律文件）的摘要評估與改進。 * 持續驗證開源 LLM 在專業場景中的評估穩健性。 ## 附錄 ## Reference-free Human Evaluation ### **1. 多維度評估指標** ![image](https://hackmd.io/_uploads/rJOHBx3Yle.png) 常見的人工摘要評估維度（大多屬於 reference-free）： * **Readability**：可讀性，是否易於閱讀。 * **Fluency**：流暢性，語法是否正確。 * **Consistency**：一致性，摘要是否事實上能從原文推導。 * **Faithfulness**：忠實性，摘要是否完整反映原文資訊。 * **Relevance**：相關性，是否選取了原文中的重要內容。 * **Content Quality**：摘要是否涵蓋關鍵資訊。由於人工成本高，實際上評估常縮減為 **Fluency / Coherence / Consistency / Relevance**。 ## Improving Summarization Quality ```python= PROMPT = """"You are an advanced summarization agent that can improve based on self-reflection. You will be given a previous trial in which you were asked to summarize a patent document. Your summary quality was assessed and recorded in the evaluation feedback. Now follow the below steps to produce a better-quality summary: 1. Read the given evaluation feedback to identify what can be improved in this trial. Skip the positive feedback, as no improvement is required. 2. Summarize the following original document by following the suggested improvement in step 1. Quality evaluation feedback given to that summary: {feedback}\n\n Original patent document to summarize: {data_input}""" ``` ## G-eval https://cookbook.openai.com/examples/evaluation/how_to_eval_abstractive_summarization?utm_source=chatgpt.com