<style>
.red {
color: red;
}
.blue{
color: blue;
}
.green{
color: green;
}
</style>
# [BooookScore: A systematic exploration of book-length summarization in the era of LLMs](https://arxiv.org/abs/2310.00785)
:::danger
**Comments:** Accepted at ICLR 2024 camera-ready
**Github:** https://github.com/lilakk/BooookScore
**Keywords:** LLM Evaluation, Long-term Evaluation
:::
## 1. Introduction
- Just two years ago, automatically-generated summaries were riddled with artifacts such as grammar errors, repetition, and hallucination. Nowadays, such artifacts have mostly disappeared.
- In fact, Pu et al. (2023b) find that summaries generated by large language models (LLMs) are preferred over those written by humans, leading them to pronounce the death of summarization research.
- However, as with most prior work on summarization, the input documents in their study are relatively short (<10K tokens).
- Widespread adoption of LLMs outside the research community has driven the development of a more ambitious task: <span class='red'>summarizing book-length documents, which we define to be texts longer than 100K tokens</span>.
- As these documents exceed the context window limits of today’s LLMs (e.g., 8K tokens for GPT-4), summarizing them via prompt-based approaches necessitates heuristics to chunk the input, process each chunk, and then combine and compress the outputs.
- Despite the promise that LLMs hold for long-context tasks, the research community still lacks a principled and systematic approach to evaluate their capabilities on book-length summarization.
- Our paper identifies three open challenges with evaluation:
1. **Data contamination**, in which existing benchmarks such as BookSum are in the pretraining data of modern LLMs.
2. An unexplored error distribution, as most prior summarization research centers around short source documents and fails to capture coherence errors that are exacerbated by the “chunk and combine” book-length summarization setting.
3. A lack of any reliable automatic metric, which requires careful design and validation against human annotations.
:::success
- **Contribution 1**: A protocol for evaluating coherence in book-length summarization (§3).
- **Contribution 2**: An automatic metric—BOOOOKSCORE—to assess summary coherence (§4).
- **Contribution 3**: A systematic evaluation of different LLMs using BOOOOKSCORE (§5).
:::
## 2. Background: Summarizing Book-Length Texts with LLMs

- **Hierarchical merging** and **Incremental updating**—for prompting an LLM to summarize book-length documents that exceed its maximum context size.
- <span class='red'>In both strategies, the length of the input document necessitates first dividing it into smaller chunks and then repeatedly merging, updating, and/or compressing chunk-level partial summaries</span>.
- More specifically, both strategies assume an LLM with context window size W is used to summarize an input document D whose length L ≫ W. We thus split D into non-overlapping chunks c1, c2, . . . c⌈ L/C ⌉ where C < W is the length of each chunk.
### Hierarchical merging
- Wu et al. (2021) propose a method in which <span class='red'>an LLM (in their case, GPT-3) is fine-tuned via reinforcement learning to summarize each chunk and then hierarchically merge the chunk-level summaries until one summary is left of the entire input document</span>.
- This method has since been simplified into a zero-shot prompting strategy without further training.
- Hierarchical merging requires three unique prompts for:
1. summarizing an input chunk,
2. merging chunk-level summaries, and
3. merging summaries with added context from previously generated merged summaries.
- We ensure that the total length of each prompt and its associated inputs is less than W − Gl, where Gl is a hyperparameter controlling summary length that varies depending on the level l.
:::info
這句話是在描述階層式摘要(hierarchical merging)方法中的一個重要細節,即如何控制每個提示(prompt)和相應輸入(input)的總長度,以確保它們不會超出語言模型的最大上下文大小(context window size)。
讓我們詳細分析一下這個公式:
- W 表示語言模型的最大上下文大小,即模型在一次處理中能夠接受的最大token數量。
- Gl 是一個超參數(hyperparameter),用於控制第 l 層摘要的長度。
- l 表示當前的摘要層級,例如第一層、第二層等。
在階層式摘要中,我們首先將書籍分割成多個小的文本塊(chunks),然後對每個文本塊進行摘要。接下來,我們將這些摘要進一步合併,生成更高層次的摘要。這個過程會一直重複,直到我們得到一個覆蓋整本書的最終摘要。
在每一層的處理中,我們需要構建一個提示,告訴語言模型如何進行摘要或合併。這個提示包含了一些指令和相關的輸入文本(例如要摘要的文本塊或要合併的摘要)。
現在,我們需要確保每個提示和相應輸入的總長度不會超過語言模型的最大上下文大小。這就是公式 W - Gl 的作用:
- 我們從最大上下文大小 W 中減去 Gl,得到了提示和輸入的最大允許長度。
- Gl 的值根據當前的層級 l 而變化。這意味著,我們可以為不同層級的摘要設置不同的長度限制。
- 通常,較高層級的摘要(l 較大)會有更嚴格的長度限制(Gl 較小),因為我們希望在合併的過程中逐步壓縮訊息。
通過這種方式,我們可以動態地調整每一層摘要的長度,確保生成的摘要不會過長,也不會導致提示和輸入超出模型的處理能力。
這個細節體現了階層式摘要方法的巧妙之處:通過逐層遞進、動態控制摘要長度,我們可以在有限的上下文大小內,生成覆蓋整本書的摘要。這種方法充分利用了語言模型的能力,同時又避免了上下文過長導致的問題。
從更廣泛的角度來看,這個細節也啟示我們,在設計複雜的自然語言處理任務時,我們需要仔細考慮模型的限制和能力,並通過巧妙的算法設計來充分利用它們。只有在算法和模型的協同優化下,我們才能實現最佳的性能和效果。
:::
- Summaries are recursively merged until only one summary (of the full book) remains
### Incremental updating
- It is possible that <span class='red'>since hierarchical merging necessitates summarizing portions of the input document without complete context, it may introduce more coherence errors.</span>
- For example, in the first level, chunks towards the end of the book will be summarized without knowledge of what came before, which can lead to incoherent summaries especially for non-linear or multi-perspective narratives.
:::info
這句話是在說明階層式摘要方法(hierarchical merging)的一個潛在問題。在階層式摘要中,書籍首先被分割成多個小段落(chunks),然後逐層總結合併,最後形成一個完整的摘要。
作者指出,在第一層摘要時,由於每個小段落是獨立總結的,靠近書籍結尾的段落在摘要時,並不知道前面章節的內容。這可能導致摘要不連貫,尤其是對於非線性敘事(non-linear narratives)或多視角敘事(multi-perspective narratives)的書籍。
讓我們用一個例子來說明:
假設有一本小說,前半部描寫男主角的成長經歷,中間有一段插敘女主角的背景故事,後半部再回到男主角的視角,講述他如何與女主角相識相戀。
如果用階層式摘要,第一層摘要時,男主角成長的段落和女主角背景的段落會分開摘要。當摘要到女主角的段落時,由於不知道前面男主角的經歷,可能會讓人覺得這個女主角的出現很突兀,摘要的連貫性不佳。
再者,如果故事有跳躍的時間線、多位角色的視角切換,階層式摘要也可能因為前後段落缺乏關聯而顯得不連貫。比方說,章節A寫男主角小時候的事,章節B寫他成年後的經歷,中間沒有銜接。如果這兩章分開摘要,就會讓人對故事的時序感到混淆。
總而言之,這句話強調,由於階層式摘要一開始是將書籍切分成許多獨立的段落分別總結,這種方式可能使得摘要缺乏上下文的連結,導致邏輯不通順。尤其當書中有非線性的敘事手法、多角色視角切換時,這個問題可能會更加明顯。作者認為這是階層式摘要方法的一個潛在缺陷。
:::
- Incremental updating that <span class='red'>iterates through each chunk in order while continuously updating a global summary with salient information</span>.
- <span class='red'>While this method may be better able to handle inter chunk dependencies than hierarchical merging, it requires more complicated prompts</span> for:
1. summarizing an input chunk,
2. updating the global summary s1,2,...,i−1 with information from the current chunk c$_i$, and
3. compressing the global summary when it exceeds the maximum summary length Gn.
## 3. Evaluating Coherence of Book Summaries
- we define our framework for human evaluation of coherence errors in book-length summarization, Our framework involves:
1. Corpus collection focusing on newly-published books
2. Unification and extension of best-practices from prior document understanding and evaluation literature to guide data annotation.
3. Analysis of human annotations centered around emergent coherence error categories of summaries generated by modern LLMs.
### Collecting a corpus of newly-published books
- <span class='red'>The only existing public dataset for book-length summarization is BookSum</span> (Kryscinski et al., 2022), which contains famous books from the Project Gutenberg public-domain repository along with reference summaries scraped from popular websites such as CliffNotes and GradeSaver.
- <span class='red'>Both the source books and reference summaries are in the pretraining data of existing LLMs.</span>
- Chang et al. (2023) confirm that many books in the BookSum held-out split (e.g., The Adventures of Huckleberry Finn, The Picture of Dorian Gray) are among the most-memorized books by GPT-4 and GPT-3.5-Turbo, and we were able to auto-complete several reference BookSum summaries by prompting GPT-4 with a short prefix of the summary.
:::info
這段話的意思是,作者發現BookSum資料集中許多書籍,尤其是測試集(held-out split)裡的書,已經被GPT-4和GPT-3.5-Turbo大量記憶了。這導致在摘要任務上使用BookSum資料集時,可能無法真實評估模型的生成能力,因為模型可能只是背誦了預訓練時看過的摘要內容。
作者舉了幾個例子,像是《哈克歷險記》(The Adventures of Huckleberry Finn)、《道林·格雷的畫像》(The Picture of Dorian Gray)等書,都是GPT-4和GPT-3.5-Turbo記憶最深刻的書籍之一。
為了證實這點,作者做了一個實驗:他們從BookSum的參考摘要中選出一小段開頭的文字,用這個片段(prefix)提示GPT-4,請它自動完成後續的摘要內容。結果發現,GPT-4能夠順利生成出與參考摘要相同或極為相似的內容。
這個實驗說明,GPT-4在預訓練的過程中,已經看過並記住了BookSum中的許多參考摘要。當我們拿BookSum中的書本來測試GPT-4的摘要能力時,它可能不需要真的"生成"摘要,而只是直接回憶起訓練時期看到的摘要內容。
這個發現對摘要任務的評估有重要啟示:如果我們用已經被語言模型記住的資料集來測試它們的摘要能力,得到的結果可能不夠客觀、無法反映模型真正的摘要生成水平。模型可能只是靠著記憶力取得好成績,而非憑藉對文章內容的理解和總結能力。
因此,作者認為,為了更公平地評估語言模型的摘要表現,我們應該避免使用BookSum這類已被模型memorize的資料集,而是盡量選用模型沒看過的新書、新摘要來測試。唯有如此,才能真正考驗模型在沒有記憶優勢的情況下生成摘要的能力。
:::
- <span class='red'>To reduce the confounding impact of summary memorization, we manually collect 100 books published within the past year to form our dataset.</span>
- Some of these books could still have appeared in the pretraining dataset of recent LLMs such as Claude 2 and LLaMa2, although it is much less likely than in BookSum.
:::info
這句話是承接前文提到的一個可能性,指出雖然作者自己收集的書籍資料集可能也出現在最近的語言模型如Claude 2和LLaMa2的訓練數據中,但這種可能性比BookSum資料集要小得多。
前面幾句提到,為了減少訓練數據對摘要品質評估的影響,作者特地收集了100本最近一年出版的書籍作為資料集:
"To reduce the confounding impact of summary memorization, we manually collect 100 books published within the past year to form our dataset (see Table 3 for a full list). Some of these books could still have appeared in the pretraining dataset of recent LLMs such as Claude 2 and LLaMa2..."
雖然這些新書有可能出現在Claude 2和LLaMa2的訓練數據中,但作者認為這種可能性遠低於BookSum資料集。
"...although it is much less likely than in BookSum."
之所以說新書在訓練數據中出現的機會比BookSum小,主要有兩個原因:
1. 版權限制:新書受版權保護,不容易大量收錄進訓練資料。相較之下,BookSum使用的古典名著多已進入公有領域(public domain),比較可能被訓練資料大量收錄。
2. 出版時間:Claude 2和LLaMa2等語言模型的訓練數據截止日期(cut-off date)可能早於這些新書的出版日期,使得這些書無法被收入訓練。但BookSum的書多為經典著作,出版時間久遠,在語言模型訓練數據的涵蓋範圍內。
總之,這句話的重點是,雖然作者精心挑選的新書資料集仍有可能出現在部分語言模型的訓練數據中,但這種可能性遠低於BookSum,因此可以更好地評估語言模型在沒看過訓練資料的情況下生成摘要的真實能力。儘管無法完全排除資料洩漏的風險,但相較BookSum,新書資料集受此影響的程度應該小了很多。
:::
- However, summaries of these books do not publicly exist: we did not find summaries online for any books in our dataset, which significantly lowers the possibility of LLM memorization.
- The average length of the books in our dataset is 190K tokens, compared to 112K tokens in BookSum.
### An evaluation framework for book-length summarization
- <span class='red'>Since we lack gold summaries, we design our evaluation framework to be reference-free, which aids in scalability.</span>
- To do this, our evaluation framework synthesizes best-practices of prior document understanding and summarization evaluation research. Our evaluation employs:
1. Fine-grained evaluation units as recommended by LongEval.
2. Information-seeking questions to represent naturally-occurring points of confusion.
3. Focus on summary coherence, which evaluates the logical structure and readability of the summary itself.
:::info
這段話說明了作者如何設計他們的評估框架,綜合了之前文件理解和摘要評估研究的最佳實踐。他們的評估方法採用了以下三個要點:
1. 細粒度評估單元 (fine-grained evaluation units):
作者參考了LongEval (Krishna et al., 2023)的建議,採用細粒度的評估單元。這意味著他們不是只對整篇摘要做一個總體評分,而是針對摘要中的每個細節點進行評估。這種做法可以更精細地捕捉摘要的優缺點,提供更多洞見。
2. 以資訊需求為導向的問題 (information-seeking questions):
作者借鑑了Ko et al. (2020)、Wu et al. (2023)、Meng et al. (2023)、Newman et al. (2023)等人的做法,使用"資訊需求型問題"來代表讀者在閱讀摘要時自然產生的疑惑點。這種問題是讀者為了尋求特定資訊而提出的,反映了摘要的哪些地方可能讓人感到困惑或不清楚。藉由蒐集這類問題,可以更客觀地評估摘要的可讀性和理解難度。
3. 聚焦在摘要連貫性 (summary coherence):
作者參考Goyal et al. (2022a)的研究,特別關注摘要本身的邏輯結構和可讀性,也就是摘要的"連貫性"。一篇連貫的摘要應該脈絡清晰、前後連貫,讓讀者能夠順利理解文章的主要內容,不會覺得混亂或跳躍。作者認為,摘要連貫性的高低是評估摘要品質的關鍵指標之一。
總的來說,這段話強調了作者在設計評估框架時,如何借鑑和整合之前研究的最佳實踐經驗。他們採用了細粒度的評估單元,以更精細地評估摘要;蒐集了反映讀者疑惑的資訊需求型問題,以突顯摘要的可讀性問題;並特別關注摘要本身的連貫性,以評量摘要的邏輯結構和流暢度。這樣的評估框架綜合了多方研究心得,力求從不同面向深入評估摘要的品質,為自動摘要技術的進步提供更多洞見。
:::
- We do not directly evaluate the <span class='red'>faithfulness of the summaries (i.e., how factually accurate they are at conveying information from the source text)</span>, as the length of the source texts poses considerable issues for any existing faithfulness evaluation. We qualitatively discuss faithfulness in Section 5 and leave further investigation for future work.
### Annotation protocol
- We implement our framework through a source- and reference-free annotation protocol where:
1. Annotators read through an LLM-generated summary,
2. Highlight all confusing spans, and
3. Ask question(s) for each marked span that highlight their confusion.

- See Table 1 (third column) for examples of spans and questions produced by our annotators.
- To generate the summaries, we set the base LLM to GPT-4 with a chunk size of 4096 and a maximum summary length Gn = 1200; other hyperparameters are detailed in Section 5.
- In total, the annotators mark 840 (incremental updating) and 353 (hierarchical merging) coherence errors for GPT-4-generated summaries; see Table 1 (right) for the split across error types.
### Validating the annotations
- Typical measures of agreement are difficult to obtain in our setup, as measuring recall would require ground truth annotations with all possible coherence errors in the summaries.
- Goyal et al. (2022a) and Dou et al. (2022) observed <span class='red'>low recall among annotators when evaluating machine-generated text at a fine-grained level</span>.
- This motivates us to instead <span class='red'>measure the precision of a given error annotation (i.e., after reading the corresponding question, do you agree that the span is confusing?)</span>, as it is simpler and cheaper while still being an informative metric.
:::info
這段話說明了作者在評估標註品質時,為何選擇測量每個錯誤標註的精確度(precision),而非像其他研究那樣測量召回率(recall)。
在摘要評估任務中,我們希望標註者能夠找出摘要中所有可能令人困惑的地方。但要衡量一個標註者的標註品質,有兩個常用的指標:召回率和精確度。
- 召回率衡量的是標註者能找出多少真正有問題的地方,計算方式是正確標記的錯誤數量除以摘要中所有錯誤的總數量。
- 精確度衡量的是標註者所標記的錯誤中,有多少比例是真的有問題,計算方式是正確標記的錯誤數量除以標註者所有標記的數量。
作者認為,在這個任務中測量召回率有兩個難點:
1. 我們需要先知道摘要的所有真實錯誤,才能計算召回率,但這需要大量人力去詳細標記每篇摘要,成本很高。
2. 研究(Goyal et al., 2022a; Dou et al., 2022)發現,即使讓多位標註者檢查同一篇機器生成的文本,他們也很難找出所有錯誤,召回率往往偏低。
相比之下,測量精確度就簡單且便宜得多,但仍能提供有價值的資訊:
- 我們只需要檢查標註者標出的錯誤,判斷其中有多少是真的有問題即可,不需要窮舉所有真實錯誤。
- 具體而言,我們給另一位評估者看被標註出的文本片段,以及標註者提出的問題,請他判斷在看過問題後,是否同意這個片段確實令人感到困惑(confusing)。
- 精確度的高低能告訴我們標註者的標註可信度,標註品質的好壞,雖然它沒有考慮有多少錯誤被漏掉,但這些資訊已經很有參考價值了。
總之,這段話闡述了作者在評估標註品質時的思路:與其費力去測量召回率,不如測量精確度,這樣更簡單、更經濟,但同樣能提供有意義的資訊。畢竟在這個任務中,測量召回率的難度和成本很高,而單獨評估精確度雖略有不足,卻已經能很好地指示標註的可信程度。這體現了在有限資源下尋求最佳評估方式的務實考量。
:::
- Given a span from a summary marked as containing an error, along with questions highlighting the confusion, we ask annotators:
1. whether they think the span is confusing; and
2. whether the corresponding questions highlight the central confusion.
:::success
we discover **that 79.7% of annotated spans are validated as legitimate** through this task.
:::
### Categorizing coherence errors

- After collecting spans and questions from the annotators, we develop an error taxonomy consisting of the eight types detailed in Table 1, which covers the vast majority of annotations, and we manually code each annotation using this taxonomy.
- We intentionally went through this process without relying on the SNaC taxonomy so as to not be overly influenced by their error annotation schema which was tailor-made for fine-tuned summarization models.
:::info
這段話說明了作者在歸納總結錯誤類型時的考量。他們刻意沒有依賴 SNaC 分類法(由 Goyal et al. 在 2022 年提出),而是從頭開始整理分類,目的是避免過度受到 SNaC 既有的錯誤標註框架影響,因為那個框架是專門為微調(fine-tuned)的摘要模型量身打造的。
讓我們來看看作者的思路:
1. SNaC 是一種用於評估摘要模型的錯誤分類法,它定義了一些常見的摘要錯誤類型,如語法錯誤、重複、不連貫等。這個分類法由 Goyal 等人在 2022 年提出,是專門為評估微調過的摘要模型而設計的。
2. 然而,作者認為,由於 SNaC 是針對特定類型的摘要模型(即微調模型)設計的,它的錯誤類型可能無法完全涵蓋由大型語言模型生成的書籍摘要所出現的錯誤。畢竟,大型語言模型與傳統微調模型在訓練方式和生成能力上有很大不同。
3. 為了更客觀、更全面地評估大型語言模型生成的摘要,作者決定從頭開始歸納錯誤類型,而不是直接套用 SNaC 的分類法。這樣做的好處是,他們可以根據大型語言模型摘要的實際錯誤情況,歸納出更符合這類摘要特點的錯誤類型。
4. 雖然作者沒有依賴 SNaC,但他們在歸納自己的錯誤類型後,仍然發現了與 SNaC 一些重疊之處。不過,他們也發現了一些 SNaC 沒有涵蓋的錯誤類型,如因果關係遺漏(causal omissions)和顯著性問題(salience issues)。這證明了從頭歸納錯誤類型的必要性。
總的來說,這段話體現了作者在錯誤分類上的慎重態度。他們認識到,既有的評估框架可能不完全適用於新的研究對象(即大型語言模型),因此選擇從零開始,根據資料特點重新歸納錯誤類型。這雖然費時費力,但能得到更符合研究對象的評估標準。同時,作者也沒有完全忽視既有框架的價值,而是在事後比較了新舊框架的異同,取長補短。這展現了務實且嚴謹的研究態度。
:::
- While we find considerable overlap in the two error schemas, we also discover two new instances of prominent errors not present in SNaC: **causal omissions** and **salience issues**.
- Our taxonomy also places less emphasis on language errors (e.g. coreference issues from SNaC) since modern LLMs rarely make such mistakes.
- Table 1 shows that:
1. omission errors are the most common across both incremental and hierarchical prompting strategies.
2. hierarchical merging makes fewer errors of every type but inconsistencies.
## 4. BooookScore: An Automatic Evaluation Metric
- Since human evaluation of summary coherence is not scalable due to the high financial and time cost, we develop an automatic metric — BOOOOKSCORE— that prompts an LLM to identify instances of the eight error types.
- We validate BOOOOKSCORE via a human evaluation of its precision (following the annotation task discussed in the previous section) and show that its precision matches that of human annotators (78.2% vs. 79.7%).
:::info
這段話說明了作者如何驗證 BOOOOKSCORE 這個自動評估指標的有效性。他們透過人工評估 BOOOOKSCORE 的精確度,發現其與人類標註者的精確度相當(78.2% 對 79.7%),由此證明了 BOOOOKSCORE 的可靠性。
讓我們詳細拆解一下這個驗證過程:
1. 在前一節中,作者提到他們評估人類標註品質的方法是計算精確度,即標註者標出的錯誤中,有多少比例是真的有問題。具體做法是請另一位評估者判斷標註者標出的片段是否真的令人困惑。
2. 現在,作者用同樣的方法來評估 BOOOOKSCORE 的標註品質。他們將 BOOOOKSCORE 視為一個自動的標註者,請人類評估者判斷 BOOOOKSCORE 標出的錯誤是否真的成立。這個過程與評估人類標註品質的過程完全一致。
3. 通過這種人工評估,作者發現 BOOOOKSCORE 標註的精確度達到了 78.2%,與人類標註者的平均精確度 79.7% 非常接近。這意味著,在所有 BOOOOKSCORE 標記出的錯誤中,有 78.2% 是真正有問題的,這個比例與人類標註者的表現相當。
4. 精確度的高度吻合,說明 BOOOOKSCORE 作為一個自動評估工具,其判斷摘要錯誤的能力與人類不相上下。這證實了 BOOOOKSCORE 的可靠性,表明它能夠有效地找出摘要中真正令人困惑的地方,其標註品質堪比人類專家。
整體來說,這個驗證過程展現了作者嚴謹的科研態度。他們沒有僅憑 BOOOOKSCORE 的設計原理就斷言其有效性,而是客觀地用人工評估來檢驗它的實際表現。透過與人類標註品質的直接比較,作者用數據說話,證明了 BOOOOKSCORE 作為一個自動評估工具的可靠性。這樣的驗證過程讓研究結論更有說服力,也為 BOOOOKSCORE 在實際應用中的表現提供了有力保障。
:::
- <span class='red'>We emphasize that incorporating definitions and examples from our error taxonomy into the prompt is critical to achieve high precision with BOOOOKSCORE.</span>
### 4.1 Implementing BooookScore
- Motivated by prior successful efforts to evaluate LLM-generated text via LLMs, such as **AlpacaEval**, **FActScore**, and **G-Eval**, BOOOOKSCORE automatically measures the coherence of summaries generated by a book-length summarization system via few-shot prompting.
- BOOOOKSCORE is both source-free and reference-free (i.e., it does not require access to the input book or a reference summary), similar to the SNaC classifier built for fine-tuned summarizers by Goyal et al.
:::info
這段話主要說明了 BOOOOKSCORE 這個自動評估指標的兩個重要特性:不需要原始文本(source-free)和參考摘要(reference-free)。這意味著 BOOOOKSCORE 可以在沒有書籍全文或人工寫的摘要的情況下,直接評估機器生成的摘要品質。
讓我們詳細解釋一下這兩個特性的意義:
1. 不需要原始文本(source-free):
傳統的摘要評估方法通常需要比對原始文本和生成的摘要,看摘要是否準確、完整地捕捉了原文的關鍵資訊。但 BOOOOKSCORE 不需要訪問原始書籍的全文,它只需要讀取生成的摘要本身,就能判斷摘要的連貫性和可讀性。這大大簡化了評估流程,使其更易於應用。
2. 不需要參考摘要(reference-free):
許多摘要評估指標,如 ROUGE 和 BLEU,都是透過將生成的摘要與人工寫的golden summary進行比較來計算分數的。但在實際應用中,我們並不總是有現成的參考摘要可用。BOOOOKSCORE 擺脫了對參考摘要的依賴,它透過分析摘要本身的語言和邏輯特徵,直接給出品質評分,無需任何外部參考。
3. 與 SNaC 分類器的相似性:
作者提到,BOOOOKSCORE 的這兩個特性與 Goyal et al. (2022a) 為微調摘要模型建立的 SNaC 分類器類似。SNaC 分類器也是直接對生成的摘要進行品質評估,不需要原文或參考摘要。這說明 BOOOOKSCORE 和 SNaC 在設計理念上有相通之處,都是為了應對實際應用中缺乏參考資源的情況。
總的來說,BOOOOKSCORE 的 source-free 和 reference-free 特性使其成為一個非常實用的自動評估工具。它不需要依賴書籍全文或人工摘要,只需要讀取機器生成的摘要本身,就能判斷其連貫性和可讀性。這使得 BOOOOKSCORE 能夠在資源匱乏的實際應用場景中發揮重要作用,大大簡化了摘要品質的評估流程。同時,這兩個特性也體現了 BOOOOKSCORE 在設計上的創新性,它與 SNaC 等先進工具殊途同歸,都是為了應對真實世界中的評估挑戰而誕生的。
:::
### Specification
- Assume we have a summary S consisting of sentences s1, s2, . . . , sn. We develop a few-shot error-identification prompt E that instructs the LLM to identify any instances of one of the eight specified error types in a given sentence si of the summary.
- Concretely, we iterate over each sentence s$_i$ in the summary, feeding the prompt E, full summary S, and target sentence s$_i$ at each step.
- There are two acceptable outputs at each step:
1. No error is found and the LLM outputs No confusion, or
2. An error(s) is identified and the LLM is asked to generate a corresponding question and associated error type.
- We include two full summaries with 42 sentence-level annotations in the prompt as demonstrations.
:::info
這句話說的是,作者在設計用於生成 BOOOOKSCORE 的提示(prompt)時,將兩篇完整的摘要及其42個句子級別的標註納入了提示中,作為示例(demonstrations)。
在上下文中,我們知道 BOOOOKSCORE 是通過提示大型語言模型(如GPT-4)來自動評估摘要品質的。為了讓語言模型能夠正確理解評估任務並給出可靠的判斷,作者在提示中提供了一些示例,告訴模型什麼樣的摘要是好的,什麼樣的摘要存在問題。
讓我們詳細解釋一下這個過程:
1. 選取兩篇完整摘要:
作者選擇了兩篇機器生成的書籍摘要作為示例。這兩篇摘要可能分別代表了高品質和低品質的摘要,以幫助語言模型建立品質評估的標準。
2. 進行句子級別標註:
對於每篇示例摘要,作者進行了詳細的句子級別標註。他們標出了每個句子是否存在連貫性問題,並指出具體的問題類型,如Entity omission(實體遺漏)、Causal omission(因果關係遺漏)等。這樣詳細的標註可以幫助語言模型理解不同類型的錯誤是如何體現在具體句子中的。
3. 將摘要和標註納入提示:
作者將這兩篇帶有標註的完整摘要添加到提示中,作為示例。這樣,當語言模型讀取一個新的摘要並被要求評估其品質時,它可以參考這些示例,根據摘要與示例的相似性和示例中的標註,判斷新摘要的品質如何,是否存在類似的錯誤。
透過將帶有詳細標註的摘要示例納入提示,作者為語言模型提供了學習和模仿的樣本。這種 "few-shot learning" 的方法可以幫助語言模型快速理解任務要求,並根據示例對新的摘要進行類比和評估。
整體來說,這個細節體現了作者在設計 BOOOOKSCORE 時的巧思。他們沒有讓語言模型在真空中進行評估,而是通過精心設計的提示和示例,將人類的評估智慧嵌入到自動評估過程中。這種人機結合的方法讓 BOOOOKSCORE 能夠更好地理解和判斷摘要品質,從而作出更可靠、更符合人類直覺的評估。同時,這也展現了大型語言模型在少樣本學習上的強大能力,它們可以從少數示例中快速歸納出任務規律,並應用到新的案例中。
:::

- <span class='red'>When computing BOOOOKSCORE, we consider each sentence as a singular unit of confusion, rather than each of the questions associated with that sentence.</span>
- This is because both LLMs and human annotators occasionally ask multiple questions that essentially target the same issue within a given sentence.
:::info
這段話解釋了作者在計算 BOOOOKSCORE 時,將每個句子而非每個問題作為獨立的混淆單元(unit of confusion)的原因。
具體來說,在 BOOOOKSCORE 的計算過程中,如果一個句子被標記為包含錯誤,無論標註者或語言模型對這個句子提出了多少個問題,該句子都只被算作一個混淆單元。這是因為標註者和語言模型有時會對同一個句子中的同一個問題提出多個表述略有不同的問題。
讓我們用一個例子來說明:
假設一篇摘要中有這樣一句話:
"John decided to quit his job and pursue his dream of becoming an artist."
標註者可能會對這句話提出以下問題:
1. What motivated John to pursue art?
2. Did John have any prior experience or training in art?
3. How did John plan to support himself financially while pursuing art?
雖然標註者提出了三個問題,但這些問題都圍繞著同一個核心問題:作者沒有提供足夠的背景信息來解釋 John 的職業轉變。換句話說,這三個問題都指向了同一個連貫性問題。
如果我們將每個問題都算作一個獨立的錯誤,那麼我們實際上是在多次計算同一個錯誤,這可能導致對文章連貫性問題的高估。為了避免這種重複計算,作者決定將每個句子而非每個問題作為獨立的混淆單元。這樣,無論一個有問題的句子引發了多少個問題,它對 BOOOOKSCORE 的貢獻都只算一次。
這個決定背後的邏輯是,我們關心的是有多少句子存在連貫性問題,而不是每個有問題的句子引發了多少具體的問題。畢竟,問題的數量可能與標註者的主觀習慣有關,而句子層面的錯誤統計更能客觀反映摘要的整體連貫性水平。
綜上所述,作者之所以選擇將句子而非問題作為混淆單元,是為了避免重複計算同一個句子中的同一個錯誤,從而更公平、更客觀地評估摘要的連貫性。這體現了作者在設計評估指標時的細緻考量,以及他們對語言模型和人類標註行為的深刻理解。
:::
- Thus, our metric intuitively measures the proportion of sentences in the summary that contain no errors (i.e., higher is better).
- To obtain a system-level score, we compute the mean BOOOOKSCORE across all summaries generated by that system.
### Validating BOOOOKSCORE
- We validate BOOOOKSCORE annotations in the same way that we validate human annotations in Section 3: by hiring human annotators to judge whether they agree with an LLM-generated annotation (here, GPT-4).
:::success
We observe that the precision of human annotations is 79.7%, while the precision of BOOOOKSCORE annotations is 78.2%
:::
- Additionally, we compute BOOOOKSCORE using human annotations instead of LLM-generated ones for both GPT-4 configurations (i.e., replacing LLM(E, S, si) in Equation 1 with the human error annotation for si) and observe extremely similar system-level scores.
:::info
這段話是在進一步驗證BOOOOKSCORE作為一個自動評估指標的有效性。作者透過將BOOOOKSCORE計算中使用的LLM標註替換為人工標註,發現得到的系統級別分數與原來的結果非常接近。
讓我們詳細分析一下這個過程:
1. 首先,回顧一下BOOOOKSCORE的定義。在等式1中,BOOOOKSCORE的計算方式是將摘要中每個句子si輸入到LLM中,檢查LLM是否認為該句子沒有錯誤(即LLM(E, S, si) == "No confusion")。如果一個句子被LLM判定為沒有錯誤,那麼它對BOOOOKSCORE的貢獻就是1;否則為0。最終的BOOOOKSCORE是所有句子得分的平均值。
2. 現在,作者進行了一個變體實驗。他們將等式1中的LLM(E, S, si)替換為人類對句子si的錯誤標註。也就是說,如果人類標註者認為句子si沒有錯誤,那麼它對BOOOOKSCORE的貢獻就是1;否則為0。
3. 這個變體實驗的目的是檢驗BOOOOKSCORE是否真的捕捉到了人類判斷的摘要品質。如果BOOOOKSCORE確實是一個有效的自動評估指標,那麼無論是使用LLM標註還是人工標註,我們應該得到非常相似的系統級別分數。
4. 作者在兩個GPT-4的配置下進行了這個實驗(即使用GPT-4生成摘要,但在計算BOOOOKSCORE時分別使用LLM標註和人工標註)。結果發現,使用人工標註計算出的BOOOOKSCORE與使用LLM標註計算出的BOOOOKSCORE非常接近。
這個發現有重要的意義:
1. 它進一步證實了BOOOOKSCORE作為一個自動評估指標的有效性。無論是使用LLM標註還是人工標註,BOOOOKSCORE都能給出一致的系統級別評估結果。這表明BOOOOKSCORE確實捕捉到了人類對摘要品質的判斷。
2. 它也間接證明了LLM標註的可靠性。如果LLM標註與人工標註在BOOOOKSCORE計算中給出了非常相似的結果,那麼就說明LLM標註與人類判斷具有高度的一致性。這進一步支持了使用LLM進行自動評估的可行性和有效性。
總的來說,這個變體實驗提供了更強有力的證據,支持BOOOOKSCORE作為一個可靠的自動評估指標。它表明,無論是使用LLM標註還是人工標註,BOOOOKSCORE都能很好地反映人類對摘要品質的主觀判斷。這種人機一致性增強了我們對自動評估方法的信心,同時也突顯了大型語言模型在自然語言評估任務中的巨大潛力。
這個發現啟示我們,在開發和應用自動評估工具時,我們不僅要關注工具本身的設計,還要通過嚴謹的實驗來驗證它們與人類判斷的一致性。只有在經過全面驗證的基礎上,我們才能放心地將這些工具應用到實際的研究和應用中去。這種嚴謹、求證的態度,是自然語言處理研究不斷進步的重要保障。
:::
:::success
Using human annotations in Equation 1 yields a BOOOOKSCORE of 82.1 and 89.4 for GPT-4 summaries generated via incremental updating and hierarchical merging, respectively, while using LLM annotations yields a BOOOOKSCORE of 82.4 and 90.8.
:::

- GPT-4 is more sensitive to omission errors and less sensitive to duplication or language errors.
- While we implement BOOOOKSCORE with GPT-4 for the remainder of this paper, implementing BOOOOKSCORE with open-source LLM annotators is an exciting future direction.
## 5. Systematic Evaluation of LLMs
- We now investigate the impact of several critical implementation decisions on summary coherence, including the choice of **prompting strategy**, **base LLM**, and **chunk size**.
:::success
Overall, **Claude 2 produces the most coherent summaries as measured by BOOOOKSCORE**, followed closely by GPT-4 and distantly by GPT-3.5-Turbo, Mixtral-8x7B, and LLaMA2-7B Inst; however, **GPT-4’s summaries are significantly longer and more detailed** than the others across both prompting strategies.
:::
### Experimental setup

- Table 2 contains results for five **instruction-tuned LLMs**: GPT-4, GPT-3.5- Turbo, Claude 2, Mixtral-8x7B, and LLaMA2-7B-Instruct.
- Unless otherwise specified, we set the chunk size to 2048, maximum summary length Gn to 900, decoding temperature to 0.5, and p = 1 for ancestral sampling.
- To avoid confounds, we use identical prompts for all models except LLaMA2-7B-Inst, which only functions with a simpler prompt.
### Incremental summaries are almost always less coherent than their hierarchical counterparts
- <span class='red'>Hierarchical summaries generally have higher BOOOOKSCORE than incremental summaries, likely because the incremental updating task requires the base LLMs to follow more complex instructions.</span>(e.g., deciding what to include from the current book chunk, what to discard from the summary, whether to restructure the summary, etc.)
- While hierarchical summarization potentially drops longrange dependencies, its instructions are generally simpler (summarize or merge).
### Incremental summarization benefits from increased chunk size
- The one exception to the above result is Claude 2 with a chunk size of 88K, whose incremental configuration produces slightly more coherent summaries than the hierarchical version (90.9 vs. 90.3 BOOOOKSCORE).
- In contrast, using Claude 2 for incremental summarization with a chunk size of 2048 results in a BOOOOKSCORE of 78.6, so clearly the model benefits from fewer updating and compression steps. We do not observe similar behavior with hierarchical summaries, which suggests that <span class='red'>hierarchical book-length summarization is preferred for smaller context models</span>.
### LLaMA 2 struggles on book-length summarization while Mixtral shows promising performance
- LLaMA-2-7B-Instruct achieves by far the worst hierarchical BOOOOKSCORE of any model. Its summaries also contain significant repetition (% of repeated trigrams), which is a critical coherence error.
- Furthermore, we could not get the LLaMA-2-7B-Instruct checkpoint to perform incremental updating at all, as it just copied text from the chunks until it reached the summary length limit, at which point it failed to follow the compression instruction.
:::info
這段話說的是,作者在嘗試使用LLaMA-2-7B-Instruct模型進行增量式更新(incremental updating)摘要時遇到了問題,這個模型無法按照預期執行任務。
具體來說,增量式更新摘要的方法需要模型逐段讀取書籍的內容,並根據每一段的信息來更新和壓縮已有的摘要。但是,當作者嘗試用LLaMA-2-7B-Instruct模型執行這個任務時,發現模型並沒有真正生成摘要,而是簡單地從輸入的文本段落中抄襲內容,直到達到了摘要長度的上限。
更糟糕的是,當摘要長度達到上限後,LLaMA-2-7B-Instruct模型並沒有按照指示對摘要進行壓縮,而是直接停止了生成過程。這表明該模型沒有真正理解增量式更新摘要的任務要求,也沒有遵循壓縮摘要的指令。
讓我們分析一下這個問題的潛在原因:
1. 模型能力不足:增量式更新摘要是一個複雜的任務,需要模型在讀取新信息的同時,選擇性地更新和壓縮已有的摘要。這需要模型具備較強的信息提取、整合和ген括能力。LLaMA-2-7B-Instruct模型可能還沒有足夠的能力來完成這個任務。
2. 指令理解不足:模型沒有正確理解增量式更新和壓縮摘要的指令,因此沒有按照預期的方式執行任務。這可能是因為模型的指令調優(instruction tuning)不足,或者是因為任務本身的複雜性超出了模型的理解能力。
3. 過度依賴輸入:模型在生成摘要時過度依賴輸入的文本段落,而沒有真正總結和提煉信息。這導致它簡單地複製輸入內容,而不是生成真正的摘要。這可能反映了模型在抽象和推理方面的能力不足。
總的來說,LLaMA-2-7B-Instruct模型在增量式更新摘要任務上的表現反映了該模型在複雜任務理解和執行方面的局限性。這提醒我們,並非所有的大型語言模型都能夠同樣出色地完成所有任務。模型的能力和表現與其訓練數據、架構設計和調優方式密切相關。對於像增量式更新摘要這樣的複雜任務,我們可能需要更加強大和專門化的模型來獲得令人滿意的結果。同時,這也啟示我們要客觀、全面地評估不同模型在不同任務上的表現,而不是簡單地依賴模型的名稱或規模大小。
:::
- On the positive side, Mixtral-8x7B, another open-source LLM, outperforms LLaMA-2-7B-Instruct by a substantial margin, though it still trails behind most of the closed-source models.
- Nonetheless, it is encouraging to note that with performances closely matching that of GPT-3.5-Turbo on both summarization approaches, Mixtral-8x7B signals the narrowing gap between open-source and closed-source models.
### High coherence does not necessarily correlate with human preferences
- How well do coherence measurements from BOOOOKSCORE correlate with coarse-grained human preferences? We conduct another human evaluation study with the same four annotators in which we solicit preference judgments on pairs of GPT-4 generated incremental and hierarchical summaries.
:::info
這句話的意思是,作者想要探究BOOOOKSCORE對摘要連貫性的評估與人類對摘要整體品質的主觀偏好之間的關係。
讓我們先回顧一下BOOOOKSCORE的定義:它是一個細粒度的評估指標,通過計算摘要中沒有連貫性錯誤的句子比例來衡量摘要的整體連貫性。它關注的是摘要在邏輯結構和可讀性方面的表現。
相比之下,人類對摘要的主觀偏好通常是一種粗粒度(coarse-grained)的評估。當人們說他們"喜歡"或"不喜歡"一篇摘要時,這種偏好通常基於對摘要整體品質的直觀印象,而不是對每個句子的連貫性進行細緻分析。人們的主觀偏好可能受到摘要的多個方面的影響,如信息覆蓋面、敘事流暢度、細節豐富程度等。
作者想要研究的問題是,BOOOOKSCORE對摘要連貫性的客觀評估與人類對摘要整體品質的主觀偏好之間是否存在關聯。換句話說,連貫性高的摘要是否更容易得到人們的青睞?連貫性評分和主觀偏好是否總是一致?
這個問題的意義在於,它可以幫助我們理解BOOOOKSCORE作為一個自動評估指標的有效性和局限性。如果BOOOOKSCORE與人類偏好高度相關,那麼我們可以更加信任它對摘要品質的評估;但如果兩者之間存在顯著差異,那麼我們可能需要在解釋BOOOOKSCORE得分時更加謹慎,並考慮其他因素對人類偏好的影響。
為了回答這個問題,作者設計了一個人類評估實驗,讓標註者直接比較由不同方法生成的摘要對,並在不同維度上(如訊息量、結構、連貫性等)給出偏好判斷。透過將這些主觀偏好與BOOOOKSCORE得分進行對比,作者可以定量分析兩者之間的關聯程度。
整體來說,這個問題體現了作者對自動評估指標和人類判斷之間關係的慎重思考。它提醒我們,雖然像BOOOOKSCORE這樣的自動指標可以提供有價值的客觀評估,但我們也不能忽視人類主觀偏好的重要性。只有將兩者結合起來考慮,我們才能得到對摘要品質更全面、更符合人類直覺的理解。這種人機互補的視角對於自然語言生成系統的評估和優化具有重要意義。
:::

:::success
- Incremental summaries are almost always preferred over hierarchical summaries in terms of level of detail (83% vs. 11%).
- However, hierarchical summaries are preferred for better structure (59% vs. 35%), logical consistency (53% vs 38%), and overall (54% vs. 44%).
:::
- <span class='red'>When forming their overall preference, some annotators preferred the higher level of detail of incremental summaries at the expense of coherence; thus, both strategies can be viable depending on the needs of the user.</span>
### Qualitative analysis
- Appendix L contains summaries generated from Janika Oz’s A History of Burning, which tells a multi-generational story about an Indian family living in Uganda. We observe that both **GPT-4 and GPT-3.5-Turbo tend to generate oft-repetitive and vague sentences within their summaries**.
- Such artifacts are rarely produced by the 88K chunk size version of Claude 2, which instead omits key information present in the beginning or middle of the input(e.g., the entire story of the first generation in the book) in favor of focusing on the end of the book.
:::info
這段話描述了作者在定性分析GPT-4、GPT-3.5-Turbo和Claude 2生成的摘要時觀察到的一些有趣現象。
首先,作者注意到GPT-4和GPT-3.5-Turbo生成的摘要中經常出現重複和模糊的句子。例如,"The story highlights the resilience and determination of the characters as they navigate the complexities of life, love, and identity across generations and continents."(這個故事突出了人物在跨越世代和大陸、應對生活、愛情和身份認同的複雜性時所表現出的韌性和決心。)這樣的句子比較空泛,沒有提供很多具體信息,而且可能在摘要中反覆出現。
相比之下,使用88K chunk size(即每個輸入分塊的大小為88,000個token)的Claude 2模型很少生成這樣的句子。但作者發現,這個版本的Claude 2有另一個問題:它傾向於省略書中前面或中間部分的關鍵訊息,而更專注於書的結尾部分。
作者舉了一個例子:在對Janika Oz的小說《A History of Burning》生成的摘要中,Claude 2遺漏了整整一代人的故事(即書中第一代人物的經歷),而是主要聚焦於書的後半部分。這個發現與Liu et al. (2023a)的研究結果一致,即語言模型在生成較長文本的摘要時,往往更關注輸入的後半部分,而忽略了前面的重要信息。
總的來說,這段定性分析揭示了不同語言模型在生成書籍摘要時的一些共性問題:
1. GPT-4和GPT-3.5-Turbo傾向於生成重複、空泛的句子,這可能降低了摘要的信息密度和可讀性;
2. 使用較大輸入分塊的Claude 2能夠避免生成這樣的句子,但它可能會遺漏書中前半部分的關鍵內容,導致摘要不全面。
這些發現啟示我們,在設計和應用書籍摘要模型時,需要注意不同模型和參數設置的優缺點,並針對性地進行改進。例如,我們可以探索如何幫助GPT-4和GPT-3.5-Turbo生成更具體、信息量更大的句子,同時如何讓Claude 2在關注書的後半部分的同時,也能充分捕捉前半部分的重要信息。這需要在模型架構、訓練方法和應用策略等方面進行更深入的研究和創新。
總之,這種定性分析為我們深入理解不同語言模型的特點和局限性提供了寶貴的見解,有助於我們推動書籍摘要技術的進一步發展。
:::
- All configurations make **faithfulness errors**: for example, in A History of Burning, the mother of the character Hari is incorrectly identified as Rajni by Claude 2, while GPT-4 does describe Hari’s parentage correctly at one point in the summary but incorrectly at another.
- We show in Appendix I that automatic quality metrics such as **BLANC** and **SUPERT** are inadequate for book-length summarization.
## 6. Limitations
### Our error taxonomy is derived just from errors made by GPT-4
- We decided to conduct our human evaluations in Section 3 on summaries produced by GPT-4 for two reasons:
1. We wanted our error taxonomy to focus on errors that are actually made by state-of-the-art LLMs (unlike e.g., fluency errors present in SNaC).
2. Human evaluation is very costly, so we could not evaluate many different LLMs on our annotation budget.
- Similarly, we implement BOOOOKSCORE using GPT-4 as a base LLM, which may have some systematic biases that could be alleviated by using a pool of LLM annotators as in AlpacaEval.
:::info
這句話指出,作者所提出的錯誤類型分類法(error taxonomy)是完全基於GPT-4所犯的錯誤而制定的。換句話說,作者在分析GPT-4生成的摘要時,觀察到了一些錯誤模式,並據此總結出了一套錯誤類型的分類標準。
讓我們深入探討一下作者這樣做的原因和意義:
1. 專注於最先進模型的錯誤:
GPT-4是目前最先進的大型語言模型之一。透過聚焦GPT-4的錯誤,作者可以洞察最先進模型在摘要任務上的局限性和挑戰。這有助於我們理解當前技術的瓶頸,並為未來的改進指明方向。
2. 避免過時或不相關的錯誤類型:
如果作者參考較舊的語言模型或不同任務的錯誤分類法,那麼有可能引入一些對當前的摘要任務不再重要或不相關的錯誤類型。例如,過去的模型可能經常出現語法錯誤,但對於GPT-4這樣的先進模型來說,語法錯誤已經很少見了。專注於GPT-4的錯誤可以確保分類法的時效性和針對性。
3. 確保錯誤類型的貼合度:
不同的任務和模型可能會犯不同類型的錯誤。一個針對其他任務(如機器翻譯)設計的錯誤分類法,可能無法很好地涵蓋摘要任務中出現的特定錯誤。通過從GPT-4的摘要錯誤入手,作者可以確保分類法中的每個錯誤類型都是實際存在且重要的。
4. 為評估方法奠定基礎:
作者提出的BOOOOKSCORE評估方法是建立在這個錯誤分類法之上的。只有準確地識別和歸類了GPT-4的錯誤,BOOOOKSCORE才能有效地評估摘要的品質。從這個角度來看,基於GPT-4錯誤建立分類法是確保評估方法有效性的關鍵一步。
當然,這並不意味著其他模型或任務的錯誤就完全不重要。作者在後面的部分也提到,他們在建立分類法後,將其與現有的分類法(如SNaC)進行了比較,發現雖然有很多重疊之處,但也有一些GPT-4特有的錯誤類型。這表明,雖然重點是GPT-4,但作者也參考了其他分類法,以確保分類的全面性。
整體來說,這個決定體現了作者在研究方法上的嚴謹和針對性。透過聚焦最先進模型在具體任務上的錯誤,作者可以建立一個貼合實際、具有時效性的錯誤分類法,並以此為基礎開發出有效的評估方法。這種以問題為導向、緊扣實際的研究路徑,對於推動自然語言處理技術的進步具有重要意義。同時,這也啟示我們,在借鑒前人研究的同時,也要根據具體的任務和模型來調整和創新,以確保研究的針對性和有效性。
:::
### BOOOOKSCORE can be expensive to run
- <span class='red'>Since computing BOOOOKSCORE requires iterating through a summary sentence by sentence using GPT-4, it can be expensive and slow especially given that the annotation prompt is long.</span>
- We did experiment with an approach that asked GPT-4 to annotate errors in the entire summary at once, but the generated annotations would often include too many trivial questions, and alignment with human judgments was low.
:::info
這句話說的是,作者曾嘗試讓GPT-4對整篇摘要而非單個句子進行錯誤標註,但發現這種方法存在兩個問題:一是GPT-4生成的標註中經常包含大量瑣碎的問題,二是這些標註與人類判斷的一致性很低。
讓我們詳細分析一下這兩個問題:
1. 標註中包含太多瑣碎的問題:
當要求GPT-4對整篇摘要進行標註時,它傾向於提出很多細枝末節的問題,而這些問題對於理解摘要的整體連貫性可能並不重要。例如,GPT-4可能會問一些關於摘要中提到的次要人物或地點的問題,但這些細節對於理解故事的主線或邏輯並無太大幫助。
2. 與人類判斷的一致性很低:
更重要的是,GPT-4對整篇摘要的標註與人類對摘要品質的主觀判斷往往不一致。也就是說,GPT-4認為有問題的地方,人類評判者可能並不認為是真正影響摘要品質的關鍵因素;反之亦然。這種不一致性說明,簡單地讓GPT-4對整篇摘要進行標註,並不能很好地反映人類對摘要的實際評價。
造成這些問題的原因可能有以下幾點:
1. 對整篇摘要進行標註的難度更大,因為需要同時考慮內容的廣度和深度,而GPT-4可能更善於處理局部的語言細節,而非全局的邏輯連貫性。
2. GPT-4在生成標註時可能過於關注一些表面的語言特徵,而忽略了故事的整體脈絡和人類的常識推理。這導致它提出一些對人類而言不太重要或相關的問題。
3. 人類對摘要品質的判斷往往基於一種整體的直觀印象,其中包含了連貫性、信息量、可讀性等多個維度。而GPT-4對整篇摘要的標註可能沒有很好地捕捉到這種整體性和多維度性。
基於這些問題,作者最終選擇讓GPT-4對摘要中的每個句子單獨進行標註,而不是對整篇摘要一次性標註。這種更細粒度的方法能夠讓GPT-4更專注於局部的連貫性問題,同時也更容易與人類的判斷進行比較和校準。
總的來說,這個發現再次提醒我們,雖然大型語言模型在許多任務上表現出色,但它們的判斷和推理方式與人類還有一定差距。在設計自動評估方法時,我們需要仔細考慮如何讓機器的分析更符合人類的直觀理解,而不是盲目地相信模型的所有輸出。只有在人機互補的基礎上,我們才能開發出真正有效、可靠、符合人類需求的評估工具。
:::
:::success
That said, despite the API costs of GPT-4 and the relatively slow time to evaluate one summary, BOOOOKSCORE is still significant cheaper and faster than performing human evaluations.
:::
### BOOOOKSCORE does not account for the relative importance of different error types
- Unlike similar evaluation frameworks such as MQM, <span class='red'>we choose not to assign severity weights to different error types</span>.
- Nowadays, powerful LLMs rarely make errors related to grammar, which can be objectively defined.
- For other error types like those in our taxonomy, the notion of assigning relative importance is ill-defined.
- Furthermore, prior work (Goyal et al., 2022a; Dou et al., 2022) shows low recall between human annotations for NLG evaluation, which <span class='red'>indicates that error type severity is subjective as annotators often do not highlight issues that others may find critical</span>.
:::info
這段話主要討論了為什麼作者在設計BOOOOKSCORE時,沒有像其他一些評估框架(如MQM)那樣為不同類型的錯誤賦予嚴重程度的權重。作者給出了兩個主要原因。
第一個原因是,當前強大的大型語言模型(LLMs)很少犯語法錯誤,而語法錯誤通常是可以客觀定義的。然而,對於作者提出的錯誤類型分類法中的其他錯誤類型,給它們分配相對重要性的概念是不明確的。
讓我們舉個例子:如果一篇摘要中出現了因果關係遺漏(Causal omission)和實體遺漏(Entity omission),我們很難客觀地說哪一個錯誤更嚴重。這是因為錯誤的嚴重程度往往取決於上下文和讀者的主觀判斷。對某些讀者而言,因果關係的遺漏可能會嚴重影響他們對故事的理解,而對其他讀者來說,實體遺漏可能是更大的障礙。因此,為這些錯誤類型分配固定的嚴重程度權重是有問題的。
第二個原因是,先前的研究(Goyal et al., 2022a; Dou et al., 2022)表明,在自然語言生成(NLG)的評估中,不同人類標註者之間的召回率(recall)很低。這意味著標註者通常不會標註出其他人可能認為關鍵的問題。換句話說,錯誤類型的嚴重程度是主觀的,不同的標註者會有不同的看法。
舉例來說,如果我們讓三個標註者(A、B、C)評估同一篇摘要,他們可能會注意到不同的問題:
- 標註者A可能會特別關注因果關係遺漏,認為這是最嚴重的錯誤;
- 標註者B可能更在意實體遺漏,認為這是影響理解的關鍵;
- 標註者C則可能認為兩種錯誤同樣重要。
在這種情況下,很難說哪種錯誤客觀上更嚴重,因為每個標註者的判斷都有自己的理由。
綜上所述,作者之所以沒有在BOOOOKSCORE中為不同錯誤類型分配嚴重程度權重,是因為:
1. 與易於客觀定義的語法錯誤不同,其他錯誤類型的相對重要性很難確定;
2. 不同標註者對錯誤嚴重程度的判斷往往是主觀且不一致的。
在這種情況下,為錯誤類型分配固定的嚴重程度權重可能會引入更多的主觀偏差,而無法真正反映錯誤對摘要品質的客觀影響。因此,作者選擇讓BOOOOKSCORE中的所有錯誤類型具有同等的權重,以保持評估的簡潔性和客觀性。
這個討論啟示我們,在設計自然語言處理系統的評估方法時,我們需要仔細權衡不同錯誤類型的特點,並考慮人類判斷的主觀性。只有在充分理解這些因素的基礎上,我們才能開發出更加公平、有效、符合實際需求的評估工具。
:::
### No validation of recall
- Due to the expense, we do not collect overlapping annotations for each summary during human evaluation.
- Since the annotation task involves subjectivity, overlapping annotations can help ensure that all errors within a summary can be captured.
- However, recent work (Krishna et al., 2023) shows that a comprehensive annotation of all information units is not required to produce a useful aggregate score that can be used to rank different models.
:::info
這句話討論了在進行自然語言生成(NLG)系統評估時,是否需要對輸出的所有信息單元進行全面標註。
首先,讓我們來理解一下"訊息單元"(information units)的概念。在自然語言處理中,我們通常將一段文本看作是由多個訊息單元組成的。每個訊息單元可以是一個詞、一個短語、一個句子或者一個段落,它們共同構成了文本的完整訊息。
在過去,人們通常認為,要得到一個有用的NLG系統評估分數,我們需要對系統輸出的所有訊息單元進行全面的人工標註。這意味著,我們需要讓人類標註者仔細檢查輸出文本的每一個詞、句子和段落,標註出其中的錯誤和問題。這種全面標註的方法雖然直觀,但非常耗時耗力,尤其是當輸出文本很長時。
然而,最近的研究(Krishna et al., 2023)表明,事實上我們並不需要對所有信息單元進行全面標註,就可以得到一個有用的綜合評估分數,用於比較和排序不同的NLG模型。
這項研究的重要發現是,我們可以通過對輸出文本的一部分進行標註,然後將這些標註聚合起來,得到一個足夠可靠的評估分數。這種方法的優點是顯而易見的:
1. 標註工作量大大減少,因為我們不需要對每一個信息單元都進行仔細檢查和標註。
2. 評估過程更加高效,可以在更短的時間內評估更多的NLG系統。
3. 評估結果仍然有很高的參考價值,因為雖然我們沒有標註所有信息單元,但通過合理的抽樣和聚合,我們可以得到一個總體上反映系統性能的分數。
這個發現對於NLG系統的評估有重要意義。它提醒我們,在設計評估方案時,我們不必拘泥於全面標註的方法。相反,我們可以通過巧妙的抽樣和聚合策略,在標註效率和評估可靠性之間取得平衡。
當然,這並不意味著我們可以隨意減少標註量。標註的信息單元仍然需要足夠多,足夠有代表性,以確保評估結果的可靠性。此外,對於不同類型的NLG任務,最優的標註和聚合策略可能也不盡相同。這需要我們在實踐中不斷探索和優化。
總的來說,這項研究為NLG系統的評估提供了新的思路。它告訴我們,全面標註雖然直觀,但並非唯一的選擇。通過恰當的抽樣和聚合,我們可以在更低的標註成本下,得到有用的評估結果。這種高效評估的能力,將有助於我們更快、更廣泛地比較和優化不同的NLG模型,推動自然語言生成技術的進一步發展。
:::
## 7. Related Work
### Book-length narrative summarization
- **BookSum** is the first published summarization dataset that includes book-level source text as part of their data, which encouraged modeling efforts in this direction.
### Fine-grained evaluation of generated text
- Our work relates to evaluation protocols within machine translation that annotate spans, error types, and error severities, which are more meaningful than output ranking and Likert ratings.
- **ACU**, an annotation protocol for summary salience evaluation that breaks summaries down into fine-grained content units.
- **FactScore**, which dissects machinegenerated text into atomic facts before evaluating their factual consistency.
- **LongEval**, which includes an in-depth analysis of best practices for faithfulness evaluation in long-form summarization coherence evaluation.
- **SNaC**, a coherence error taxonomy built for fine-tuned summarization models.
### Automatic evaluation with LLMs
- LLM evaluators have recently emerged as a cost-effective alternative to human evaluations, explored for both general conversational and instruction following capabilities and traditional NLG tasks like summarization.
- (Fu et al., 2023; Liu et al., 2023b; Wang et al., 2023) substantiate LLMs’ potential as an NLG metric, but only for evaluating short input-output pairs.
- In our work, we use GPT-4 to evaluate book-length summaries, uniquely employing a fine-grained automatic evaluation schema to set our work apart from existing research.
## 8. Conclusion
- We establish a novel human evaluation protocol to assess summary coherence on newly-published books.
- Then, we develop an LLM-based automatic metric called BOOOOKSCORE that relies on a coherence error taxonomy derived from our human annotations.
- Interesting future directions include:
1. Automatically evaluating faithfulness in the book-length summarization setting.
2. Benchmarking newer long-context LLMs using BOOOOKSCORE.
3. Expanding BOOOOKSCORE to multilingual texts.