# Fine-tune BERT for Extractive Summarization
[1903.10318](https://arxiv.org/pdf/1903.10318.pdf)
---
## Abstract & Introduction
* Extractive summarization: 複製文件中最重要的幾句話
* BERTSUM: BERT 的變體
* Dataset: CNN/Dailymail, NYT(紐約時報)
* 在 CNN/Dailymail 中用 ROUGE-L* 計算的表現比先前高了1.65
* 扁平且具有 intersentence Transformer layers 的表現最好
```
ROUGE-L: Longest Common Subsequence (LCS) based statistics
```
---
## Methodology
* $sent_i$ 表文件中的第 $i$ 句
* 若句子 $sent_i$ 包含在最後的輸出中,則輸出 $y_i$ = 1
* 代表第 $i$ 句為摘要
---
### Extractive Summarization with BERT
* 因 BERT 的輸出太片面,通常只有字的表示不是整(多)句話,所以修改了輸入及embedding 來進行摘要分析
----
#### Encoding Multiple Sentences
* 在句子前加 [CLS]; 後加 [SEP]
<!--* 用多個 [CLS] 獲得句子特徵的升序 (? -->
#### Interval Segment Embeddings
* 用 $E_A$, $E_B$ 來區分單雙數句子
* $T_i$ 表 $sent_i$ 的特徵向量
----
![](https://i.imgur.com/hoIvRJh.png)
---
### Fine-tuning with Summarization Layers
* 將 $T_i$ 輸入至 summarization-specific layers
* 計算每個句子 $sent_i$ 的分數 $\hat{Y}_i$
* 計算 $\hat{Y}_i$ 與 $Y_i$ 的 Binary Classification Entropy
* 這個額外的 layer 跟著 BERT 一起 train (fine-tuned)
----
#### Simple Classifier
* 像原始 BERT 論文一樣的簡單 classifier 計算分數
* $\hat{Y}_i = σ(W_o T_i + b_o)$
* σ:sigmoid
----
#### Inter-sentence Transformer
<!-- * 用更多的 transformer layer 在句子的表達上(?
* 專注於 BERT 輸出提取特徵做文件摘要(? -->
* 用一個 transformer 做分類會比前一個好
* $\widetilde{h}^l = \text{LN}(h^{l-1} + \text{MHAtt}(h^{l-1}))$
$h^l = LN(\widetilde{h}^l + \text{FFN}(\widetilde{h}^l))$
$h^0 = \text{PosEmb}(T)$
$T$: $sent_i$ 的特徵向量
PosEmb: 表示每個句子的位置($E_P$)
LN: normalization
MHAtt: multi-head attention
上標$l$: 深度
輸出層一樣是 sigmoid
----
![](https://i.imgur.com/vPQoPyw.png)
----
#### Inter-sentence Transformer
* 實驗發現$l$=2最好(在$l$=1~3中)
* $\hat{Y}_i = σ(W_o h^L_i + b_o)$
* $h^L$: 第$L$層 transformer 的輸出向量
----
#### Recurrent Neural Network
* 有證據證明 RNN 結合 transformer 也不錯
* 用 LSTM 吃 $T$, output 一樣用 sigmoid
<!-- * $\left(
\begin{array}{c}
F_i \\
I_i \\
O_i \\
G_i \\
\end{array} \right) = LN_h(W_h h_{i−1}) + LN_x(W_x T_i)$
$C_i = σ(F_i) \odot C_{i−1} + σ(I_i) \odot tanh(G_{i−1})$
$h_i =σ(O_t) \odot tanh(LN_c(C_t))$
* $\hat{Y}_i = σ(W_o h_i + b_o)$ -->
<!-- $F,I,O$: gate $G$: hidden vector
$C$: memory $h$: output $LN$: normalization -->
---
## Experiments
### Implementation Details
* PyTorch, OpenNMT, BERT(bert-base-uncased)
* BERT 跟 summarization layers 一起訓練
* Adam β1 = 0.9, β2 = 0.999 is used for fine-tuning.
* Learning rate schedule is following with warming-up on first 10,000 steps:
$lr = 2e^{−3}· min(step^{−0.5}, step · warmup^{−1.5})$
* trained for 50,000 step
* batch size 約 36
----
* Model checkpoints are saved and evaluated on the validation set every 1,000 steps
* 根據 loss 前3低的 checkpoints 進行 testing
* testing 時,用模型來獲取每個句子的分數,按照得分從高到低的順序,選擇前3個句子作為摘要。
---
### Trigram Blocking
* 類似 Maximal Marginal Relevance (MMR) 但簡單的許多
* 指判斷候選句 c 跟已存在的 S 的 word 重複性 (超過3個就略過 c)
---
#### Summarization Datasets
* 用2個基準DB判斷訓練成果
* CNN/DailyMail news highlights dataset
* New York Times Annotated Corpu
<!-- * 一些要點、簡要概述了本文 -->
----
* CNN/DailyMail
* 沒有匿名化
* 用 Hermann 等人的方法區分訓練、驗證、測試集
* 用 CoreNLP 和 See 等人的方法做句子分割及預處理
* 90,266/1,220/1,093
<!-- * associated highlight -->
* NYT
* abstractive summaries
* 根據日期9/1拆測試集;4% validation(4000筆)
* 刪除摘要少於50字的
* 用 CoreNLP 和 Durrett 等人的方法做句子分割及預處理
* 196,961/12,148/10,397
----
* 雖然都有摘要了,但不適用於訓練最後的模型
* oracle 算法用於為每個文檔生成預言摘要
* 選擇可以 ROUGE 分數最高的語句作為預言語句
* 將標籤1分配給oracle摘要中選擇的句子,否則分配0
---
## Experimental Results
![](https://i.imgur.com/3HSlKzc.png)
<!-- * Transformer
* 使用與BERT相同的結構,但參數較少它是隨機初始化的,並且只接受摘要任務訓練
* 6 layers; hidden size 512; feed-forward filter size 2048
* 模型按照Vaswani等人的相同設置進行訓練
* LEAD
* 它使用文檔的前3個句子作為摘要
* REFRESH
* 通過使用 reinforcement learning 對 ROUGE 進行全局優化來進行訓練
* NEUSUM
* state-of the-art
* PGN
* Pointer Generator Network, encoder-decoder 結構; 抽象摘要
* DCA
* Deep Communicating Agents, multiple agents to represent the document 及階層式注意機制 -->
<!-- 如表中所示,所有基於BERT的模型都大大優於以前的最新模型。 帶有Transformer的BERTSUM在所有三個指標上均取得了最佳性能。 與分類器模型相比,具有LSTM模型的BERTSUM對匯總性能沒有明顯的影響。 -->
* F1 score
----
* CNN
* 不同下游模型
* 用一個沒 pre-train 的 transformer(BERT) 當 baseline
* 跟其他系統比較如表1
* BERT+transformer最好
* +LSTM的效果沒有線性分類的好很多
* ablation studies
* interval sentence 可提高基礎模型性能
* trigram 很簡單且有效
----
![](https://i.imgur.com/lvoBdgd.png)
* F1 score
----
* NYT
* limited-length recall evaluation
* 擷取到適當長度
* evaluate summarization quality with ROUGE Recall
* BERTSUM+classifier 優於 first-k words, full, Deep Reinforced
<!-- * first-k words
* 輸入文章的前k個單詞
* Full
* Durrett 等人中表現最好的模型
* Deep Reinforced
* 抽像模型; encoder-decoder structure -->
----
![](https://i.imgur.com/Eo83Ne8.png)
* recall
---
END
---
###### tags: `Paper`
{"metaMigratedAt":"2023-06-15T04:59:54.441Z","metaMigratedFrom":"Content","title":"Fine-tune BERT for Extractive Summarization","breaks":true,"contributors":"[{\"id\":\"70b0fe2f-582f-45c2-a8d0-520823913fdd\",\"add\":24716,\"del\":19848}]"}