Fine-tune BERT for Extractive Summarization

# Fine-tune BERT for Extractive Summarization [1903.10318](https://arxiv.org/pdf/1903.10318.pdf) --- ## Abstract & Introduction * Extractive summarization: 複製文件中最重要的幾句話 * BERTSUM: BERT 的變體 * Dataset: CNN/Dailymail, NYT(紐約時報) * 在 CNN/Dailymail 中用 ROUGE-L* 計算的表現比先前高了1.65 * 扁平且具有 intersentence Transformer layers 的表現最好 ``` ROUGE-L: Longest Common Subsequence (LCS) based statistics ``` --- ## Methodology * $sent_i$ 表文件中的第 $i$ 句 * 若句子 $sent_i$ 包含在最後的輸出中，則輸出 $y_i$ = 1 * 代表第 $i$ 句為摘要 --- ### Extractive Summarization with BERT * 因 BERT 的輸出太片面，通常只有字的表示不是整(多)句話，所以修改了輸入及embedding 來進行摘要分析 ---- #### Encoding Multiple Sentences * 在句子前加 [CLS]; 後加 [SEP]  #### Interval Segment Embeddings * 用 $E_A$, $E_B$ 來區分單雙數句子 * $T_i$ 表 $sent_i$ 的特徵向量 ---- ![](https://i.imgur.com/hoIvRJh.png) --- ### Fine-tuning with Summarization Layers * 將 $T_i$ 輸入至 summarization-specific layers * 計算每個句子 $sent_i$ 的分數 $\hat{Y}_i$ * 計算 $\hat{Y}_i$ 與 $Y_i$ 的 Binary Classification Entropy * 這個額外的 layer 跟著 BERT 一起 train (fine-tuned) ---- #### Simple Classifier * 像原始 BERT 論文一樣的簡單 classifier 計算分數 * $\hat{Y}_i = σ(W_o T_i + b_o)$ * σ:sigmoid ---- #### Inter-sentence Transformer  * 用一個 transformer 做分類會比前一個好 * $\widetilde{h}^l = \text{LN}(h^{l-1} + \text{MHAtt}(h^{l-1}))$ $h^l = LN(\widetilde{h}^l + \text{FFN}(\widetilde{h}^l))$ $h^0 = \text{PosEmb}(T)$ $T$: $sent_i$ 的特徵向量 PosEmb: 表示每個句子的位置($E_P$) LN: normalization MHAtt: multi-head attention 上標$l$: 深度輸出層一樣是 sigmoid ---- ![](https://i.imgur.com/vPQoPyw.png) ---- #### Inter-sentence Transformer * 實驗發現$l$=2最好(在$l$=1~3中) * $\hat{Y}_i = σ(W_o h^L_i + b_o)$ * $h^L$: 第$L$層 transformer 的輸出向量 ---- #### Recurrent Neural Network * 有證據證明 RNN 結合 transformer 也不錯 * 用 LSTM 吃 $T$, output 一樣用 sigmoid   --- ## Experiments ### Implementation Details * PyTorch, OpenNMT, BERT(bert-base-uncased) * BERT 跟 summarization layers 一起訓練 * Adam β1 = 0.9, β2 = 0.999 is used for fine-tuning. * Learning rate schedule is following with warming-up on first 10,000 steps: $lr = 2e^{−3}· min(step^{−0.5}, step · warmup^{−1.5})$ * trained for 50,000 step * batch size 約 36 ---- * Model checkpoints are saved and evaluated on the validation set every 1,000 steps * 根據 loss 前3低的 checkpoints 進行 testing * testing 時，用模型來獲取每個句子的分數，按照得分從高到低的順序，選擇前3個句子作為摘要。 --- ### Trigram Blocking * 類似 Maximal Marginal Relevance (MMR) 但簡單的許多 * 指判斷候選句 c 跟已存在的 S 的 word 重複性 (超過3個就略過 c) --- #### Summarization Datasets * 用2個基準DB判斷訓練成果 * CNN/DailyMail news highlights dataset * New York Times Annotated Corpu  ---- * CNN/DailyMail * 沒有匿名化 * 用 Hermann 等人的方法區分訓練、驗證、測試集 * 用 CoreNLP 和 See 等人的方法做句子分割及預處理 * 90,266/1,220/1,093  * NYT * abstractive summaries * 根據日期9/1拆測試集；4% validation(4000筆) * 刪除摘要少於50字的 * 用 CoreNLP 和 Durrett 等人的方法做句子分割及預處理 * 196,961/12,148/10,397 ---- * 雖然都有摘要了，但不適用於訓練最後的模型 * oracle 算法用於為每個文檔生成預言摘要 * 選擇可以 ROUGE 分數最高的語句作為預言語句 * 將標籤1分配給oracle摘要中選擇的句子，否則分配0 --- ## Experimental Results ![](https://i.imgur.com/3HSlKzc.png)   * F1 score ---- * CNN * 不同下游模型 * 用一個沒 pre-train 的 transformer(BERT) 當 baseline * 跟其他系統比較如表1 * BERT+transformer最好 * +LSTM的效果沒有線性分類的好很多 * ablation studies * interval sentence 可提高基礎模型性能 * trigram 很簡單且有效 ---- ![](https://i.imgur.com/lvoBdgd.png) * F1 score ---- * NYT * limited-length recall evaluation * 擷取到適當長度 * evaluate summarization quality with ROUGE Recall * BERTSUM+classifier 優於 first-k words, full, Deep Reinforced  ---- ![](https://i.imgur.com/Eo83Ne8.png) * recall --- END --- ###### tags: `Paper`