# Fine-tune BERT for Extractive Summarization [1903.10318](https://arxiv.org/pdf/1903.10318.pdf) --- ## Abstract & Introduction * Extractive summarization: 複製文件中最重要的幾句話 * BERTSUM: BERT 的變體 * Dataset: CNN/Dailymail, NYT(紐約時報) * 在 CNN/Dailymail 中用 ROUGE-L* 計算的表現比先前高了1.65 * 扁平且具有 intersentence Transformer layers 的表現最好 ``` ROUGE-L: Longest Common Subsequence (LCS) based statistics ``` --- ## Methodology * $sent_i$ 表文件中的第 $i$ 句 * 若句子 $sent_i$ 包含在最後的輸出中,則輸出 $y_i$ = 1 * 代表第 $i$ 句為摘要 --- ### Extractive Summarization with BERT * 因 BERT 的輸出太片面,通常只有字的表示不是整(多)句話,所以修改了輸入及embedding 來進行摘要分析 ---- #### Encoding Multiple Sentences * 在句子前加 [CLS]; 後加 [SEP] <!--* 用多個 [CLS] 獲得句子特徵的升序 (? --> #### Interval Segment Embeddings * 用 $E_A$, $E_B$ 來區分單雙數句子 * $T_i$ 表 $sent_i$ 的特徵向量 ---- ![](https://i.imgur.com/hoIvRJh.png) --- ### Fine-tuning with Summarization Layers * 將 $T_i$ 輸入至 summarization-specific layers * 計算每個句子 $sent_i$ 的分數 $\hat{Y}_i$ * 計算 $\hat{Y}_i$ 與 $Y_i$ 的 Binary Classification Entropy * 這個額外的 layer 跟著 BERT 一起 train (fine-tuned) ---- #### Simple Classifier * 像原始 BERT 論文一樣的簡單 classifier 計算分數 * $\hat{Y}_i = σ(W_o T_i + b_o)$ * σ:sigmoid ---- #### Inter-sentence Transformer <!-- * 用更多的 transformer layer 在句子的表達上(? * 專注於 BERT 輸出提取特徵做文件摘要(? --> * 用一個 transformer 做分類會比前一個好 * $\widetilde{h}^l = \text{LN}(h^{l-1} + \text{MHAtt}(h^{l-1}))$ $h^l = LN(\widetilde{h}^l + \text{FFN}(\widetilde{h}^l))$ $h^0 = \text{PosEmb}(T)$ $T$: $sent_i$ 的特徵向量 PosEmb: 表示每個句子的位置($E_P$) LN: normalization MHAtt: multi-head attention 上標$l$: 深度 輸出層一樣是 sigmoid ---- ![](https://i.imgur.com/vPQoPyw.png) ---- #### Inter-sentence Transformer * 實驗發現$l$=2最好(在$l$=1~3中) * $\hat{Y}_i = σ(W_o h^L_i + b_o)$ * $h^L$: 第$L$層 transformer 的輸出向量 ---- #### Recurrent Neural Network * 有證據證明 RNN 結合 transformer 也不錯 * 用 LSTM 吃 $T$, output 一樣用 sigmoid <!-- * $\left( \begin{array}{c} F_i \\ I_i \\ O_i \\ G_i \\ \end{array} \right) = LN_h(W_h h_{i−1}) + LN_x(W_x T_i)$ $C_i = σ(F_i) \odot C_{i−1} + σ(I_i) \odot tanh(G_{i−1})$ $h_i =σ(O_t) \odot tanh(LN_c(C_t))$ * $\hat{Y}_i = σ(W_o h_i + b_o)$ --> <!-- $F,I,O$: gate $G$: hidden vector $C$: memory $h$: output $LN$: normalization --> --- ## Experiments ### Implementation Details * PyTorch, OpenNMT, BERT(bert-base-uncased) * BERT 跟 summarization layers 一起訓練 * Adam β1 = 0.9, β2 = 0.999 is used for fine-tuning. * Learning rate schedule is following with warming-up on first 10,000 steps: $lr = 2e^{−3}· min(step^{−0.5}, step · warmup^{−1.5})$ * trained for 50,000 step * batch size 約 36 ---- * Model checkpoints are saved and evaluated on the validation set every 1,000 steps * 根據 loss 前3低的 checkpoints 進行 testing * testing 時,用模型來獲取每個句子的分數,按照得分從高到低的順序,選擇前3個句子作為摘要。 --- ### Trigram Blocking * 類似 Maximal Marginal Relevance (MMR) 但簡單的許多 * 指判斷候選句 c 跟已存在的 S 的 word 重複性 (超過3個就略過 c) --- #### Summarization Datasets * 用2個基準DB判斷訓練成果 * CNN/DailyMail news highlights dataset * New York Times Annotated Corpu <!-- * 一些要點、簡要概述了本文 --> ---- * CNN/DailyMail * 沒有匿名化 * 用 Hermann 等人的方法區分訓練、驗證、測試集 * 用 CoreNLP 和 See 等人的方法做句子分割及預處理 * 90,266/1,220/1,093 <!-- * associated highlight --> * NYT * abstractive summaries * 根據日期9/1拆測試集;4% validation(4000筆) * 刪除摘要少於50字的 * 用 CoreNLP 和 Durrett 等人的方法做句子分割及預處理 * 196,961/12,148/10,397 ---- * 雖然都有摘要了,但不適用於訓練最後的模型 * oracle 算法用於為每個文檔生成預言摘要 * 選擇可以 ROUGE 分數最高的語句作為預言語句 * 將標籤1分配給oracle摘要中選擇的句子,否則分配0 --- ## Experimental Results ![](https://i.imgur.com/3HSlKzc.png) <!-- * Transformer * 使用與BERT相同的結構,但參數較少它是隨機初始化的,並且只接受摘要任務訓練 * 6 layers; hidden size 512; feed-forward filter size 2048 * 模型按照Vaswani等人的相同設置進行訓練 * LEAD * 它使用文檔的前3個句子作為摘要 * REFRESH * 通過使用 reinforcement learning 對 ROUGE 進行全局優化來進行訓練 * NEUSUM * state-of the-art * PGN * Pointer Generator Network, encoder-decoder 結構; 抽象摘要 * DCA * Deep Communicating Agents, multiple agents to represent the document 及階層式注意機制 --> <!-- 如表中所示,所有基於BERT的模型都大大優於以前的最新模型。 帶有Transformer的BERTSUM在所有三個指標上均取得了最佳性能。 與分類器模型相比,具有LSTM模型的BERTSUM對匯總性能沒有明顯的影響。 --> * F1 score ---- * CNN * 不同下游模型 * 用一個沒 pre-train 的 transformer(BERT) 當 baseline * 跟其他系統比較如表1 * BERT+transformer最好 * +LSTM的效果沒有線性分類的好很多 * ablation studies * interval sentence 可提高基礎模型性能 * trigram 很簡單且有效 ---- ![](https://i.imgur.com/lvoBdgd.png) * F1 score ---- * NYT * limited-length recall evaluation * 擷取到適當長度 * evaluate summarization quality with ROUGE Recall * BERTSUM+classifier 優於 first-k words, full, Deep Reinforced <!-- * first-k words * 輸入文章的前k個單詞 * Full * Durrett 等人中表現最好的模型 * Deep Reinforced * 抽像模型; encoder-decoder structure --> ---- ![](https://i.imgur.com/Eo83Ne8.png) * recall --- END --- ###### tags: `Paper`
{"metaMigratedAt":"2023-06-15T04:59:54.441Z","metaMigratedFrom":"Content","title":"Fine-tune BERT for Extractive Summarization","breaks":true,"contributors":"[{\"id\":\"70b0fe2f-582f-45c2-a8d0-520823913fdd\",\"add\":24716,\"del\":19848}]"}
    610 views