Learning from Noisy Labels for Entity-Centric Information Extraction

--- ###### tags: `nlp` --- # Learning from Noisy Labels for Entity-Centric Information Extraction `emnlp 2021` https://arxiv.org/pdf/2104.08656.pdf + We propose a **general co-regularization framework** that can effectively learn supervised IE models from noisy datasets **without the need for any extra learning resources** + We discuss in detail the different design strategies of the framework and the trade-off between efficiency and effectiveness. + Extensive experiments on NER and RE demonstrate that our framework yields promising improvements on various SOTA models and outperforms existing denoising frameworks # Introduction + 在實體辨識資料集中，**錯誤的標記**是會造成準確率下降的一大原因 + 現有的做法 + multi-instance learning that relies on bags of instances provided by distant supervision + (Surdeanu et al., 2012; Zeng et al., 2015; Ratner et al., 2016) + noise-robust IE models 需要**大量額外資料** + (Qin et al., 2018) + CrossWeigh (Wang et al., 2019c) 能幫自然語言資料集**去噪** + 訓練多個獨立的模型，並把模型認為是錯誤的標記，使其權重下降 + 開發了 general denoising framework，可以很方便的使用在 NER 任務上。 + 想法是基於 (Arpit et al., 2017; Toneva et al., 2019) 提到的 noisey labels 經常會有 delayed learning curves。 + noise label 需要更就的時間來學習且容易被忘記 + 將此框架應用在兩個重要的 entitycentric IE tasks 上 + named entity recognition **CoNLL0** + relation extraction **TARED** # Method > ![](https://i.imgur.com/lGtlpsl.png) 框架內有多個相同的任務模型，但有不同的初始化方式 **訓練資料** $D=\{(x_i,y_i)\}^N_{i=1}$ 是 noisily labeled dataset + lexical sequence or context $x$ + label $y$ + 有些 instance $(x,y)$ 是錯誤標記 ## Learning process 1. 使用 $\geq$ 2 個 task model，並用不同的初始化，標記為 $\{f_k\}^M_{k=1}$ + train from scratch 的模型參數為隨機初始化 + 預訓練模型固定參數，下游層才隨機初始化 2. 分兩階段訓練 + 前 $a\%$ steps 為 warm-up 階段，希望讓模型學習資料集。loss 為 $\{L^{(k)}_{sup}\}^M_{k=1}$，平均後 $L_T$，並用此來更新模型 + warm-up 之後，除了原本的 $L_T$，額外增加令一個 loss: **agreement loss** $L_{agg}$ + 用來算 M 個模型的預測和 soft target probability $q$ 的距離。 + 此階段的參數根據 joint loss $L$ 來跟新，鼓勵模型產生跟 soft target 和 training labels 相同的預測。 **Co-regularization Objective** + 在本框架，noisy labels 的影響會在最佳化 agreement loss 時下降 + 給予 batch $B=\{(x_i,y_i) \}^N_{i=1}$， $M$ 個模型輸出 $\{ \{ p^{(k)}_i\}^N_{i=1}\}^M_{k=1}$ + $p \in \mathbb{R}^C$ 是對於 C class 的預測(像是 $p^{(i)}=[0.1,0.5,0.2,0.2]$) + 接著預測 soft target probability $q$ + averrge logits: $$ q_i = \frac{1}{M} \sum^{M}_{k=1} p^{(k)}_i $$ + $q$ 在這邊有幾種額外選項 + Average logits: 把上面公式的 $p_i$ 取 softmax + Max-loss probability + 最後計算 agreement loss $L_{agg}$ ，此為 q 和每個 $p^{(k)},k=1,...,M$ 的 KL divergence + (2) 計算了 $p_i$ 和 $q_i$ 的 KL divergence + (3) 計算 batch_size = N，M個模型的 KL divergence 總和 + $\epsilon$ 是避免 0 的微小數字 ![](https://i.imgur.com/z5mKacY.png) ## 演算法流程 > ![](https://i.imgur.com/rU3PSn6.png) 目標是希望最佳化 joint loss $L=L_T + \gamma *L_{agg}$ + $\gamma$ 是 positive hyperparameter，用來調整 agg 的比例對於 token 分類問題，$L_T = \{\{L^{(k)}_{sup}\}\}^M_{k=1}$ $$ L_{sup} = -\frac{1}{N} \sum ^N_{i=1} \sum^{C}_{j=1} I \ [y_i=j] \ log p_{ij} $$ $I$ 是 indicator function，對於 NER 和 RE 任務就是 cross-entropy loss + N: NER token 的數量或是 RE 任務中 sentence 的數量直觀的理解，**這是一種 soft-pruning** + 對於正確的標記， $L_{agg}$ 並不會影響太多。 + $L_{agg}$ 能避免模型 overfit 在 noisy labels # Experimence ## Dataset + NER-CONLL03 for NER task + TA-CRAD for RE task + 有論文提出這些資料集有**錯誤標記**，因此實驗數據將會有原始和重新標記後的成績 > ![](https://i.imgur.com/XbcLqcG.png) ## Base models + 詳細訓練參數在論文內 + C-GCN + BERT + LUKE ## Result + 在 $M=2$ 情況下，增進了當前 SOTA 的成績 + 增加了和 crossweight 方法比較在 RE 任務上 > ![](https://i.imgur.com/dbS0ycJ.png) 在 NER 任務 >![](https://i.imgur.com/V2asJWe.png) ## 額外實驗 + 從 dev 和 test 內抽出 2526 個錯誤標記，加入到 train set ### 調整不同的 $\gamma$ 來觀察成效 > ![](https://i.imgur.com/NZ0q8yB.png) ### 不同 M 參數比較 > ![](https://i.imgur.com/9TyWFeD.png) ### Noise filtering 的其他作法 Small-loss selection (Jiang et al., 2018; Han et al., 2018; Lee and Chung, 2020) 把會造成最大 loss 的實體給去除 + 本文更進一步實驗，用模型的預測來**重新標記**這些實體在實驗中，刪除/修改了 $\delta _{t} = \delta * \frac{t}{T}$ 比例的實體 + 目前訓練 step $t$ + 總共訓練 step $T$ + 最大更改率 $\delta$ ![](https://i.imgur.com/WuoTJKC.png) ### Alternative aggregates for q + averge digits + averge probability + max-loss probability ![](https://i.imgur.com/2KroRHn.png) # reference | 引用 | 論文名稱 | | -------- | -------- | | Arpit et al., 2017 | A closer look at memorization in deep networks | | Toneva et al., 2019 |An empirical study of example forgetting during deep neural network learning.|