---
###### tags: `nlp`
---
# Learning from Noisy Labels for Entity-Centric Information Extraction
`emnlp 2021` https://arxiv.org/pdf/2104.08656.pdf
+ We propose a **general co-regularization framework** that can effectively learn supervised IE models from noisy datasets **without the need for any extra learning resources**
+ We discuss in detail the different design strategies of the framework and the trade-off between efficiency and effectiveness.
+ Extensive experiments on NER and RE demonstrate that our framework yields promising improvements on various SOTA models and outperforms existing denoising frameworks
# Introduction
+ 在實體辨識資料集中,**錯誤的標記**是會造成準確率下降的一大原因
+ 現有的做法
+ multi-instance learning that relies on bags of instances provided by distant supervision
+ (Surdeanu et al., 2012; Zeng et al., 2015; Ratner et al., 2016)
+ noise-robust IE models 需要**大量額外資料**
+ (Qin et al., 2018)
+ CrossWeigh (Wang et al., 2019c) 能幫自然語言資料集**去噪**
+ 訓練多個獨立的模型,並把模型認為是錯誤的標記,使其權重下降
+ 開發了 general denoising framework,可以很方便的使用在 NER 任務上。
+ 想法是基於 (Arpit et al., 2017; Toneva et al., 2019) 提到的 noisey labels 經常會有 delayed learning curves。
+ noise label 需要更就的時間來學習且容易被忘記
+ 將此框架應用在兩個重要的 entitycentric IE tasks 上
+ named entity recognition **CoNLL0**
+ relation extraction **TARED**
# Method
> 
框架內有多個相同的任務模型,但有不同的初始化方式
**訓練資料**
$D=\{(x_i,y_i)\}^N_{i=1}$ 是 noisily labeled dataset
+ lexical sequence or context $x$
+ label $y$
+ 有些 instance $(x,y)$ 是錯誤標記
## Learning process
1. 使用 $\geq$ 2 個 task model,並用不同的初始化,標記為 $\{f_k\}^M_{k=1}$
+ train from scratch 的模型參數為隨機初始化
+ 預訓練模型固定參數,下游層才隨機初始化
2. 分兩階段訓練
+ 前 $a\%$ steps 為 warm-up 階段,希望讓模型學習資料集。loss 為 $\{L^{(k)}_{sup}\}^M_{k=1}$,平均後 $L_T$,並用此來更新模型
+ warm-up 之後,除了原本的 $L_T$,額外增加令一個 loss: **agreement loss** $L_{agg}$
+ 用來算 M 個模型的預測和 soft target probability $q$ 的距離。
+ 此階段的參數根據 joint loss $L$ 來跟新,鼓勵模型產生跟 soft target 和 training labels 相同的預測。
**Co-regularization Objective**
+ 在本框架,noisy labels 的影響會在最佳化 agreement loss 時下降
+ 給予 batch $B=\{(x_i,y_i) \}^N_{i=1}$, $M$ 個模型輸出 $\{ \{ p^{(k)}_i\}^N_{i=1}\}^M_{k=1}$
+ $p \in \mathbb{R}^C$ 是對於 C class 的預測(像是 $p^{(i)}=[0.1,0.5,0.2,0.2]$)
+ 接著預測 soft target probability $q$
+ averrge logits:
$$
q_i = \frac{1}{M} \sum^{M}_{k=1} p^{(k)}_i
$$
+ $q$ 在這邊有幾種額外選項
+ Average logits: 把上面公式的 $p_i$ 取 softmax
+ Max-loss probability
+ 最後計算 agreement loss $L_{agg}$ ,此為 q 和每個 $p^{(k)},k=1,...,M$ 的 KL divergence
+ (2) 計算了 $p_i$ 和 $q_i$ 的 KL divergence
+ (3) 計算 batch_size = N,M個模型的 KL divergence 總和
+ $\epsilon$ 是避免 0 的微小數字

## 演算法流程
> 
目標是希望最佳化 joint loss $L=L_T + \gamma *L_{agg}$
+ $\gamma$ 是 positive hyperparameter,用來調整 agg 的比例
對於 token 分類問題,$L_T = \{\{L^{(k)}_{sup}\}\}^M_{k=1}$
$$
L_{sup} = -\frac{1}{N} \sum ^N_{i=1} \sum^{C}_{j=1} I \ [y_i=j] \ log p_{ij}
$$
$I$ 是 indicator function,對於 NER 和 RE 任務就是 cross-entropy loss
+ N: NER token 的數量或是 RE 任務中 sentence 的數量
直觀的理解,**這是一種 soft-pruning**
+ 對於正確的標記, $L_{agg}$ 並不會影響太多。
+ $L_{agg}$ 能避免模型 overfit 在 noisy labels
# Experimence
## Dataset
+ NER-CONLL03 for NER task
+ TA-CRAD for RE task
+ 有論文提出這些資料集有**錯誤標記**,因此實驗數據將會有原始和重新標記後的成績
> 
## Base models
+ 詳細訓練參數在論文內
+ C-GCN
+ BERT
+ LUKE
## Result
+ 在 $M=2$ 情況下,增進了當前 SOTA 的成績
+ 增加了和 crossweight 方法比較
在 RE 任務上
> 
在 NER 任務
>
## 額外實驗
+ 從 dev 和 test 內抽出 2526 個錯誤標記,加入到 train set
### 調整不同的 $\gamma$ 來觀察成效
> 
### 不同 M 參數比較
> 
### Noise filtering 的其他作法
Small-loss selection (Jiang et al., 2018; Han et al., 2018; Lee and Chung, 2020) 把會造成最大 loss 的實體給去除
+ 本文更進一步實驗,用模型的預測來**重新標記**這些實體
在實驗中,刪除/修改了 $\delta _{t} = \delta * \frac{t}{T}$ 比例的實體
+ 目前訓練 step $t$
+ 總共訓練 step $T$
+ 最大更改率 $\delta$

### Alternative aggregates for q
+ averge digits
+ averge probability
+ max-loss probability

# reference
| 引用 | 論文名稱 |
| -------- | -------- |
| Arpit et al., 2017 | A closer look at memorization in deep networks |
| Toneva et al., 2019 |An empirical study of example forgetting during deep neural network learning.|