A Frustratingly Easy Approach for Joint Entity and Relation Extraction
改良而來pre-trained language models(PLMS) 在 name entity recognition (NER) 和 relation extraction (RE) 任務有很好的成果,最近的研究將其視為 span pair classification,因此需要更專注在製造出更好的 span representaion
// span classification 就是先把 token 組成 span,再去對 span 做分類
以下為常見的三種 span representaion extraction methods
提出了 Packed Levitated Marker(PL-Marker)
In this work, we introduce Packed Levitated Marker (PL-Marker), to model the interrelation between spans (pairs) by strategically packing levitated markers in the encoding phase.
隨著 leviated marker 的增多,運算複雜度也會隨之升高,所以我們需將 spans 分成多個群組來控制每個輸入句子的長度。
相鄰 span 的關係也是需要注意的,例如具有相同 start token 的 span,他們之間的 分界(boundary) 應該要很明確。我們提出 neighborhood-oriented packing strategy,盡可能將具有相同開始 token 的 span ,打包成同一個訓練實體來讓模型學習他們的分界。
對於更複雜的 span pair classification 任務,理想的方式為將所有的 span pair 打包起來,
Levitated Marker
在 A Frustratingly Easy Approach for Joint Entity and Relation Extraction 提出,將特殊標記作為 token 插入輸入句子,並共用 positional embeddings,用以代表 span 資訊
Knowledge Infusion
將額外知識加入模型,如用 knowledge graph 產生實體特徵後再去結合 NER 模型
Structural Extension
模型架構延伸,對現有的模型進行擴展,像是
levitated markers 是可平行處理的,我們可以將有相關的 span 打包成一個訓練實體。
levitated marker
即使限制了 entity 長度,還是會產生很多可能的 span
如果要對 China 的 span 進行預測,將對應 levitated marker 的 串接起來。將其接上分類層後預測 NER 類別分類。