邁向ACL系列文獻 – Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages (Jul 2023)

# 邁向ACL系列 -- 12/8 ### Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages (Jul 2023) ![截圖 2023-12-07 下午1.06.46](https://hackmd.io/_uploads/HyKgQRAST.png) ### 兩大重點一次看： #### 使用XLM-R based Model，先自己用50種以上的語言的配對資料，以 knowledge distillation(知識蒸餾)做訓練，拿來當Cross-Lingual Retriever，透過Sentence Embeddings 算 CosSim 來做 LRLs input在語料庫中HRLs 的對應 retrieval 但沒有提及訓練的資料是用HRL還是LRL，推測是HRL #### 主要就是把兩個不同語言的prompt串在一起，先以Low Resources Language(LRLs)為input去語料庫找相似語境的High Resources Language(HRLs)，之後再串在一起丟給LM做classification/inference 等任務 ## Experiment #### 三種Task中前兩種都是主要以分類input內容為主，dataset使用Amazon顧客評價/AG news： Amazon以一顆星為負面，五顆星為正面。 ![截圖 2023-12-07 下午5.12.58](https://hackmd.io/_uploads/ryb2nb1La.png) AG news則依內容分類成： “World”, “Sports”, “Business”, 和“Tech” #### 第三種的inference任務作者使用 XNLI: Evaluating Cross-lingual Sentence Representations的資料集，範例如下 ![截圖 2023-12-07 下午5.04.21](https://hackmd.io/_uploads/SJQETZ1UT.png) ![截圖 2023-12-07 下午5.02.21](https://hackmd.io/_uploads/H1rlibyLa.png) #### 除了左邊PARC擊敗各種Baseline Method以外，在Amazon的任務中，他們只要在prompt中concatenate更多的retrival HRLs，模型的表現就會越好。其他任務中則效果有限。 ![截圖 2023-12-07 下午11.16.02](https://hackmd.io/_uploads/B1Fa-Py86.png) 此外，語系相近的LRLs 跟 HRLs在做Retrival的效果也會比較好。 #### 但因為這種Retrival僅用於一兩句話的Classification任務，對於我們要做的長段落的token compression不能適用，不過可以參考他的這種embedding的做法下手也可以。：？