# 邁向ACL系列 -- 12/8 ### Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages (Jul 2023) ![截圖 2023-12-07 下午1.06.46](https://hackmd.io/_uploads/HyKgQRAST.png) ### 兩大重點一次看: #### 使用XLM-R based Model,先自己用50種以上的語言的配對資料,以 knowledge distillation(知識蒸餾)做訓練,拿來當Cross-Lingual Retriever,透過Sentence Embeddings 算 CosSim 來做 LRLs input在語料庫中HRLs 的對應 retrieval 但沒有提及訓練的資料是用HRL還是LRL,推測是HRL #### 主要就是把兩個不同語言的prompt串在一起,先以Low Resources Language(LRLs)為input去語料庫找相似語境的High Resources Language(HRLs),之後再串在一起丟給LM做classification/inference 等任務 ## Experiment #### 三種Task中前兩種都是主要以分類input內容為主,dataset使用Amazon顧客評價/AG news: Amazon以一顆星為負面,五顆星為正面。 ![截圖 2023-12-07 下午5.12.58](https://hackmd.io/_uploads/ryb2nb1La.png) AG news則依內容分類成: “World”, “Sports”, “Business”, 和“Tech” #### 第三種的inference任務 作者使用 XNLI: Evaluating Cross-lingual Sentence Representations的資料集,範例如下 ![截圖 2023-12-07 下午5.04.21](https://hackmd.io/_uploads/SJQETZ1UT.png) ![截圖 2023-12-07 下午5.02.21](https://hackmd.io/_uploads/H1rlibyLa.png) #### 除了左邊PARC擊敗各種Baseline Method以外,在Amazon的任務中,他們只要在prompt中concatenate更多的retrival HRLs,模型的表現就會越好。 其他任務中則效果有限。 ![截圖 2023-12-07 下午11.16.02](https://hackmd.io/_uploads/B1Fa-Py86.png) 此外,語系相近的LRLs 跟 HRLs在做Retrival的效果也會比較好。 #### 但因為這種Retrival僅用於一兩句話的Classification任務,對於我們要做的長段落的token compression不能適用,不過可以參考他的這種embedding的做法下手也可以。 :?