###### tags: `論文研讀` `few-shot learning` # Read Papers ## Zero-Shot Text Classification via instruction tuning - [ ] **【202204】Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks** Natural-Instructions v2 https://arxiv.org/abs/2204.07705 - [x] **【202203】Training language models to follow instructions with human feedback** InstructGPT https://arxiv.org/abs/2203.02155 - [x] **【202110】Multitask Prompted Training Enables Zero-Shot Task Generalization** T0 論文鏈接:https://arxiv.org/abs/2110.08207 論文筆記:https://hackmd.io/@6oIprKH4Qhe-vh1cTj20wg/HkGq29o6j - [x] **【202210】Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective** Ping Yang ,et al., EMNLP 2022 https://arxiv.org/pdf/2210.08590.pdf * 提出了MC tune,核心思想是將自然語言理解任務轉化為 multiple choice 任務。 * 通過控制位置編碼和attention mask來讓模型可以直接複用 MaskLM head 的參數。 * 參數只有0.275B,遠小於FALN。 - [ ] **【202109】FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS** Jason Wei al.,ICLR 2022 https://arxiv.org/abs/2109.01652 主要提出了一個新的概念 instruction tune,將62個資料集都表示成指令的形式,來進行fine-tune 使用參數只有137B的pretrain model,在25個數據集上有20個的zero-shot能力超過了175B的GPT-3 ## Zero-Shot Text Classification via Knowledge Graph - [ ] **【202106】Zero-Shot Text Classification via Knowledge Graph Embedding for Social Media Data** Qi Chenet al.,IEEE Internet of Things Journal https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9466939&tag=1 - [ ] **【202101】Zero-Shot Text Classification with Semantically Extended Graph Convolutional Network** (Tengfei Liu et al.,ICPR) https://ieeexplore.ieee.org/abstract/document/9411914 ## few-shot learning ### Parameter-Efficient Fine-Tuning #### LoRA #### **Adapter tuning:** - [ ] **【201902】Parameter-Efficient Transfer Learning for NLP Adapter(Bottleneck Adapter)** Neil Houlsby et al.,ICML 2019 https://arxiv.org/abs/1902.00751 這篇論文第一次提出了Adapter方法。在對預訓練模型進行微調時,在每個Transformer Block的Attention層以及兩個全連接層後增加了一個Adapter結構,可以在保留原模型參數不變的情況下,通過在Adapter額外參數,對該部分參數進行訓練從而達到微調的效果。 ![](https://i.imgur.com/MxhBKAb.png) - [ ] **【202005】AdapterFusion: Non-Destructive Task Composition for Transfer Learning https://arxiv.org/abs/2005.00247** 在 Adapter 的基礎上進行優化,通過將學習過程分為knowledge extraction和knowledge composition兩階段來提升下游任務表現。用於實現多個Adapter之間的最大化任務遷移(task migration),結果表明AdapterFusion在大多數情況下性能優於full fine tuning和Adapter。 「knowledge extraction」:訓練Adapter模塊學習下游任務的特定知識,將知識封裝在Adapter模塊參數中。 「knowledge composition」:將預訓練模型參數與特定於任務的Adapter參數固定,引入新參數學習組合多個Adapter中的知識,提高模型在目標任務中的表現。(學習adapter) - [ ] **【202010】AdapterDrop: On the Efficiency of Adapters in Transformers (Rücklé et al., EMNLP 2021)** https://aclanthology.org/2021.emnlp-main.626/ 對Adapter的計算效率進行分析,發現Adapter比full fine tuning在訓練時快60%,但是在inference時慢4%-6%,並提出了AdapterDrop方法緩解該問題。AdapterDrop在不影響任務性能的情況下,對Adapter動態高效的移除,盡可能的減少模型的參數量,提高模型在反向傳播(training)和正向傳播(inference)時的效率。在刪除了靠近input的前五層的Adapter後,在對八個任務進行推理時,效率比原來提高了39%。 - [ ] **【202203】Prompt-free and Efficient Few-shot Learning with Language Models (Karimi Mahabadi et al., ACL 2022)** 使用了一個任務相關的adapter來告知model相關的任務,取代了manual的patterns;使用固定的token數M來表示每一個標簽,而不是經典模型中可變token長度的verbalizers,可以大大簡化模型的實現並提升訓練的速度,選擇了7個任務(12個dataset),單句測試中比PET系統的平均得分提高了1.1%,在句子對數據集測試中提高了4.6%;此外,相比PET,PERFECT的參數數量下降了99.08%,在存儲的需求上幾乎縮小了100倍,training時間少了97.22%,inference時間少96.76% Meta-Adapters: Parameter Efficient Few-shot Fine-tuning through Meta-Learning K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters https://openreview.net/pdf?id=BCGNf-prLg5 視覺領域: CLIP-adapter clip-adapter tip-adapter #### **prompt-base tuning:** - [ ] **【2019.09】Language Models as Knowledge Bases? (LAMA)** Language Models as Knowledge Bases? (Petroni et al., EMNLP 2019) https://aclanthology.org/D19-1250.pdf 提出了一種叫做LAMA的探針來研究預訓練模型參數中蘊含了多少關系型的知識,這種probe被建模成完型填空的形式,通過在ConceptNet,SQuAD等數據集上手動構造模板來預測單個token。例如: Obama was born in [MASK] - [ ] **【2020.01】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (PET)** Timo Schick, Hinrich Schutze https://aclanthology.org/2021.eacl-main.20.pdf 這篇論文認為prompt的潛力不止於probe knowledge in language model上,將prompt融入到了在few shot setting下的supervised training上,同時形式化地提出了prompt learning的範式。 - [ ] **【2020.10】AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts** https://aclanthology.org/2020.emnlp-main.346.pdf 以前的問題在於模版都是手工構造的,耗時長,同時模板對上下文很敏感,不恰當的上下文容易降低性能,所以這篇工作主要集中在如何針對特定的任務自動化地構造模板。主要提出了一種基於梯度來自動化搜索模板的方法。 - [x] **【2020.12】Making Pre-trained Language Models Better Few-shot Learners (LM-BFF)** (Gao et al., ACL 2021) https://aclanthology.org/2021.acl-long.295.pdf 筆記:https://hackmd.io/@6oIprKH4Qhe-vh1cTj20wg/B1R62CjQj 針對前面搜索不高效,模板不靈活的問題,提出了一種更高效的自動化prompt生成的方案(label words search + T5-based template generation),也argue了目前的few shot設置, 此外受GPT-3啟發還提出了prompt結合demonstration的方法來指導模型 - [ ] **【2021.01】Prefix-Tuning: Optimizing Continuous Prompts for Generation** Xiang Lisa Li, Percy Liang https://aclanthology.org/2021.acl-long.353.pdf 針對離散的prompt難以優化的問題,提出參數化的prompt,僅微調prompt,fix住LM,用於生成任務上 - [x] **【2021.03】GPT Understands, Too (P-tuning)** (Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang) 筆記:https://hackmd.io/ourU1HGKT8iqi7JFXZijHQ 作者發現人為設計的prompt的語法語義和最後的性能並沒有明顯的關聯,同時prompt的微小變化對性能很敏感。由此也提出了參數化的,非自然語言的prompt,用於理解類任務上。(這裡採用的微調策略是prompt+lm一起微調) - [ ] **【2021.04】The Power of Scale for Parameter-Efficient Prompt Tuning** (Lester et al., EMNLP 2021) https://aclanthology.org/2021.emnlp-main.243.pdf Prefix-Tuning工作主要驗證了僅微調prompt,這種參數化的prompt在少樣本場景下能夠優於finetune的方法,P-tuning在superGLUE上用全量數據微調了prompt+LM使得效果能夠接近finetune,這篇主要驗證了用全量數據僅微調prompt,能不能接近finetune的方法。另一個小的不同點在於P-tuning還是用到了人為的prompt - [ ] **【2021.09】PPT: Pre-trained Prompt Tuning for Few-shot Learning** (Gu et al., ACL 2022) https://aclanthology.org/2022.acl-long.576.pdf 之前的工作都是在finetune階段去使用prompt,這篇文章第一次提出了prompt pretraining的過程。一開始是因為觀察了prompt tuning中的大模型儘管在全量數據下能夠媲美finetune,但是在少樣本情況下並不好,作者認為是因為在大模型上soft prompt對初始化很敏感,所以設計了一系列預訓練的prompt task來給soft prompt提供一個很好的初始化。 ### dataset/benchmark - FewCLUE: 中文的few-shot NLP benchmark Liang Xu, Xiaojing Lu, Chenyang YuanLiang Xu,et al. FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [J/OL].https://arxiv.org/abs/2107.07498 綫上排行: https://www.cluebenchmarks.com/fewclue.html - FewJoint: 針對few-shot的中文dialogue understanding的dataset Yutai Hou, Xinghao Wang, Cheng Chen,et al.Int J Mach Learn Cybern.2022;13(11):3409-3423. doi: 10.1007/s13042-022-01604-9. Epub 2022 Jul 18. https://arxiv.org/pdf/2009.08138v3.pdf ## adversarial training Defense against adversarial attacks on spoofing countermeasures of asv: https://ieeexplore.ieee.org/abstract/document/9053643 Adversarial defense for automatic speaker verification by cascaded self-supervised learning models: H Wu, X Li, AT Liu, Z Wu, H Meng, H Lee ICASSP 2021 https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9413737