Read Papers - HackMD

###### tags: `論文研讀` `few-shot learning` # Read Papers ## Zero-Shot Text Classification via instruction tuning - [ ] **【202204】Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks** Natural-Instructions v2 https://arxiv.org/abs/2204.07705 - [x] **【202203】Training language models to follow instructions with human feedback** InstructGPT https://arxiv.org/abs/2203.02155 - [x] **【202110】Multitask Prompted Training Enables Zero-Shot Task Generalization** T0 論文鏈接：https://arxiv.org/abs/2110.08207 論文筆記：https://hackmd.io/@6oIprKH4Qhe-vh1cTj20wg/HkGq29o6j - [x] **【202210】Zero-Shot Learners for Natural Language Understanding via a Uniﬁed Multiple Choice Perspective** Ping Yang ,et al., EMNLP 2022 https://arxiv.org/pdf/2210.08590.pdf * 提出了MC tune，核心思想是將自然語言理解任務轉化為 multiple choice 任務。 * 通過控制位置編碼和attention mask來讓模型可以直接複用 MaskLM head 的參數。 * 參數只有0.275B，遠小於FALN。 - [ ] **【202109】FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS** Jason Wei al.,ICLR 2022 https://arxiv.org/abs/2109.01652 主要提出了一個新的概念 instruction tune，將62個資料集都表示成指令的形式，來進行fine-tune 使用參數只有137B的pretrain model，在25個數據集上有20個的zero-shot能力超過了175B的GPT-3 ## Zero-Shot Text Classification via Knowledge Graph - [ ] **【202106】Zero-Shot Text Classification via Knowledge Graph Embedding for Social Media Data** Qi Chenet al.,IEEE Internet of Things Journal https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9466939&tag=1 - [ ] **【202101】Zero-Shot Text Classification with Semantically Extended Graph Convolutional Network** (Tengfei Liu et al.,ICPR) https://ieeexplore.ieee.org/abstract/document/9411914 ## few-shot learning ### Parameter-Efficient Fine-Tuning #### LoRA #### **Adapter tuning：** - [ ] **【201902】Parameter-Efficient Transfer Learning for NLP Adapter（Bottleneck Adapter）** Neil Houlsby et al.,ICML 2019 https://arxiv.org/abs/1902.00751 這篇論文第一次提出了Adapter方法。在對預訓練模型進行微調時，在每個Transformer Block的Attention層以及兩個全連接層後增加了一個Adapter結構，可以在保留原模型參數不變的情況下，通過在Adapter額外參數，對該部分參數進行訓練從而達到微調的效果。 ![](https://i.imgur.com/MxhBKAb.png) - [ ] **【202005】AdapterFusion: Non-Destructive Task Composition for Transfer Learning https://arxiv.org/abs/2005.00247** 在 Adapter 的基礎上進行優化，通過將學習過程分為knowledge extraction和knowledge composition兩階段來提升下游任務表現。用於實現多個Adapter之間的最大化任務遷移（task migration），結果表明AdapterFusion在大多數情況下性能優於full fine tuning和Adapter。「knowledge extraction」：訓練Adapter模塊學習下游任務的特定知識，將知識封裝在Adapter模塊參數中。「knowledge composition」：將預訓練模型參數與特定於任務的Adapter參數固定，引入新參數學習組合多個Adapter中的知識，提高模型在目標任務中的表現。（學習adapter） - [ ] **【202010】AdapterDrop: On the Efficiency of Adapters in Transformers (Rücklé et al., EMNLP 2021)** https://aclanthology.org/2021.emnlp-main.626/ 對Adapter的計算效率進行分析，發現Adapter比full fine tuning在訓練時快60%，但是在inference時慢4%-6%，並提出了AdapterDrop方法緩解該問題。AdapterDrop在不影響任務性能的情況下，對Adapter動態高效的移除，盡可能的減少模型的參數量，提高模型在反向傳播（training）和正向傳播（inference）時的效率。在刪除了靠近input的前五層的Adapter後，在對八個任務進行推理時，效率比原來提高了39%。 - [ ] **【202203】Prompt-free and Efficient Few-shot Learning with Language Models (Karimi Mahabadi et al., ACL 2022)** 使用了一個任務相關的adapter來告知model相關的任務，取代了manual的patterns；使用固定的token數M來表示每一個標簽，而不是經典模型中可變token長度的verbalizers，可以大大簡化模型的實現並提升訓練的速度，選擇了7個任務（12個dataset），單句測試中比PET系統的平均得分提高了1.1%，在句子對數據集測試中提高了4.6%；此外，相比PET，PERFECT的參數數量下降了99.08%，在存儲的需求上幾乎縮小了100倍，training時間少了97.22%，inference時間少96.76% Meta-Adapters: Parameter Efficient Few-shot Fine-tuning through Meta-Learning K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters https://openreview.net/pdf?id=BCGNf-prLg5 視覺領域： CLIP-adapter clip-adapter tip-adapter #### **prompt-base tuning：** - [ ] **【2019.09】Language Models as Knowledge Bases? （LAMA）** Language Models as Knowledge Bases? (Petroni et al., EMNLP 2019) https://aclanthology.org/D19-1250.pdf 提出了一種叫做LAMA的探針來研究預訓練模型參數中蘊含了多少關系型的知識，這種probe被建模成完型填空的形式，通過在ConceptNet，SQuAD等數據集上手動構造模板來預測單個token。例如： Obama was born in [MASK] - [ ] **【2020.01】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference （PET）** Timo Schick, Hinrich Schutze https://aclanthology.org/2021.eacl-main.20.pdf 這篇論文認為prompt的潛力不止於probe knowledge in language model上，將prompt融入到了在few shot setting下的supervised training上，同時形式化地提出了prompt learning的範式。 - [ ] **【2020.10】AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts** https://aclanthology.org/2020.emnlp-main.346.pdf 以前的問題在於模版都是手工構造的，耗時長，同時模板對上下文很敏感，不恰當的上下文容易降低性能，所以這篇工作主要集中在如何針對特定的任務自動化地構造模板。主要提出了一種基於梯度來自動化搜索模板的方法。 - [x] **【2020.12】Making Pre-trained Language Models Better Few-shot Learners （LM-BFF）** (Gao et al., ACL 2021) https://aclanthology.org/2021.acl-long.295.pdf 筆記：https://hackmd.io/@6oIprKH4Qhe-vh1cTj20wg/B1R62CjQj 針對前面搜索不高效，模板不靈活的問題，提出了一種更高效的自動化prompt生成的方案（label words search + T5-based template generation），也argue了目前的few shot設置，此外受GPT-3啟發還提出了prompt結合demonstration的方法來指導模型 - [ ] **【2021.01】Prefix-Tuning: Optimizing Continuous Prompts for Generation** Xiang Lisa Li, Percy Liang https://aclanthology.org/2021.acl-long.353.pdf 針對離散的prompt難以優化的問題，提出參數化的prompt，僅微調prompt，fix住LM，用於生成任務上 - [x] **【2021.03】GPT Understands, Too （P-tuning）** (Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang) 筆記：https://hackmd.io/ourU1HGKT8iqi7JFXZijHQ 作者發現人為設計的prompt的語法語義和最後的性能並沒有明顯的關聯，同時prompt的微小變化對性能很敏感。由此也提出了參數化的，非自然語言的prompt，用於理解類任務上。（這裡採用的微調策略是prompt+lm一起微調） - [ ] **【2021.04】The Power of Scale for Parameter-Efficient Prompt Tuning** (Lester et al., EMNLP 2021) https://aclanthology.org/2021.emnlp-main.243.pdf Prefix-Tuning工作主要驗證了僅微調prompt，這種參數化的prompt在少樣本場景下能夠優於finetune的方法，P-tuning在superGLUE上用全量數據微調了prompt+LM使得效果能夠接近finetune，這篇主要驗證了用全量數據僅微調prompt，能不能接近finetune的方法。另一個小的不同點在於P-tuning還是用到了人為的prompt - [ ] **【2021.09】PPT: Pre-trained Prompt Tuning for Few-shot Learning** (Gu et al., ACL 2022) https://aclanthology.org/2022.acl-long.576.pdf 之前的工作都是在finetune階段去使用prompt，這篇文章第一次提出了prompt pretraining的過程。一開始是因為觀察了prompt tuning中的大模型儘管在全量數據下能夠媲美finetune，但是在少樣本情況下並不好，作者認為是因為在大模型上soft prompt對初始化很敏感，所以設計了一系列預訓練的prompt task來給soft prompt提供一個很好的初始化。 ### dataset/benchmark - FewCLUE: 中文的few-shot NLP benchmark Liang Xu, Xiaojing Lu, Chenyang YuanLiang Xu,et al. FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [J/OL].https://arxiv.org/abs/2107.07498 綫上排行： https://www.cluebenchmarks.com/fewclue.html - FewJoint: 針對few-shot的中文dialogue understanding的dataset Yutai Hou, Xinghao Wang, Cheng Chen,et al.Int J Mach Learn Cybern.2022;13(11):3409-3423. doi: 10.1007/s13042-022-01604-9. Epub 2022 Jul 18. https://arxiv.org/pdf/2009.08138v3.pdf ## adversarial training Defense against adversarial attacks on spoofing countermeasures of asv： https://ieeexplore.ieee.org/abstract/document/9053643 Adversarial defense for automatic speaker verification by cascaded self-supervised learning models： H Wu, X Li, AT Liu, Z Wu, H Meng, H Lee ICASSP 2021 https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9413737