###### tags: `論文研讀` `few-shot learning`
# Read Papers
## Zero-Shot Text Classification via instruction tuning
- [ ] **【202204】Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks**
Natural-Instructions v2
https://arxiv.org/abs/2204.07705
- [x] **【202203】Training language models to follow instructions with human feedback**
InstructGPT
https://arxiv.org/abs/2203.02155
- [x] **【202110】Multitask Prompted Training Enables Zero-Shot Task Generalization**
T0
論文鏈接:https://arxiv.org/abs/2110.08207
論文筆記:https://hackmd.io/@6oIprKH4Qhe-vh1cTj20wg/HkGq29o6j
- [x] **【202210】Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective**
Ping Yang ,et al., EMNLP 2022
https://arxiv.org/pdf/2210.08590.pdf
* 提出了MC tune,核心思想是將自然語言理解任務轉化為 multiple choice 任務。
* 通過控制位置編碼和attention mask來讓模型可以直接複用 MaskLM head 的參數。
* 參數只有0.275B,遠小於FALN。
- [ ] **【202109】FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS**
Jason Wei al.,ICLR 2022
https://arxiv.org/abs/2109.01652
主要提出了一個新的概念 instruction tune,將62個資料集都表示成指令的形式,來進行fine-tune
使用參數只有137B的pretrain model,在25個數據集上有20個的zero-shot能力超過了175B的GPT-3
## Zero-Shot Text Classification via Knowledge Graph
- [ ] **【202106】Zero-Shot Text Classification via Knowledge Graph Embedding for Social Media Data**
Qi Chenet al.,IEEE Internet of Things Journal
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9466939&tag=1
- [ ] **【202101】Zero-Shot Text Classification with Semantically Extended Graph Convolutional Network**
(Tengfei Liu et al.,ICPR)
https://ieeexplore.ieee.org/abstract/document/9411914
## few-shot learning
### Parameter-Efficient Fine-Tuning
#### LoRA
#### **Adapter tuning:**
- [ ] **【201902】Parameter-Efficient Transfer Learning for NLP Adapter(Bottleneck Adapter)**
Neil Houlsby et al.,ICML 2019
https://arxiv.org/abs/1902.00751
這篇論文第一次提出了Adapter方法。在對預訓練模型進行微調時,在每個Transformer Block的Attention層以及兩個全連接層後增加了一個Adapter結構,可以在保留原模型參數不變的情況下,通過在Adapter額外參數,對該部分參數進行訓練從而達到微調的效果。

- [ ] **【202005】AdapterFusion: Non-Destructive Task Composition for Transfer Learning
https://arxiv.org/abs/2005.00247**
在 Adapter 的基礎上進行優化,通過將學習過程分為knowledge extraction和knowledge composition兩階段來提升下游任務表現。用於實現多個Adapter之間的最大化任務遷移(task migration),結果表明AdapterFusion在大多數情況下性能優於full fine tuning和Adapter。
「knowledge extraction」:訓練Adapter模塊學習下游任務的特定知識,將知識封裝在Adapter模塊參數中。
「knowledge composition」:將預訓練模型參數與特定於任務的Adapter參數固定,引入新參數學習組合多個Adapter中的知識,提高模型在目標任務中的表現。(學習adapter)
- [ ] **【202010】AdapterDrop: On the Efficiency of Adapters in Transformers (Rücklé et al., EMNLP 2021)**
https://aclanthology.org/2021.emnlp-main.626/
對Adapter的計算效率進行分析,發現Adapter比full fine tuning在訓練時快60%,但是在inference時慢4%-6%,並提出了AdapterDrop方法緩解該問題。AdapterDrop在不影響任務性能的情況下,對Adapter動態高效的移除,盡可能的減少模型的參數量,提高模型在反向傳播(training)和正向傳播(inference)時的效率。在刪除了靠近input的前五層的Adapter後,在對八個任務進行推理時,效率比原來提高了39%。
- [ ] **【202203】Prompt-free and Efficient Few-shot Learning with Language Models (Karimi Mahabadi et al., ACL 2022)**
使用了一個任務相關的adapter來告知model相關的任務,取代了manual的patterns;使用固定的token數M來表示每一個標簽,而不是經典模型中可變token長度的verbalizers,可以大大簡化模型的實現並提升訓練的速度,選擇了7個任務(12個dataset),單句測試中比PET系統的平均得分提高了1.1%,在句子對數據集測試中提高了4.6%;此外,相比PET,PERFECT的參數數量下降了99.08%,在存儲的需求上幾乎縮小了100倍,training時間少了97.22%,inference時間少96.76%
Meta-Adapters: Parameter Efficient Few-shot Fine-tuning through Meta-Learning
K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
https://openreview.net/pdf?id=BCGNf-prLg5
視覺領域:
CLIP-adapter
clip-adapter
tip-adapter
#### **prompt-base tuning:**
- [ ] **【2019.09】Language Models as Knowledge Bases? (LAMA)**
Language Models as Knowledge Bases? (Petroni et al., EMNLP 2019)
https://aclanthology.org/D19-1250.pdf
提出了一種叫做LAMA的探針來研究預訓練模型參數中蘊含了多少關系型的知識,這種probe被建模成完型填空的形式,通過在ConceptNet,SQuAD等數據集上手動構造模板來預測單個token。例如: Obama was born in [MASK]
- [ ] **【2020.01】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (PET)**
Timo Schick, Hinrich Schutze
https://aclanthology.org/2021.eacl-main.20.pdf
這篇論文認為prompt的潛力不止於probe knowledge in language model上,將prompt融入到了在few shot setting下的supervised training上,同時形式化地提出了prompt learning的範式。
- [ ] **【2020.10】AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts**
https://aclanthology.org/2020.emnlp-main.346.pdf
以前的問題在於模版都是手工構造的,耗時長,同時模板對上下文很敏感,不恰當的上下文容易降低性能,所以這篇工作主要集中在如何針對特定的任務自動化地構造模板。主要提出了一種基於梯度來自動化搜索模板的方法。
- [x] **【2020.12】Making Pre-trained Language Models Better Few-shot Learners (LM-BFF)**
(Gao et al., ACL 2021)
https://aclanthology.org/2021.acl-long.295.pdf
筆記:https://hackmd.io/@6oIprKH4Qhe-vh1cTj20wg/B1R62CjQj
針對前面搜索不高效,模板不靈活的問題,提出了一種更高效的自動化prompt生成的方案(label words search + T5-based template generation),也argue了目前的few shot設置, 此外受GPT-3啟發還提出了prompt結合demonstration的方法來指導模型
- [ ] **【2021.01】Prefix-Tuning: Optimizing Continuous Prompts for Generation**
Xiang Lisa Li, Percy Liang
https://aclanthology.org/2021.acl-long.353.pdf
針對離散的prompt難以優化的問題,提出參數化的prompt,僅微調prompt,fix住LM,用於生成任務上
- [x] **【2021.03】GPT Understands, Too (P-tuning)**
(Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang)
筆記:https://hackmd.io/ourU1HGKT8iqi7JFXZijHQ
作者發現人為設計的prompt的語法語義和最後的性能並沒有明顯的關聯,同時prompt的微小變化對性能很敏感。由此也提出了參數化的,非自然語言的prompt,用於理解類任務上。(這裡採用的微調策略是prompt+lm一起微調)
- [ ] **【2021.04】The Power of Scale for Parameter-Efficient Prompt Tuning**
(Lester et al., EMNLP 2021)
https://aclanthology.org/2021.emnlp-main.243.pdf
Prefix-Tuning工作主要驗證了僅微調prompt,這種參數化的prompt在少樣本場景下能夠優於finetune的方法,P-tuning在superGLUE上用全量數據微調了prompt+LM使得效果能夠接近finetune,這篇主要驗證了用全量數據僅微調prompt,能不能接近finetune的方法。另一個小的不同點在於P-tuning還是用到了人為的prompt
- [ ] **【2021.09】PPT: Pre-trained Prompt Tuning for Few-shot Learning**
(Gu et al., ACL 2022)
https://aclanthology.org/2022.acl-long.576.pdf
之前的工作都是在finetune階段去使用prompt,這篇文章第一次提出了prompt pretraining的過程。一開始是因為觀察了prompt tuning中的大模型儘管在全量數據下能夠媲美finetune,但是在少樣本情況下並不好,作者認為是因為在大模型上soft prompt對初始化很敏感,所以設計了一系列預訓練的prompt task來給soft prompt提供一個很好的初始化。
### dataset/benchmark
- FewCLUE:
中文的few-shot NLP benchmark
Liang Xu, Xiaojing Lu, Chenyang YuanLiang Xu,et al. FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [J/OL].https://arxiv.org/abs/2107.07498
綫上排行:
https://www.cluebenchmarks.com/fewclue.html
- FewJoint:
針對few-shot的中文dialogue understanding的dataset
Yutai Hou, Xinghao Wang, Cheng Chen,et al.Int J Mach Learn Cybern.2022;13(11):3409-3423. doi: 10.1007/s13042-022-01604-9. Epub 2022 Jul 18.
https://arxiv.org/pdf/2009.08138v3.pdf
## adversarial training
Defense against adversarial attacks on spoofing countermeasures of asv:
https://ieeexplore.ieee.org/abstract/document/9053643
Adversarial defense for automatic speaker verification by cascaded self-supervised learning models: H Wu, X Li, AT Liu, Z Wu, H Meng, H Lee
ICASSP 2021
https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9413737