# An Efficient Cluster-Based Continual Learning with Gradient Episodic Cache Memory
###### tags: `note`
## Abstract
- 是深度學習通常在很少的訓練樣本的情況下無法達到預期的結果
- 無法像人類一樣能夠利用過去的經驗來快速學習新任務,因此持續學習的重要性明顯增加
- 提出了一種名為 Gradient Episodic Cache Memory 的方法
- The main contributions
- 提出了一種新的learning model,結合GEM and clustering
- 利用small episodic memory來表現良好,並使GEM在保持相似性能的同時具有更少的訓練時間。
- Our method could work on other methods of clustering with the same manipulation in GECM.
- 我們還分析了影響模型性能的情景,記憶大小、cluster類數和cluster 間隔數的影響。
- 我們對多個數據集進行了大量實驗。我們的實驗結果 5 表明,GECM 的性能優於最先進的持續學習模型。提出的 GECM 在數據集上表現出更快的收斂和更高的準確性。
## Method

- 主要分為五個步驟。
1. 將任務序列中的一個任務輸入到神經網絡並訓練模型
2. 當模型訓練一個任務時,所有任務都會進行聚類
3. 聚類後的結果組成一個hyper-task並存儲在cache memory
4. 模型使用模型當前參數狀態再次審查所有hyper-task,當前任務的梯度將通過inequality constraint進行修改,其中inequality constraint考慮了先前任務的梯度,以便模型不要忘記過去學到的知識
5. 模型將更新並學習下一個任務
### Cluster
K-means
decide how many clusters to divide by multiplying the total number of classes of the learned task by a multiplier
## Performance Evaluation
### CIFAR-10

### CIFAR-100

### MNIST permutations

### Comparison of the number of tasks
we evaluate the performance of the impact of test accuracy on the first task as the number of tasks increases.



### Comparison of episodic memory size and accuracy

### Comparison of number of cluster and accuracy
decide how many clusters to divide by multiplying the total number of classes of the learned task by a multiplier

### comparison of sample distance and accuracy

## Question
1. 如果類別數量不同的話,模型架構需要改變嗎
2. Comparison of episodic memory size and accuracy 如果可以標明表格的400-2000的數字為何 好像會更清楚
3. task的定義是什麼