Transfer Learning / Domain Adaptation 筆記

Transfer Learning / Domain Adaptation 筆記 === # Content [TOC] # I. Basic Concept ### Negative Transfer 指的是：在 source domain 上學到的 knowledge，對 target domain 產生 negative effect #### 該方向的研究 - Transitive transfer learning, 2015, SIGKDD - 傳統 transfer learning 踩一個石頭過河，他們踩很多個 - Distant domain transfer learning, 2017, AAAI - 領域不相似時，仍然可以 transfer learning，踩一連串石頭過河 # II. Transfer Learning 研究領域 ## 以 target domain 的 label 分類 1. Supervised Transfer Learning 2. Semi-Supervised Transfer Learning 3. Unsupervised Transfer Learning ## 以學習方法分類 1. Instance based - reuse weight ? - 相似的 instance，給他高權重 - 簡單直接 2. Feature based - 想辦法把 source 和 target 的 feature 變換到同個 space - 應該是最熱門的研究方向 3. Model based - 建立 share parameter 的模型，在NN系列用得特別多，例如 finetune 4. Relation based - 0.0 ## 以 feature 分類 1. Homogeneous (同構) Transfer Learning - 例如 image 之間的 transfer 2. Heterogeneous (異構) Transfer Learning - 例如 image 到 text 的 transfer ## 以 online 或 offline 分類 1. Offline Transfer Learning - 目前大多數研究屬於此類 2. Online Transfer Learning # IV. Basic Knowledge ## Formatting the Problem - $\mathcal D$: domain - $P$: 機率分布 - $x$: data - $X$: 某 domain 的 data - $\mathcal X$: feature space ## Metrics ### Distance 1. Euclidean Distance 2. Minkowski Distance 3. Mahalanobis Distance ### Similarity 1. cosine similarity 2. mutual information 3. Pearson correlation 4. Jaccard correlation - $J = \dfrac{X\cap Y}{X\cup Y}$ # V. Basic Method of Transfer Learning ## Instance-based 本類方法通常假定 $P(x_s)\neq P(x_t)$，而 CV 領域的 dimension 都很大，因此直接對 $P(x_s)$ 或 $P(X_t)$ 做估計並不可行。故許多 work 是對 source 及 domain 機率分布的比值進行估計。估計得出的比值即為樣本的權重。例如： - Adapting instance weights for unsupervised domain adaptation using quadratic mutual information and subspace learning. ICPR 2016 - 而這些方法通常假設 $P(x_t)/P(x_s)<\infty$ 且條件機率相同 $P(y|x_s)=P(y|x_t)$ ### methods - TrAdaboost - 提高有利於 target task 的權重，降低不利於 target task 的權重 - Kernal Mean Matching (KMM) - 目標是使得加權後的 source domain 和 target domain 的 distribution 盡可能相近 - Transitive Transfer Learning - Distant Domain Transfer Learning 只在 domain 間差異較小時有效 ***(last2???)*** ，對 CV 領域不甚理想。 ## Feature-based 這類的方法通常假設 source domain 及 target domain 有一些交叉的 feature 典型方法 - (Transfer Component Analysis, TCA) Domain adaptation via transfer component analysis. 2011 對於 source 和 target domain 各自訓練不同的變換矩陣，以 transfer learning - Joint geometrical and statistical alignment for visual domain adaptation. CVPR 2017 以下研究同時學習 feature 和 model 的 transfer learning (和 NN 結合) - Learning transferable features with deep adaptation networks. 2015, ICML - Deep learning of transferable representation for scalable domain adaptation. 2016 - Deep transfer learning with joint adaptation networks. 2017, ICML - Learning transferrable representations for unsupervised domain adaptation. 2016 ## Parameter/Model-based 這類方法假設某些參數可以共享 Cross-people mobile-phone based activity recognition. IJCAI 2011 - 提出了 TransEMDT 方法。先針對 labeled data 利用 decision tree 構建 robust 的 action recognition 模型，然後對 unlabeled data 利用 K-means clustering 尋找 optimized 標定參數。 Instilling social to physical: Co-regularized heterogeneous transfer learning. AAAI 2016 - 將社交訊息加入 transfer learning 方法的 regularization term，對方法進行了改良在 NN 中加入機率分布適配層 - Learning transferable features with deep adaptation networks. ICML 2015 - Deep learning of transferable representation for scalable domain adaptation. 2016 IEEE Transaction on Knowledge and Engineering - Deep transfer learning with joint adaptation networks. ICML 2017 以下研究同時學習 feature 和 model 的 transfer learning - Learning transferable features with deep adaptation networks. 2015, ICML - Deep learning of transferable representation for scalable domain adaptation. 2016 - Deep transfer learning with joint adaptation networks. 2017, ICML ## Relation-based 0.0 # V. method 1: Distribution Adaptation 主要分三類： 1. Marginal Distribution Adaptation 2. Conditional Distribution Adaptation 3. Joint Distribution Adaptation ## Marginal Distribution Adaptation 目標為減小 source 和 target domain 的 marginal distribution $P(x)$，以 $P(x_s)$ 和 $P(x_t)$ 之間的距離來近似兩個 domain 的差異核心方法 Transfer Component Analysis (TCA) TCA 的假設： - 存在一個 feature mapping $\phi$ 使得 mapping 後的 distribution $P(\phi(x_s))\approx P(\phi(x_t))$ - 若 marginal distribution 接近，則 conditional distribution ($P(y_s|\phi(x_s))\approx P(y_t|\phi(x_t))$) 也會接近因此目標是：找到一個合適的 $\phi$ 使得 feature transform 之後的 marginal distribution 最接近 - 使用 maximum mean discrepancy (MMD) 來衡量 domain 之間的距離 - $DISTANCE(x_s, x_t) = ||\frac{1}{n_1}\sum_\limits{i=1}^{n_1}\phi(x_i) - \frac{1}{n_2}\sum_\limits{j=1}^{n_2}\phi(x_j)||_{\mathcal H}$ - $\phi(\cdot)$ 是將 variable 映射到 Reproducing Kernel Hilbert Space, RKHS - 引入了 kernel matrix $K$ - TCA 最後的優化目標：![](https://i.imgur.com/8JanHM0.png) ## Conditional Distribution Adaptation 用 $P(y_s|x_s)$ 和 $P(y_t|x_t)$ 的距離來近似兩個 domain 之間的差異 $DISTANCE(D_s, D_t)\approx ||P(y_s|x_s) - P(y_t|x_t)||$ 不過單純用這類的方法不多，主要可以在以下 paper 找到 - Asymmetric tri-training for unsupervised domain adaptation. ICML 2017 Stratified Transfer Learning 提出了 Intra-class Transfer 的思想，指出大多數方法只是學習一個 Global Domain Shift，而忽略了 intra-class 的相似性 - Stratified transfer learning for cross-domain activity recognition. 2018 - 計算每個 class 的 MMD distance ## Joint Distribution Adaptation JDA 方法：Transfer feature learning with joint distribution adaptation. 2013, ICCV $DISTANCE(D_s, D_t)\approx ||P(x_s)-P(x_t)|| + ||P(y_s|x_s)-P(y_t|x_t)||$ 然而 Marginal Distribution Adaptation 和 Conditional Distribution Adaptation 並不是同樣重要，depends on domain distribution 的差異，因此 Balanced distribution adaptation for transfer learning. 2017, ICDM 提出了 BDA，採用 balance factor $\mu$ 來動態調整兩個 distribution 的距離。 ## 小結 1. 精度比較：BDA > JDA > TCA > Conditional Distribution Adaptation 2. 某圖顯示，將 prob distr 加入 DNN 中，往往取得比非deep方法更好的結果 # VII. method 2. Feature Selection --- # VIII. method 3. Subspace Learning --- # IX. method 4. Deep Transfer Learning 該如何決定 transfer 哪些 layer，固定哪些 layer? - How transferable are features in deep neural networks? 2014, NIPS - 前三層基本 general feature ## 3 Deep Network Adaptation finetune 的基本假設是 training data 和 testing data 服從相同的 distribution，然而這在 transfer learning (domain adaptation) 中不成立，**fine tune 無法處理 training data 和 testing data 的 distribution 不同的情況。** 因此需要更進一步開發出更好的方法。絕大多數 Deep Transfer Learning 方法都採用了以下的 loss definition - $l = l_c(D_s, y_s) + \lambda l_A(D_s, D_t)$ - $l_c(D_s, y_s)$ 表示 labeled data (通常是 source domain) 上的 loss - $l_A(D_s, D_t)$ 表示 network 的 adaptation loss，這裡與之前提到的 distribution 差異，道理相同以下方法開發出了 **Adaptation Layer** - (**DDC**) Deep domain confusion: Maximizing for domain invariance. 2014 - 圖為 DDC 方法示意圖 ![](https://i.imgur.com/dJ5t9of.png) - 為何選倒數第二層? 實驗表明，在 classifier 前一層加入 adaptation 可以達到最好的效果 - loss function: $l = l_c(D_s, y_s) + \lambda MMD^2(D_s, D_t)$ 使用 MMD 作為衡量標準 - (**DAN**) Learning transferable features with deep adaptation networks. 2015 ICML - 相較於 DDC 只加入一層 Adaptation Layer，DAN 同時加入了三個 Adaptation Layer (classifier 前三層) - 相較於 DDC 使用 MMD，DAN 使用 Multi-Kernel MMD (MK-MMD) - 比 DDC 更強 - network 結構如下圖 ![](https://i.imgur.com/JocAj1E.png) ### 3. 同時 transfer domain & task 的方法 - Simultaneous deep transfer across domains and tasks. 2015, ICCV - 針對的情況：target domain 的部分 class 有少量 label，剩下 class 無 label - 作者提出方法名為 joint CNN architecture for domain and task transfer - 現有方法都只做 domain confusion，而這樣不夠，因為忽略了 class 之間的聯繫，因此提出了要再加 soft label loss - ![](https://i.imgur.com/9vvYUnN.png) - 如下圖 ![](https://i.imgur.com/Blm6GS7.png) - $L_C$ 是普通的 loss - $L_{conf}$ 是一般的 domain adaptation - $L_{soft}$ 是 soft label 的 loss，只作用於 target 上 - ***什麼是 soft label loss? 在 network 對 source 訓練時，把 source 每個 sample 的每個 class 機率都記下來，(???)*** - soft label 示意圖 ![](https://i.imgur.com/giqaOS7.png) ### 4. Deep Joint Distribution Adaptation - (**JAN**) Deep transfer learning with joint adaptation networks. ICML 2017 - 提出了 Joint MMD (JMMD) - JAN 示意圖 ![](https://i.imgur.com/ZD2pQSQ.png) ### 5. AdaBN (Adaptive Batch Normalization) - Adaptive batch normalization for practical domain adaptation. 2018 - 在 normalization layer 加入統計 feature 的 adaptation - 實現簡單、方法本身不帶有任何額外 parameter - AdaBN 示意圖 ![](https://i.imgur.com/VMWobSx.png) #### 小結 Deep Transfer Learning 的研究 - Deep learning of transferable representation for scalable domain adaptation. 2016 - Deep unsupervised convolutional domain adaptation. 2017 - Supervised representation learning: Transfer learning with deep autoencoders. 2015, IJCAI - Deep coral: Correlation alignment for deep domain adaptation. 2016, ECCV - Deep nonlinear feature coding for unsupervised domain adaptation. 2016, IJCAI - Label efficient learning of transferable representations acrosss domains and tasks. 2017, NIPS - Autodial: Automatic domain alignment layers. 2017, ICCV - 這方法很容易被加入現有的 DNN 中，使 deep transfer learning 更方便 ## 9.4 Deep Adversaial Network Transfer ### 1. DANN (Domain-Adversarial Neural Network) Domain-adversarial training of neural networks. 2016, JMLR ![](https://i.imgur.com/IJPu9Xu.png) - $l = l_c(D_s, y_s) + \lambda l_d(D_s, D_t)$ - $l_c$ 是 NN 的 loss；$l_d$ 是 domain 的 loss - **domain loss:** $l_d = \max [-\frac{1}{n}\sum_\limits{i=1}^n \mathcal L_d^i(W, b, u, z) - \frac{1}{n'}\sum_\limits{i= n+1}^N \mathcal L_d^i(W, b, u, z)]$ - $u, z$ ***是???*** - ***不懂這個式子在幹嘛*** - $\mathcal L_d(G_d(G_f(x_i)), d_i) = d_i\log\dfrac{1}{G_d(G_f(x_i))} + (1-d_i)\log\dfrac{1}{G_d(G_f(x_i))}$ - $G_d$ 是 discriminator；$G_f$ 是 feature extractor ### 2. DSN (Domain Separation Networks) Domain Separation Networks. 2016, NIPS DSN 認為，source 和 target domain 都由兩部分組成：shared & private，對 DANN 進行了擴展。 ![](https://i.imgur.com/HxHz4V2.png) - loss function: $l = l_{task} + \alpha l_{recon} + \beta l_{difference} + \gamma l_{similarity}$ - $l_{recon}$: reconstruction loss，確保 private 部分仍然對 learning 的目標有用 - **為什麼 reconstruction loss 會對 learning 目標有用?** 個人理解為：能夠將 feature 給 reconstruct 回來就代表這個 feature 幾乎保留了 data 的所有訊息 - $l_{difference}$: shared & private 部分的 difference loss - 應該是希望兩個 feature 差越多越好 - $l_{similarity}$: source & target domain 在 shared 部分的 similarity loss - 應該是希望兩個 feature 越相似越好 #### ADDA, Adversarial Discriminative Domain Adaptation (不知為何被寫在 DSN 下面 - Adversarial discriminative domain adaptation. 2017, CVPR - 可視為一個通用的框架，現有的很多方法都可被看做 ADDA 的特例 - 以下 work 似乎都照之前思路進行 - 利用 WGAN 進行 transfer learning - Wasserstein distance guided representation learning for domain adaptation. 2018, AAAI - Coupled GAN 用於 transfer learning - Coupled generative adversarial networks. 2016, NIPS ### 3. SAN **Partial Transfer Learning** 動機：source domain 通常非常豐富，常常會出現 target domain 的 class 只是 source domain 的一小部分 class。這樣會有一個問題：只存在於 source domain 的 class 在 transfer 時，會對結果產生 **negative transfer** 的影響。這種情況非常普遍，因此就要求 transfer learning 方法能對 target domain 選擇相似的 source domain sample(class)，**然而實際使用的時候，target domain 通常沒有 label，不知道 (target domain 的某個 instance?) 和 source domain 的什麼 class 更相似**。作者指出這個問題叫 partial transfer learning，也就是「只 transfer source domain 中某部分和 target domain 相關的 sample」。 ![](https://i.imgur.com/Q5fCnTC.png) Partial Transfer Learning 的 idea 示意圖如上 Selective Adversarial Networks (SAN) - Partial transfer learning with selective adversarial networks. 2017 - 在 partial problem 中，傳統的 adversarial network 不再適用，因此需要修改使之適用於 partial problem - ***下面這裡沒懂*** - instance level 的 loss $L_d' = \dfrac{1}{n_s+n_t}\sum_\limits{k=1}^{|C_s|}\sum_\limits{x_i\in D_s+D_t} \hat y_i^kL_d^k(G_d^k(G_f(x_i)), d_i)$ - 或者 class level 的 loss ![](https://i.imgur.com/yonjb2s.png) - 為了消除過於依賴每個 instance 的 prediction probability 的影響，作者又在 target domain 上加了一項 minimize entropy - $E = \frac{1}{n_t}\sum_\limits{x_i\in D_t}H(G_y(G_f(x_i)))$ ### Deep Adversarial Network Transfer 小結使用 adversarial network 進行 transfer learning 是近年熱門的研究方向。 ## Cutting Edge of Transfer Learning ### TL with Human Knowledge - 不需要 label，取而代之的是將 knowledge 教給 network - Label-free supervision of neural networks with physics and domain knowledge. 2017, AAAI - task: 預測枕頭落下軌跡 - 不需要 label，給予 knowledge: 拋出的物體通常會沿著拋物線的軌跡運動 ### Transitive Transfer Learning 兩個看起來不相似的 domain A & B，是否能找到中間的 domain C，和 A&B 都有一定程度的相似，使得 A 可以先 transfer 到 C 再到 B。 - Transitive transfer learning. 2015, SIGKDD - 在 A 與 B 中間 transfer 一個 domain - Distant domain transfer learning. 2017, AAAI - 在 A 與 B 中間 transfer 多個 domain ### Life-long Learning System - (L2T) Learning to Transfer. 2017 ### Online Transfer Learning - 第一篇 OTL(Online Transfer Learning) 的 paper - Otl: A framework of online transfer learning. ICML 2010 - 在多個 source domain 和 target domain 上的 OTL - Online transfer learning by leveraging multiple source domains. 2017 - Online heterogeneous transfer by hedge ensemble of offline and online decisions. 2017 - Online Feature Selection - Online feature selection and its applications. 2014 - Online feature transformation learning for cross-domain object category recognition. - Online Transfer Ensemble - Online transfer boosting for object tracking. - Knowledge transfer using cost sensitive online learning classification. - Application - Online bayesian transfer learning for sequential data modeling. ICLR 2017 ### Transfer Reinforcement Learning - Transfer learning for reinforcement learning domains: A survey. 發展空間還很大 ### Explainable Transfer Learning 為什麼 domain A 和 domain B 更相似，而不是 domain C? - 只有經驗，缺乏理論 - **Understanding how feature structure transfers in transfer learning. 2017, IJCAI** - **本篇 paper 有助於理解 feature 如何 transfer** ### Understanding how features structure transfers in transfer learning. 2017, IJCAI 這篇 paper 定義某個 domain 的 **feature structure** 為一個 bases 的 set，這個 set 可以重構該 domain 的所有 observation，並且定義 source domain 到 target domain 的 **feature structure**轉換為 **feature structure transfer learning** - 例如 self-taught learning algorithm 就是一種 feature structure transfer learning algorithm # Others ## Journals and Conferences about Transfer Learning ### Journals ![](https://i.imgur.com/7R7JapE.png) ### Conferences ![](https://i.imgur.com/XZewlWd.png)  # 參考資料 - [《迁移学习简明手册》](http://jd92.wang/assets/files/transfer_learning_tutorial_wjd.pdf) ###### tags: `transfer learning` `domain adaptation`