Google DeepMind, [Progressive Neural Networks](https://arxiv.org/abs/1606.04671), 2016

# Google DeepMind, [Progressive Neural Networks](https://arxiv.org/abs/1606.04671), 2016 ## Abstract - Multi-task learning 的 tasks 可以是 independent，不需要 foreknowledge 知道 tasks 之間是否有 similarity - accelerate learning via transfer when possible - 避免災難性遺忘 (fine-tune 會有的問題) ## 2. Progressive Networks starts with a single DNN (column) - $L$ 層 - hidden activations $h_i^{(1)} \in \mathbb{R}^{n_i}$ - $n_i$ 是第 $i$ 層的 unit 數 - $\Theta^{(1)}$ 被訓練到收斂 $h_i^{(k)} = f(W_i^{(k)}h_{i=1}^{(k)}+\sum_\limits{j<k}U_i^{(k:j)}h_{j-1}^{(j)})$ - $W_i^{(k)}\in \mathbb{R}^{n_i\times n_{i-1}}$ 是 column k (第 k 個 DNN) 的第 i 層 weight - $U_i^{k:j}\in \mathbb R^{n_i\times n_j}$ 是從第 j 個 DNN 的第 i-1 層，連接到這個 (第 k 個) DNN 的第 i 層的 weight - $f$ 是一個 element-wise non-linearity $f(x) = \max(0,x)$，應該就是指 ReLU activation? 上面介紹的是簡化版本的，實際上，還對這個架構做了擴充：使用 non-linear lateral connections 稱之 **adapter** 來代替本來的 linear lateral connections，同時達到 **improve initial conditioning (啥?)** 以及 **降維** 的作用 - linear lateral connection 被替換成單層 hidden layer 的 MLP，而且在進入該 MLP 的 activation 之前，先乘上一個 learned scalar $\alpha$ (**是 element-wise 相乘還是全部都乘上 $\alpha$ ?**) - 這樣的一個 hidden layer 是一個投射到 $n_i$ 維的 projection 現在 activation 變這樣：$h_k^{(k)} = \sigma(W_i^{(k)}h_{i-1}^{(k)}+U_i^{(k:j)}\sigma(V_i^{(k:j)}\alpha_{i-1}^{(<k)}h_{i-1}^{(<k)}))$ - $V_i^{(k:j)}\in \mathbb R^{n_{i-1}\ \times n_{i-1}^{(<k)}}$ 是 projection matrix。對於 convolutional layers，降維是以 $1\times 1$ convolutions 實現。 ## 3. Transfer Analysis ###### tags: `lifelong learning` `model expansion`