# Google DeepMind, [Progressive Neural Networks](https://arxiv.org/abs/1606.04671), 2016 ## Abstract - Multi-task learning 的 tasks 可以是 independent,不需要 foreknowledge 知道 tasks 之間是否有 similarity - accelerate learning via transfer when possible - 避免災難性遺忘 (fine-tune 會有的問題) ## 2. Progressive Networks starts with a single DNN (column) - $L$ 層 - hidden activations $h_i^{(1)} \in \mathbb{R}^{n_i}$ - $n_i$ 是第 $i$ 層的 unit 數 - $\Theta^{(1)}$ 被訓練到收斂 $h_i^{(k)} = f(W_i^{(k)}h_{i=1}^{(k)}+\sum_\limits{j<k}U_i^{(k:j)}h_{j-1}^{(j)})$ - $W_i^{(k)}\in \mathbb{R}^{n_i\times n_{i-1}}$ 是 column k (第 k 個 DNN) 的第 i 層 weight - $U_i^{k:j}\in \mathbb R^{n_i\times n_j}$ 是從第 j 個 DNN 的第 i-1 層,連接到這個 (第 k 個) DNN 的第 i 層的 weight - $f$ 是一個 element-wise non-linearity $f(x) = \max(0,x)$,應該就是指 ReLU activation? 上面介紹的是簡化版本的,實際上,還對這個架構做了擴充:使用 non-linear lateral connections 稱之 **adapter** 來代替本來的 linear lateral connections,同時達到 **improve initial conditioning (啥?)** 以及 **降維** 的作用 - linear lateral connection 被替換成 單層 hidden layer 的 MLP,而且在進入該 MLP 的 activation 之前,先乘上一個 learned scalar $\alpha$ (**是 element-wise 相乘還是全部都乘上 $\alpha$ ?**) - 這樣的一個 hidden layer 是一個投射到 $n_i$ 維的 projection 現在 activation 變這樣:$h_k^{(k)} = \sigma(W_i^{(k)}h_{i-1}^{(k)}+U_i^{(k:j)}\sigma(V_i^{(k:j)}\alpha_{i-1}^{(<k)}h_{i-1}^{(<k)}))$ - $V_i^{(k:j)}\in \mathbb R^{n_{i-1}\ \times n_{i-1}^{(<k)}}$ 是 projection matrix。對於 convolutional layers,降維是以 $1\times 1$ convolutions 實現。 ## 3. Transfer Analysis ###### tags: `lifelong learning` `model expansion`
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up