LayerWise KFAC

# LayerWise KFAC ## 研究の進捗 ### Overleaf - 学会シミュレーションの原稿 https://www.overleaf.com/4927189477kznprbsgyqkz ### 理論 - 平均場解析を用いたフィッシャーの解析(Karakida.et.al 2019)をもとにフィッシャーの平均値を解析する． - l層目の固有値の平均値.幅$M_l$が小さい層ほど，固有値の平均が小さくなる． ![](https://i.imgur.com/MqOpWAN.png) - Heの初期化を行った場合は，$\sigma_w=2$となる． ### 実験 - WideResNetでは，widen factorを大きくするほど，最終層（幅が1番小さい）の固有値が大きくなる． ![](https://i.imgur.com/YbHvWWb.png) - ViT,MixerのFine-Tuning ![](https://i.imgur.com/5pe0LOE.png) ## 関連文献 - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach (Neurips2022) - https://arxiv.org/abs/2210.05177 - SAMを一部の層のみに適用する話． - Fisherの最大固有値をもとにどの層に適用するか？を判断． - How to finetune vision models (Neurips2022) - Adamは1層目にしか効いていない． - Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks - https://www.jmlr.org/papers/v22/21-0366.html - ResNetでは1層目はpruningされない or しない方がいい ## 今後何を行うか？ - [ ] OptimizerとしてSAMを追加？ - [ ] 収束解析を行うか？ - [ ] モデルのバリエーション？ - [ ] データセットのバリエーション - [ ] 最大固有値の解析解 - [ ] GELUなど他のoptimizerの場合の解析解