# LayerWise KFAC ## 研究の進捗 ### Overleaf - 学会シミュレーションの原稿 https://www.overleaf.com/4927189477kznprbsgyqkz ### 理論 - 平均場解析を用いたフィッシャーの解析(Karakida.et.al 2019)をもとにフィッシャーの平均値を解析する. - l層目の固有値の平均値.幅$M_l$が小さい層ほど,固有値の平均が小さくなる. ![](https://i.imgur.com/MqOpWAN.png) - Heの初期化を行った場合は,$\sigma_w=2$となる. ### 実験 - WideResNetでは,widen factorを大きくするほど,最終層(幅が1番小さい)の固有値が大きくなる. ![](https://i.imgur.com/YbHvWWb.png) - ViT,MixerのFine-Tuning ![](https://i.imgur.com/5pe0LOE.png) ## 関連文献 - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach (Neurips2022) - https://arxiv.org/abs/2210.05177 - SAMを一部の層のみに適用する話. - Fisherの最大固有値をもとにどの層に適用するか?を判断. - How to finetune vision models (Neurips2022) - Adamは1層目にしか効いていない. - Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks - https://www.jmlr.org/papers/v22/21-0366.html - ResNetでは1層目はpruningされない or しない方がいい ## 今後何を行うか? - [ ] OptimizerとしてSAMを追加? - [ ] 収束解析を行うか? - [ ] モデルのバリエーション? - [ ] データセットのバリエーション - [ ] 最大固有値の解析解 - [ ] GELUなど他のoptimizerの場合の解析解