# LayerWise KFAC ## 研究の進捗 ### Overleaf - 学会シミュレーションの原稿 https://www.overleaf.com/4927189477kznprbsgyqkz ### 理論 - 平均場解析を用いたフィッシャーの解析(Karakida.et.al 2019)をもとにフィッシャーの平均値を解析する. - l層目の固有値の平均値.幅$M_l$が小さい層ほど,固有値の平均が小さくなる.  - Heの初期化を行った場合は,$\sigma_w=2$となる. ### 実験 - WideResNetでは,widen factorを大きくするほど,最終層(幅が1番小さい)の固有値が大きくなる.  - ViT,MixerのFine-Tuning  ## 関連文献 - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach (Neurips2022) - https://arxiv.org/abs/2210.05177 - SAMを一部の層のみに適用する話. - Fisherの最大固有値をもとにどの層に適用するか?を判断. - How to finetune vision models (Neurips2022) - Adamは1層目にしか効いていない. - Sparsity in Deep Learning: Pruning and growth for efficient inference and training in neural networks - https://www.jmlr.org/papers/v22/21-0366.html - ResNetでは1層目はpruningされない or しない方がいい ## 今後何を行うか? - [ ] OptimizerとしてSAMを追加? - [ ] 収束解析を行うか? - [ ] モデルのバリエーション? - [ ] データセットのバリエーション - [ ] 最大固有値の解析解 - [ ] GELUなど他のoptimizerの場合の解析解
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up