--- title: 2023/08/29 tags: meeting # 簡報的標籤 slideOptions: # 簡報相關的設定 theme: black # 顏色主題 transition: 'fade' # 換頁動畫 spotlight: enabled: true --- ## Experiment 我重做了 CIFAR 10 的訓練結果,並附上 CIFAR 100 的結果 在 CIFAR 10 和 CIFAR 100 中,我使用相同的訓練參數,以下是訓練參數 ### Configuration - batch size: 512 - image resolution: 32 - learning rate: 1e-3 - weight decay: 1e-2 - learning rate scheduler: OneCycle - augmentation: None - epochs: 100 以下是訓練結果 ACC 的圖表,我們比較 2~8 個 backbone 結果會不會有差異。點表示單一模型的 ACC,線圖表是使用方法,橫軸表示 backbone 使用數量。為了公平起見,我們盡量固定每個訓練方法的 epochs 固定在 100,對於 CNN-Voting,我們每個 backbone 訓練 100 個 epochs,對於其他訓練方法,我們的每個 backbone 只訓練 100 個 epochs。以下我們細部介紹各種方法 ![](https://hackmd.io/_uploads/S1ILk5j62.png) ![](https://hackmd.io/_uploads/SkI8k9oT3.png) ### CNN-Voting 我們分別使用 8 個模型進行簡易的多數決來決定最後得預測的輸出是什麼,八個模型依序為 resnest14, resnest26, densenet121, resnet18, resnet26, resnet34, resnet50, resnext50,我們使用 OneCycle scheduler 訓練 100 epochs ### AWM-F 我們先固定住 backbone 的參數,接著訓練 25 個 epochs,只更新分類器的參數 ### AWM-FS 延續 AWM-F 的訓練結果,我們使用 supervision 的方法接續 joint 訓練 25 個 epochs ### AWM-FS-Voting 把 AWM-FS 的結果拿出來在使用簡易的多數決決定最後的預測機率 ### AWM-FS-2 同 AWM-FS 的訓練方法,只是把分類器改為兩層,輸出通道為 [num_classes, num_classes] ### AWM-FS-3 同 AWM-FS 的訓練方法,只是把分類器改為三層,輸出通道為 [512, num_classes, num_classes] ### AWM-NF 我們不固定 backbone 的參數,使用 supervision joint 訓練 50 個 epochs ### AWM-NS 我們不固定 backbone 的參數,不使用 supervision joint 訓練 50 個 epochs ### Insights 從 CIFAR10 和 CIFAR100 的結果來看,有沒有事先固定 backbone 的參數並不會大幅影響到模型表現,但是如果要 joint 訓練整個模型,我們的方法可以避免 joint 訓練造成模型過大難以學習的困難,從而取得比較好的表現