# AIMS HW2 ## Questions 利用kaggle的 [NIH Chest X-rays Datasets](https://www.kaggle.com/datasets/nih-chest-xrays/data) 訓練vgg16 Model並分類X-rays ## Process * 刪除一些可能會造成錯誤的資料(年齡>100)以及資料少於1000的 ![](https://i.imgur.com/bsgog14.png) * 因為資料不平均,所以要做sampling調整各data的權重 * 調整權重後資料: ![](https://i.imgur.com/opb1bh7.png) * 處理training data train:32000 valid:8000 * 用image generator來做transform產生更多圖片 ``` python= core_idg = ImageDataGenerator(samplewise_center=True, samplewise_std_normalization=True, horizontal_flip=True, vertical_flip=False, height_shift_range=0.05, width_shift_range=0.1, rotation_range=5, shear_range=0.1, fill_mode='reflect', zoom_range=0.15) ``` ## Result * epoch=5時,AUC約為0.52 ![](https://i.imgur.com/wlsCXuc.png) ## Experience * 在這次的作業會面臨資料量分布不平均的方式,通常可以用upsampling 或undersampling來處理,這次使用直接使用調整權重的方式來達成這樣的效果 * 能處理這種實際醫學的資料集感覺很新鮮,未來會想試試用更多kaggle上面的資料來跑模型