###### tags: `Paper Notes` # Automatic Recognition of Student Engagement using Deep Learning and Facial Expression * 機構: Macquarie University, CSIRO's Data61 * 時間:2019 年 ### Background * 如果要判斷學生的學習成效,則 engagement 會是一項重要指標。然而,現在有關 engagement recognition 的資料集太少,想自己收集大量的資料成本又太高。因此,本篇的作者提出了一種作法,就是先將模型 pretrain 在 facial expression recognition 資料集上,然後在用 engagement recognition 資料集做 fine tune。 * 此外,作者還釋出了他們實驗室蒐集的 engagement recognition 資料集 — Engagement Recognition dataset (ER dataset)。裡面包含 4627 張 engaged、disengaged samples。 * [Source Code (TensorFlow)](https://github.com/omidmnezami/Engagement-Recognition) ### Model Architecture * 這裡使用的模型沒什麼特別的,就只是簡單的 CNN 模型而已,稱作 ENGAGEMENT MODEL。先將 ENGAGEMENT MODEL pretrain 在 Facial Expression Recognition 2013 (FER-2013) dataset [12] 後,再用 ER dataset 做 fine tune,如圖 10 所示。 * FER-2013 裡共包含 35887 張圖片,分成 7 種類別:happiness、anger、sadness、surprise、fear、disgust、neutral。圖片大小為 48x48 pixels,為 grayscale。train / public test / private test 分別有 28709 / 3589 / 3589 張。 * 此外,作者還做了一個沒有用 FER-2013 pretrain 的版本,稱作 VGGNet,如圖 9 所示。 <center><img src="https://i.imgur.com/YFbDqZy.png"></center> ### Engagement Recognition Dataset * 資料集蒐集細節請參考原文 4.1 節 (p7 ~ p9)。==想蒐集類似資料集可以參考該作法== * 總共包含 4627 張圖片,分成 training (3224)、validation (715)、testing(688)。圖片大小為 48x48 且為 grayscale。 ### Experiments & Results * 實驗細節: * optimizer:Momentum(learning_rate=0.02, lr_decay=0.8, decay_step=500) * data augmentation:randomly flipped along their width and cropped to 48-by-48 pixels * initialized learning rate:0.002 * 每個 conv. block 之間都包含一個 maxpooling 與 dropout。activation function 採用 ReLU。第一個 conv. layer 後有接 local response normalization [22]。 * 實驗結果 (只要比較 VGGNet 與 ENGAGEMENT 就好,剩下兩個不重要) 如表 3、4 所示。可以看到有沒有用 facial expression recognition 做 pretrain 效果差很多。 <center><img src="https://i.imgur.com/IveUzdu.png"></center> ### References [12] Challenges in representation learning: A report on three machine learning contests. [22] Imagenet classification with deep convolutional neural networks.