###### tags: `Paper Notes`
# Automatic Recognition of Student Engagement using Deep Learning and Facial Expression
* 機構: Macquarie University, CSIRO's Data61
* 時間:2019 年
### Background
* 如果要判斷學生的學習成效,則 engagement 會是一項重要指標。然而,現在有關 engagement recognition 的資料集太少,想自己收集大量的資料成本又太高。因此,本篇的作者提出了一種作法,就是先將模型 pretrain 在 facial expression recognition 資料集上,然後在用 engagement recognition 資料集做 fine tune。
* 此外,作者還釋出了他們實驗室蒐集的 engagement recognition 資料集 — Engagement Recognition dataset (ER dataset)。裡面包含 4627 張 engaged、disengaged samples。
* [Source Code (TensorFlow)](https://github.com/omidmnezami/Engagement-Recognition)
### Model Architecture
* 這裡使用的模型沒什麼特別的,就只是簡單的 CNN 模型而已,稱作 ENGAGEMENT MODEL。先將 ENGAGEMENT MODEL pretrain 在 Facial Expression Recognition 2013 (FER-2013) dataset [12] 後,再用 ER dataset 做 fine tune,如圖 10 所示。
* FER-2013 裡共包含 35887 張圖片,分成 7 種類別:happiness、anger、sadness、surprise、fear、disgust、neutral。圖片大小為 48x48 pixels,為 grayscale。train / public test / private test 分別有 28709 / 3589 / 3589 張。
* 此外,作者還做了一個沒有用 FER-2013 pretrain 的版本,稱作 VGGNet,如圖 9 所示。
<center><img src="https://i.imgur.com/YFbDqZy.png"></center>
### Engagement Recognition Dataset
* 資料集蒐集細節請參考原文 4.1 節 (p7 ~ p9)。==想蒐集類似資料集可以參考該作法==
* 總共包含 4627 張圖片,分成 training (3224)、validation (715)、testing(688)。圖片大小為 48x48 且為 grayscale。
### Experiments & Results
* 實驗細節:
* optimizer:Momentum(learning_rate=0.02, lr_decay=0.8, decay_step=500)
* data augmentation:randomly flipped along their width and cropped to 48-by-48 pixels
* initialized learning rate:0.002
* 每個 conv. block 之間都包含一個 maxpooling 與 dropout。activation function 採用 ReLU。第一個 conv. layer 後有接 local response normalization [22]。
* 實驗結果 (只要比較 VGGNet 與 ENGAGEMENT 就好,剩下兩個不重要) 如表 3、4 所示。可以看到有沒有用 facial expression recognition 做 pretrain 效果差很多。
<center><img src="https://i.imgur.com/IveUzdu.png"></center>
### References
[12] Challenges in representation learning: A report on three machine learning contests.
[22] Imagenet classification with deep convolutional neural networks.