# Review Jurnal #3
## A Review of Deep Learning-Based Contactless Heart Rate Measurement Methods
**Penulis**
Aoxin Ni
Arian Azarang
Nasser Kehtarnavaz.
**Tahun**
27 May 2021
Tujuan Penelitian
Mempublikasikan mengenai metode deep learning yang digunakan untuk mengembangkan performa contactless Heart Rate Measurment konvensional
### **A. Pengantar**
Secara umum pada bagian ini dalam jurnal menjelaskan beberapa metode yang umumnya digunakan dalam pengukuran detak jantung secara *contacless*.
Dengan pemanfaatan sinyal Photoplethysmography (PPG) yang didapatkan dari pengunaan kamera dan pengolahan dengan algoritma yang nantinya akan menyatakan perubahan volumetrik tubuh manusia yang dipengaruhi oleh detak jantung dan dinyatakan dalam variabel. Metode contactless ini disebut sebagai Remote Photoplethysmography (rPPG)
pencahayaan buatan diberikan terhadap area yang akan diukur, dimana pada saat yang sama kamera merekam area tersebut. Adapun cahaya yang sampai pada sensor kamera dapat dipisahkan menjadi komponen statis (DC) dan dinamis (AC). Komponen DC sesuai dengan elemen statis termasuk otot, tulang, dan darah statis, sedangkan komponen AC sesuai dengan variasi penyerapan cahaya karena perubahan volume darah arteri.
pemrosesan gambar dari kamera (ekstraksi sinyal) dilakukan dengan deteksi dan pelacakan ROI (Region of Interest), yang biasanya menggunakan algoritma Viola and Jones (VJ) untuk mendeteksi area wajah. Kemudian dilanjutkan dengan estimasi sinyal, dimana sinyal mentah akan melewati filter bandpass untuk menghilangkan frekuensi komponen yang tidak diinginkan, yakni frekuensi diantara 0.7 Hz-4 Hz, yang sesuai dengan detak jantung antara 42-240 bpm.
### B. Metode
Pada metode rPPG ini terdapat sebuah tantangan yang berisi mengenai pergerakan subjek dan variasi pencahayaan dengan cahaya sekitar (lingkungan). Metode deep learning dipertimbangkan mampu mengatasi tantangan tersebut, karena dalam metode ini ekstraksi fitur dan klasifikasi dilakukan bersama dalam satu struktur jaringan yang memudahkan untuk mengidentifikasi kondisi yang identik dengan set data yang sudah ada. Metode deep learning dibagi kedalam dua grup:
**1.** **Combination of Conventional and Deep Learning Methods**
- ***Deep learning untuk Signal Estimation***
Terdapat metode yang disebut EVM CNN yang berisi 3 hal yaitu detection dan tracking, Ekstrasi fitur, estimasi HR. Modul deteksi dan pelacakan wajah akan menentukan ROI dari video yang sudah diambil dengan pendekatan berbasis fitur biner lokal regresi. Kemudian pada modul ektraksi fitur, ROI di downsampling menjadi beberapa pita, pita terendah digabungkan menjadi gambar baru. Tiga saluran gambar baru itu ditransfer ke domain frekuensi yang kemudian disaring dengan Fast Fourier Transformation (FFT). Setelah itu, pita-pita dikembalikan ke domain waktu dengan inverse FFT dan bergabung menjadi feature image. Terakhir, feature image digunakan untuk mendapatkan estimasi HR dari convolutional neural network yang memiliki struktur yang sederhana dengan beberapa convolution layer yang menggunakan depth-wise convolution dan point-wise convolution.

- ***Deep Learning untuk Signal Extraction***
Pada bagian ini dalam jurnal dijelaskan bebrapa metode ekstraksi dan bebrapa pengembangan metode pendekatan seperti menggunakan jaringan saraf 3D yang selanjutnya diekstraksi dengan konvolusional sinyal pulsa selain itu juga bisa memakai kamera SPAD (single-photon avalanche diode) yang bekerja sangat baik pada lingkungan yang cenderung gelap, dimana gambar yang ditangkap oleh kamera diproses dengan CNN berpola U untuk mendeteksi seluruh kulit wajah yang tertangkap. Hasil deteksi ini adalah binary skin mask yang masuk kedalam modul pembuatan sinyal

***2. Deep Learning End to End***
- VGG-Style CNN
VGG adalah model pengenalan objek yang mendukung hingga 19 lapisan. Metode ini mengukur detak jantung dan pernapasan berbasis video menggunakan jaringan konvolusi dalam bernama _DeepPhys_. Metode algoritma representasi gerakan berdasarkan model refleksi kulit digunakan untuk mengatasi tantangan pergerakan subjek. Namun CNN ini memiliki 3 kekurangan, yaitu set data yang dimiliki masih tergolong kecil/sedikit, kemudian ketidak-beragaman aktivitas pada set data, dan yang ketiga adalah perekaman set data yang tidak berlatar lingkungan nyata.
- CNN-LSTM Network
_Long short-term memory_ (LSTM) adalah arsitektur _recurrent neural network_ (RNN) yang tidak hanya memproses penanganan satu titik data (gambar), tetapi juga seluruh urutan titik data (ucapan atau video).
- 3D-CNN Network
Jaringan 3D memberikan informasi stasiotemporal yang lebih baik daripada jaringan 2D. Pada dasarnya, CNN dua-langkah digunakan untuk mendeteksi urutan gambar, yang kemudian di ekstraksi untuk menghasilkan sinyal untuk mengestimasi HR. Salah satu metode CNN yang digunakan dalam proses ektraksi gambar adalah _spatiotemporal video enhancement network_ (STVEN) yang berguna untuk meningkatkan kualitas video, dan metode rPPGNet untuk untuk pemulihan sinyal rPPG.

### **C. Pemodelan Arsitektur Metode Deep Learning**
- STVEN-rPPGNet
Pada metode ini, tingkat pertama adalah peningkatan kualitas video yang masuk dari segi spasialnya. Kemudian pada tingkat kedua dilakukan pengukuran dari video yang masuk oleh rPPGNet yang terdiri dari _statiotemporal_ CNN, _partition constraint module_ yang memilih wilayah kulit, dan modul batasan partisi yang meningkatkan representasi sinyal rPPG.
- IPPG-3D-CNN
Pada metode ini, pembelajaran dilakukan pada data sintetik yaitu aliran video pseudoPPG yang dibentuk dengan pertama melalui seri Fourier, model bentuk gelombang yang dipasang ke bentuk gelombang rPPG dihasilkan, Berdasarkan bentuk gelombang pada pertama sinyal dua detik dihasilkan lalu Sinyal diulang untuk membentuk aliran video setelah itu Derau (_noise_) acak ditambahkan ke setiap gambar aliran video terakhir patch video dimasukkan ke jaringan yang dipetakan ke detak jantung yang ditargetkan.
- PhysNet
Dalam metode ini, lapisan RGB wajah dipetakan ke dalam domain rPPG secara langsung tanpa langkah pra dan pasca pemrosesan. Arsitektur jaringan saraf dalam ini menggunakan dua struktur berbeda untuk pelatihan:
1. Memetakan frame RGB wajah ke dalam sinyal rPPG melalui beberapa lapisan konvolusi dan pooling.
2. Menggunakan unit pemrosesan RNN.
Perbedaan antara kedua struktur tersebut adalah bahwa T-frame dimasukkan ke struktur jaringan pertama pada saat yang sama, dan lapisan konvolusi 3D digunakan dalam struktur jaringan kedua dengan memasukkan satu frame pada satu waktu.
- Meta-rPPG
Metode ini digunakan untuk menyempurnakan parameter jaringan untuk situasi yang tidak tercakup dalam set pelatihan. Arsitektur jaringan ini terdiri dari tiga modul: encoder convolutional, estimator rPPG (dengan LSTM), dan generator gradien sintetis. Jaringan ini dirancang untuk menghilangkan fitur spatiotemporal dengan memodelkan informasi visual menggunakan deep convolutional encoder dan kemudian memodelkan sinyal PPG menggunakan Bi-LSTM.
Keempat model _deep learning_ diatas dibandingkan dengan indikator yaitu:
Hasil dari tiap algoritma yang dinilai sebagai fungsi dari _mean square error_ (MSE), _mean absolute error_ (MAE), dan _standard deviation_ (SD). Kemudian HR dihitung dengan rumus dimana _Pi_ adalah nilai HR yang diprediksi.

### **Kesimpulan**
Pada jurnal ini kita disuguhkan bacaan detail mengenai metode deep learning yang digunakan terhadap rPPG. Pada bagian awal diberikan penganter mengenai metode contact dan contactless dan studi literatur mengenai Heart Rate Measurement (HRM). Disini juga dibahas empat buah pemodelan metode deep learning yang bersifat publik.