# Review Jurnal 1
"*A Review of Deep Learning-Based Contactless Heart Rate Measurement Methods*"
oleh Aoxin Ni, Arian Azarang, dan Nasser Kehtarnavaz.
Pada Jurnal ini dibahas tentang metode-metode yang dipakai untuk melakukan pengukuran detak jantung tanpa melakukan kontak fisik. Metode ini dilakukan dengan bantuan kamera (video) dan algoritma pemroses gambar. Kamera dan algoritma yang diterapkan akan mengukur sinyal PPG (*Photoplethysmography*), yang mampu memberikan informasi perubahan volumetrik dari tubuh manusia sehingga dapat mengetahui diantaranya ukuran detak jantung (HR) dan variabilitas detak jantung (HRV). Kemudian metode ini pun dikenal dengan rPPG (remote PPG).

Pada rPPG (Figure 2), pencahayaan buatan diberikan terhadap area yang akan diukur, dimana pada saat yang sama kamera merekam area tersebut. Adapun cahaya yang sampai pada sensor kamera dapat dipisahkan menjadi komponen statis (DC) dan dinamis (AC). Komponen DC sesuai dengan elemen statis termasuk otot, tulang, dan darah statis, sedangkan komponen AC sesuai dengan variasi penyerapan cahaya karena perubahan volume darah arteri.

Terlihat pada Figure 3, pemrosesan gambar dari kamera (ekstraksi sinyal) dilakukan dengan deteksi dan pelacakan ROI (Region of Interest), yang biasanya menggunakan algoritma Viola and Jones (VJ) untuk mendeteksi area wajah. Kemudian dilanjutkan dengan estimasi sinyal, dimana sinyal mentah akan melewati filter bandpass untuk menghilangkan frekuensi komponen yang tidak diinginkan, yakni frekuensi diantara 0.7 Hz-4 Hz, yang sesuai dengan detak jantung antara 42-240 bpm.
Adapun tantangan dalam metode rPPG adalah pergerakan subjek dan variasi pencahayaan buatan, sehingga metode *deep learning* dipertimbangkan mampu mengatasi tantangan tersebut, karena dalam metode ini ekstraksi fitur dan klasifikasi dilakukan bersama dalam satu struktur jaringan yang memudahkan untuk mengidentifikasi kondisi yang identik dengan set data yang sudah ada. Metode *deep learning* dibagi kedalam dua grup:
* Kombinasi metode konvensional dan *deep learning*
* Estimasi sinyal

Terlihat pada Figure 4, video yang masuk ke modul deteksi dan pelacakan wajah akan menentukan ROI dengan pendekatan berbasis fitur biner lokal regresi. Kemudian pada modul ektraksi fitur, ROI di *downsampling* menjadi beberapa pita, pita terendah digabungkan menjadi gambar baru. Tiga saluran gambar baru itu ditransfer ke domain frekuensi yang kemudian disaring dengan *Fast Fourier Transformation* (FFT). Setelah itu, pita-pita dikembalikan ke domain waktu dengan *inverse* FFT dan bergabung menjadi *feature image*. Terakhir, *feature image* digunakan untuk mendapatkan estimasi HR dari *convolutional neural network* yang memiliki struktur yang sederhana dengan beberapa convolution layer yang menggunakan depth-wise convolution dan point-wise convolution.
* Ekstraksi sinyal

Salah satu metode ektraksi sinyal adalah dengan memakai kamera SPAD (*single-photon avalanche diode*) yang bekerja sangat baik pada lingkungan yang cenderung gelap, dimana gambar yang ditangkap oleh kamera diproses dengan CNN berpola U untuk mendeteksi seluruh kulit wajah yang tertangkap. Hasil deteksi ini adalah *binary skin mask* yang masuk kedalam modul pembuatan sinyal, dimana pada modul ini dilakukan penghitungan rata-rata intensitas tiap piksel dari *binary mask*. Kemudian estimasi sinyal dicapai dengan penyaringan, FFT, dan deteksi puncak, yang menghasilkan ukuran HR, tingkat respirasi, dan pengukuran tachogram.
* Metode *deep learning* *end-to-end*.
* VGG-Style CNN
VGG adalah model pengenalan objek yang mendukung hingga 19 lapisan. Metode ini mengukur detak jantung dan pernapasan berbasis video menggunakan jaringan konvolusi dalam bernama *DeepPhys*. Metode algoritma representasi gerakan berdasarkan model refleksi kulit digunakan untuk mengatasi tantangan pergerakan subjek. Namun CNN ini memiliki 3 kekurangan, yaitu set data yang dimiliki masih tergolong kecil/sedikit, kemudian ketidak-beragaman aktivitas pada set data, dan yang ketiga adalah perekaman set data yang tidak berlatar lingkungan nyata.
* CNN-LSTM Network
*Long short-term memory* (LSTM) adalah arsitektur *recurrent neural network* (RNN) yang tidak hanya memproses penanganan satu titik data (gambar), tetapi juga seluruh urutan titik data (ucapan atau video).
* 3D-CNN Network
Jaringan 3D memberikan informasi stasiotemporal yang lebih baik daripada jaringan 2D. Pada dasarnya, CNN dua-langkah digunakan untuk mendeteksi urutan gambar, yang kemudian di ekstraksi untuk menghasilkan sinyal untuk mengestimasi HR. Salah satu metode CNN yang digunakan dalam proses ektraksi gambar adalah *spatiotemporal video enhancement network* (STVEN) yang berguna untuk meningkatkan kualitas video, dan metode rPPGNet untuk untuk pemulihan sinyal rPPG.
Pada artikel ini, beberapa model , diantaranya:
* STVEN-rPPGNet

Pada metode ini, tingkat pertama adalah peningkatan kualitas video yang masuk dari segi spasialnya. Kemudian pada tingkat kedua dilakukan pengukuran dari video yang masuk oleh rPPGNet yang terdiri dari *statiotemporal* CNN, *partition constraint module* yang memilih wilayah kulit, dan modul batasan partisi yang meningkatkan representasi sinyal rPPG.
* IPPG-3D-CNN

Pada metode ini, pembelajaran dilakukan pada data sintetik yaitu aliran video pseudoPPG yang dibentuk dengan:
1. Melalui seri Fourier, model bentuk gelombang yang dipasang ke bentuk gelombang rPPG dihasilkan,
2. Berdasarkan bentuk gelombang pada langkah 1, sinyal dua detik dihasilkan
3. Sinyal diulang untuk membentuk aliran video
4. Derau (*noise*) acak ditambahkan ke setiap gambar aliran video
5. patch video dimasukkan ke jaringan yang dipetakan ke detak jantung yang ditargetkan.
* PhysNet

Dalam metode ini, lapisan RGB wajah dipetakan ke dalam domain rPPG secara langsung tanpa langkah pra dan pasca pemrosesan. Arsitektur jaringan saraf dalam ini menggunakan dua struktur berbeda untuk pelatihan:
1. Memetakan frame RGB wajah ke dalam sinyal rPPG melalui beberapa lapisan konvolusi dan pooling.
2. Menggunakan unit pemrosesan RNN.
Perbedaan antara kedua struktur tersebut adalah bahwa T-frame dimasukkan ke struktur jaringan pertama pada saat yang sama, dan lapisan konvolusi 3D digunakan dalam struktur jaringan kedua dengan memasukkan satu frame pada satu waktu.
* Meta-rPPG

Metode ini digunakan untuk menyempurnakan parameter jaringan untuk situasi yang tidak tercakup dalam set pelatihan. Arsitektur jaringan ini terdiri dari tiga modul: encoder convolutional, estimator rPPG (dengan LSTM), dan generator gradien sintetis. Jaringan ini dirancang untuk menghilangkan fitur spatiotemporal dengan memodelkan informasi visual menggunakan deep convolutional encoder dan kemudian memodelkan sinyal PPG menggunakan Bi-LSTM.
Keempat model *deep learning* diatas dibandingkan dengan indikator yaitu:
Hasil dari tiap algoritma yang dinilai sebagai fungsi dari *mean square error* (MSE), *mean absolute error* (MAE), dan *standard deviation* (SD). Kemudian HR dihitung dengan rumus

dimana *Pi* adalah nilai HR yang diprediksi.
Berikut adalah tabel hasil tiap algoritma

Berikut adalah grafik perbandingan prediksi HR tiap algoritma dengan referensi HR (bar paling kiri).

Dari hasil diatas didapat bahwa PhysNet merupakan model *deep learning* terbaik, karena:
* Metode PhysNet bekerja lebih baik daripada metode *deep learning* lainnya dalam hal metrik objektif.
* Kinerja PhysNet yang lebih baik dikaitkan dengan arsitekturnya yang memungkinkan ekstraksi fitur yang efektif dari frame input.
* PhysNet bekerja lebih baik daripada metode lain dalam hal mean dan standar deviasi, sehingga memberikan rata-rata akurasi tertinggi.