# Summary Ni, Aoxin, Arian Azarang, and Nasser Kehtarnavaz. “A Review of Deep Learning-Based Contactless Heart Rate Measurement Methods.” Sensors 21.11 (2021): 3719. > Pengukuran fisiologis berbasis PPG dapat dikategorikan menjadi dua jenis: berbasis kontak dan tanpa kontak. Beberapa artikel survei telah muncul dalam literatur tentang metode PPG berbasis kontak serta metode PPG tanpa kontak. Metode berbasis kontak menyebarkan sumber cahaya dan fotodetektor. Di sisi lain, metode tanpa kontak menggunakan kamera video untuk mengukur sinyal PPG. Contactless PPG ini dikenal dengan remote PPG (rPPG) > Meskipun metode PPG contact-based bersifat non-invasif, metode tersebut dapat membatasi kebutuhan kontak mereka dengan kulit. Metode contact-based bisa mengganggu dalam beberapa situasi, misalnya, untuk bayi yang baru lahir. Maka dapat mempertimbangkan untuk menggunakan metode remote PPG (rPPG), metode ini telah berkembang belakangan ini bertahun-tahun. > Metode PPG contactless biasanya memanfaatkan kamera video untuk menangkap gambar yang kemudian diproses oleh algoritma pengolahan gambar. Prinsip kerja rPPG mirip dengan PPG berbasis kontak. Dalam metode rPPG, dioda pemancar cahaya dalam metode PPG berbasis kontak diganti dengan pencahayaan sekitar, dan fotodetektor diganti dengan kamera video. Cahaya yang mencapai sensor kamera dapat dipisahkan menjadi komponen statis (DC) dan dinamis (AC). Komponen DC sesuai dengan elemen statis termasuk jaringan, tulang, dan darah statis, sedangkan komponen AC sesuai dengan variasi penyerapan cahaya karena perubahan volume darah arteri. > Pemrosesan sinyal yang didapat dari kamera kemudian dilakukan dengan PPG image processing framework yang terbagi menjadi 3 bagian besar > 1. Ekstraksi sinyal (deteksi dan pelacakan Region of Interest (ROI) > 2. Estimasi sinyal (filter bandpass) > tidak hanya filter bandpass, untuk mencegah sinyal dari komponen yang tidak berhubungan digunakan juga independent component analysis (ICA) dan principal component analysis (PCA) > 3. Estimasi detak jantung (analisis frekuensi atau penentuan titik puncak) > Terdapat masalah yang perlu diperhatikan dalam menggunakan metode rPPG ini terkait gerakan dari objek dan variasi ddari pencahayaan sekitar. Namun masalah ini dapat diatasi dari berkembangnya metode deep learning. Dalam metode deep learning, ekstraksi fitur dan klasifikasi dilakukan secara bersamaan dalam satu struktur jaringan. Kumpulan data yang diperlukan untuk metode deep learning dikumpulkan menggunakan kamera RGB. > Contactless PPG menggunakan deep learning terbagi menjadi dua jenis > - Metode kombinasi konvensional dan deep learning > - Metode deep learning end-to-end > Metode kombinasi konvensional dan deep learning > metode ini memiliki struktur atau rangka yang sama dengan rPPG namun bagian didalamnya bisa digantikan atau menggunakan deep learning. Komponen tersebut melingkup deteksi dan pelacakan ROI, signal extrction, dan heart rate estimation. > Metode deep learning untuk estimasi sinyal > metode ini terdiri dari tiga modul: > 1. Deteksi dan pelacakan wajah > 68 landmark wajah di dalam kotak pembatas dideteksi dengan menggunakan pendekatan berbasis fitur biner lokal regresi. Kemudian, ROI yang ditentukan oleh delapan titik di sekitar bagian tengah wajah manusia secara otomatis diekstraksi dan dimasukkan ke dalam modul berikutnya. > 2. Ekstraksi fitur > dekomposisi spasial dan penyaringan temporal diterapkan untuk mendapatkan apa yang disebut citra fitur. Urutan ROI di-down-sampling menjadi beberapa pita. Pita terendah dibentuk kembali dan digabungkan menjadi gambar baru. Tiga saluran gambar baru ini ditransfer ke domain frekuensi; kemudian, Fast Fourier Transfer (FFT) diterapkan untuk menghilangkan pita frekuensi yang tidak diinginkan. Terakhir, pita-pita tersebut ditransfer kembali ke domain waktu dengan melakukan FFT terbalik dan bergabung menjadi citra fitur. > 3. Estimasi HR. > Concolutional Neural Network (CNN) digunakan untuk memperkirakan detak jantung dari citra fitur. CNN yang digunakan dalam metode ini memiliki struktur yang sederhana dengan beberapa convolution layer yang menggunakan depth-wise convolution dan point-wise convolution untuk mengurangi beban komputasi dan ukuran model. > Metode deep learning untuk ekstraksi sinyal > Salah satu contoh implementasi dalam rPPG oleh (Paracchini et al. 2020) adalah dengan memakai kamera Single Photon Avalanche Diode (SPAD) yang bekerja sangat baik pada lingkungan yang cenderung gelap apabila dibandingkan dengan CCD atau CMOS, dimana gambar yang ditangkap oleh kamera diproses dengan CNN berpola U untuk mendeteksi seluruh kulit wajah yang tertangkap. Hasil deteksi ini adalah binary skin mask yang masuk kedalam modul pembuatan sinyal, dimana pada modul ini dilakukan penghitungan rata-rata intensitas tiap piksel dari binary mask. Kemudian estimasi sinyal dicapai dengan penyaringan, FFT, dan deteksi puncak, yang menghasilkan ukuran detak jantung, tingkat respirasi, dan pengukuran tachogram. > Metode deep learning end-to-end > metode deep learning ini mengambil video sebagai input dan menggunakan arsitektur jaringan khusus untuk menghasilkan sinyal fisiologis sebagai output. > VGG-Style CNN > Chen dan Mcduff mengembangkan sebuah end-to-end deep learning method berbasis VGG-style CNN untuk mengukur detak jantung dan pernapasan berbasis video yang diberi nama DeepPhys. Untuk mengatasi masalah yang disebabkan oleh gerakan subjek, metode yang diusulkan menggunakan algoritma representasi gerakan berdasarkan model refleksi kulit sehingga gerakan ditangkap lebih efektif. VGG sendiri merupakan suatu model pengenalan objek yang mendukung hingga 19 lapisan. Lalu menggunakan deep learning VGG dapat mengungguli baseline dalam berbagai tugas untuk memroses gambar. Namun CNN ini memiliki 3 kekurangan, yaitu set data yang dimiliki masih tergolong kecil/sedikit, kemudian ketidak-beragaman aktivitas pada set data, dan yang ketiga adalah perekaman set data yang tidak berlatar lingkungan nyata. Kekurangan ini dibantu diatasi dengan penelitian dari Reiss et al "Deep PPG" dimana dihasilkan dataset baru yang diberi nama PPG-DaLia. > CNN-LSTM Network > Long short-term memory (LSTM) adalah recurrent neural network (RNN) yang memungkinkan proses penanganan tidak hanya untuk satu titik data (seperti gambar), tetapi juga untuk seluruh urutan titik data (seperti ucapan atau video). > 3D-CNN Network > Metode 3D convolutional neural network merupakan suatu jaringan dengan kernel yang berkerja dalam tiga dimensi. Metode ini terbukti memiliki kinerja yang lebih baik dalam memberikan informasi spatiotemporal daripada 2D-CNN. Metode ini umumnya berupa CNN 2 langkah yang terdiri dari sebuah extractor dan HR estimator. > Komparasi beberapa model dari metode deep learning >![](https://i.imgur.com/s7kWo4q.png) >![](https://i.imgur.com/bZxMsLx.png) untuk mengukur kinerja setiap metode pembelajaran mendalam, mean square error (MSE) dan mean absolute error (MAE) antara detak jantung yang diprediksi dan kebenaran dasar dipertimbangkan. SD dari detak jantung referensi dan detak jantung yang diprediksi juga dilaporkan. MSE dan MAE dihitung menggunakan >![](https://i.imgur.com/7HWOotB.png) > di mana Ri dan Pi masing-masing menunjukkan kebenaran dasar dan detak jantung yang diprediksi, dan N adalah jumlah total detak jantung. > STVEN-rPPGNet > Metode ini menggunakan input video beresolusi rendah untuk mengukur detak jantung. Proses deep learning disini terbagi menjadi dua : > 1. pengingkatan video secara spasial menggunakan STVEN > 2. Pengukuran detak jantung menggunakan rPPGNet. rPPGNet ini dibentuk menggunakan jaringan konvolusi spatiotemporal, modul yang menyeleksi bagian dari kulit, dan modul batasan partisi yang meningkatkan sinyal dari rPPG. >![](https://i.imgur.com/bFTtHpY.png) > IPPG-3D-CNN > Metode ini menggunakan deep learning pada data sintetik. Aliran video pseudo-PPG dibentuk oleh gelombang yang berulang, yang dibangun dengan aproksimasi deret fourier. Pada tahap pengujiannya tidak dilakukan tahap pra-pemrosesan dan untuk mensintesis aliran videonya dilakukan : > (1) melalui seri Fourier, model bentuk gelombang yang dipasang ke bentuk gelombang rPPG dihasilkan.(2) berdasarkan bentuk gelombang dalam (1), sinyal dua detik dihasilkan, (3) sinyal diulang untuk membentuk aliran video, dan (4) derau acak pada tingkat derau tertentu ditambahkan ke setiap gambar aliran video. > Kemudian, patch video dimasukkan ke jaringan yang dipetakan ke detak jantung yang ditargetkan. Dengan mengurangi nilai rata-rata, setiap video dipusatkan di sekitar nol. Pelatihan dilakukan dengan terus-menerus menambahkan 15.200 batch dalam durasi (200 video patch di masing-masing dari 76 tingkat detak jantung). >![](https://i.imgur.com/Vp9YqdL.png) > PhysNet > Metode ini menggunakan RGB frame dari wajah untuk dipetakan ke domain rPPG secara langsung tanpa melalui tahapan pre dan post processing. Arsitektur dari metode ini menggunakan dua struktur berbeda untuk training: > (1) arsitektur pertama memetakan frame wajah RGB ke dalam sinyal rPPG melalui beberapa lapisan convolution dan pooling, dan (2) arsitektur kedua menggunakan unit pemrosesan RNN. > ![](https://i.imgur.com/w2GIz9V.png) > Meta-rPPG > Metode ini menggunakan meta-learning untuk pengukuran detak jantung dari sinyal rPPG dengan melakukan fine-tune dari parameter jaringan untuk situasi yang tidak tercakup dalam deep learning. Prosesnya terdiri dari dua tahapan, yaitu: > (1) mengekstrak facial frame dari video kemudan area wajah dicrop, dan (2) untuk setiap facial frame, sinyal PPG yang sudah dimodifikasi diambiloleh temporal offset kecil yang digunakan sebagai network target. > Arsitektur jaringan ini terdiri dari tiga modul: > 1. encoder convolutional > 2. estimator rPPG (dengan LSTM) > 3. generator gradien sintetis. > Jaringan ini dirancang untuk menghilangkan fitur spatiotemporal dengan memodelkan informasi visual menggunakan deep convolutional encoder dan kemudian memodelkan sinyal PPG menggunakan Bi-LSTM. >![](https://i.imgur.com/YUuBx0b.png) > Bisa kita lihat dari data tabel 5 bahwa dari keempat contoh metode deep learning yang dilakukan PhysNet mendapatkan akurasi tertinggi mendekati referensi secara rata-rata. Tapi apabila dilihat dari sisi kecepatan 3D-CNN hanya memerlukan waktu 0.74s.