Review Jurnal 2 === Judul paper: A Review of Deep Learning-Based Contactless Heart Rate Measurement Methods Penulis: Aoxin Ni, Arian Azarang and Nasser Kehtarnava No dan Tahun: Sensors 2021, 21, 3719 **Abstrak** <div style="text-align: justify"> Ketertarikan pada pengukuran detak jantung tanpa kontak atau jarak jauh terus berkembang dalam aplikasi perawatan kesehatan dan olahraga. Metode contactless melibatkan pemanfaatan kamera video dan algoritma pemrosesan gambar. Baru-baru ini, metode Deep Learning telah digunakan untuk meningkatkan kinerja metode nirkontak konvensional untuk pengukuran detak jantung. Dataset UBFC domain publik digunakan untuk membandingkan kinerja metode Deep Learning ini untuk pengukuran detak jantung. Hasil yang diperoleh menunjukkan bahwa metode deep learning PhysNet menghasilkan hasil pengukuran detak terbaik di antara metode-metode tersebut, dengan mean absolute error 2,57 bpm dan mean square error 7,56 bpm. **Pendahuluan** Pengukuran fisiologis banyak digunakan untuk mengetahui kondisi kesehatan seseorang. Photoplethysmography (PPG) adalah metode pengukuran fisiologis yang digunakan untuk mendeteksi perubahan volumetrik dalam darah dipembuluh di bawah kulit. Perangkat medis berdasarkan PPG telah diperkenalkan untuk mengukur pengukuran fisiologis yang berbeda termasuk (Health Rate / HR), laju pernapasan, variabilitas denyut jantung (Health Rate Variability / HRV), saturasi oksihemoglobin, dan tekanan darah. Karena biayanya yang rendah dan sifatnya yang non-invasif, PPG digunakan dibanyak perangkat seperti oksimeter denyut jari, gelang olahraga, dan sensor yang dapat dipakai. Metode PPG contactless biasanya memanfaatkan kamera video untuk menangkap gambar yang kemudian diproses oleh algoritma pengolahan gambar. rPPG mirip dengan PPG berbasis kontak. Dalam metode rPPG, dioda pemancar cahaya dalam metode PPG berbasis kontak diganti dengan pencahayaan sekitar, dan fotodetektor diganti dengan kamera video. Cahaya yang mencapai sensor kamera dapat dipisahkan menjadi komponen statis (DC) dan dinamis (AC). Komponen DC sesuai dengan elemen statis termasuk jaringan, tulang, dan darah, sedangkan komponen AC sesuai dengan variasi penyerapan cahaya karena perubahan volume darah arteri. **Metode PPG Tanpa Kontak based on Deep Learning** **1. Kombinasi Metode Konvensional dan Deep Learning** Dapat dilihat bahwa satu atau lebih komponen kerangka HR contactless dapat dicapai dengan menggunakan Deep Learning. Komponen ini termasuk deteksi dan pelacakan ROI, estimasi sinyal, dan estimasi HR. **1.2 Metode Deep Learning untuk Estimasi Sinyal** Qiu dkk. 2018 mengembangkan metode yang disebut EVM-CNN. Metode ini terdiri dari tiga modul: face detection and tracking, feature extraction, and HR estimation.Dalam modul estimasi HR, CNN digunakan untuk memperkirakan HR dari fitur gambar. CNN yang digunakan dalam metode ini memiliki struktur yang sederhana dengan beberapa convolution layer yang menggunakan depth-wise convolution dan point-wise convolution untuk mengurangi beban komputasi dan ukuran model. **1.3 Metode Deep Learning untuk Ekstraksi Sinyal** Luguev dkk. 2020, membentuk kerangka kerja yang menggunakan jaringan spasial-temporal untuk pengukuran HRV tanpa kontak berdasarkan dari video wajah yang masih mentah. Dalam metode ini, 3D-CNN digunakan untuk ekstraksi sinyal. **2. End-to-End Deep Learning Methods 2.1. VGG-Style CNN** Chen dan Mcduff 2018 mengembangkan metode end-to-end untuk detak jantung dan pernapasan berbasis video menggunakan jaringan konvolusi dalam bernama DeepPhys. Untuk mengatasi masalah yang disebabkan oleh gerakan subjek, metode yang diusulkan menggunakan algoritma representasi gerakan berdasarkan skin reflection model. Akibatnya, gerakan ditangkap lebih efektif. Ditunjukkan bahwa model representasi gerakan dan attention mechanism digunakan untuk memungkinkan pengukuran yang kuat di bawah pencahayaan dan gerakan yang heterogen. Model ini didasarkan pada VGG-Style CNN untuk memperkirakan sinyal fisiologis yang diperoleh saat bergerak. VGG adalah model pengenalan objek yang mendukung hingga 19 lapisan. **2.2. Jaringan CNN-LSTM** (Long Short-Term Memory / LSTM) adalah arsitektur (Recurrent Neural Network / RNN) yang memungkinkan satu-satunya proses yang menangani satu titik data (seperti gambar), tetapi juga seluruh urutan titik data (seperti ucapan atau video). Ini sebelumnya telah digunakan untuk berbagai tugas seperti pengenalan tulisan tangan yang terhubung, pengenalan ucapan, dan deteksi anomali dalam lalu lintas jaringan Untuk mengatasi perubahan yang tidak terduga selama pengujian, meta-learner transduktif yang mengambil sampel tanpa label selama pengujian untuk penyesuaian berat badan untuk memberikan adaptasi cepat terhadap perubahan. Jaringan yang diusulkan dalam makalah ini dibagi menjadi dua bagian: feature extractor menggunakan CNN dan rPPG estimator menggunakan jaringan LSTM. **2.3. Jaringan 3D-CNN** 3D convolutional neural network adalah jenis jaringan dengan kernel sliding dalam tiga dimensi. 3D-CNN terbukti memiliki kinerja yang lebih baik dalam spatiotemporal information learning daripada 2DCN. Struktur pengklasifikasi 3D-CNN dikembangkan untuk ekstraksi dan klasifikasi aliran video yang tidak diproses. CNN bertindak sebagai ekstraktor fitur. Aktivasi terakhirnya dimasukkan ke dalam dua lapisan padat (multilayer perceptron) yang digunakan untuk mengklasifikasikan denyut nadi.   **3. Selected Deep Learning Models for Comparison 3.1 STVEN-rPPGNet** Metode berbasis Deep Learning ini mempertimbangkan input video resolusi rendah untuk mengukur heart rate. Training terjadi dalam dua tahap. Tahap pertama melibatkan jaringan peningkatan video (disebut STVEN) yang outputnya sesuai dengan video yang ditingkatkan secara spasial. Tahap kedua melibatkan jaringan pengukuran (disebut rPPGNet) yang outputnya memberikan detak jantung. Jaringan pengukuran rPPGNet dibentuk menggunakan jaringan konvolusi spatiotemporal, a skin-based attention module, dan a partition constraint module. skin-based attention module memilih daerah kulit. partition constraint module memungkinkan representasi sinyal rPPG yang ditingkatkan. **3.2 IIPG-3D-CNN** Dalam metode ini, fase training dilakukan pada data sintetik. Artinya, aliran video pseudo-PPG dibentuk oleh bentuk gelombang berulang, yang dibangun oleh aproksimasi deret Fourier. Pada tahap pengujian, tidak dilakukan tahap pra-pemrosesan, seperti deteksi wajah otomatis. Untuk mensintesis aliran video, langkah-langkah berikut diambil: (1) melalui seri Fourier, model bentuk gelombang yang dipasang ke bentuk gelombang rPPG dihasilkan, (2) berdasarkan bentuk gelombang dalam (1), sinyal dua detik dihasilkan, (3) sinyal diulang untuk membentuk aliran video, dan (4) derau acak pada tingkat derau tertentu ditambahkan ke setiap gambar aliran video. Kemudian, patch video dimasukkan ke jaringan yang dipetakan ke detak jantung yang ditargetkan. Dengan mengurangi nilai rata-rata, setiap video dipusatkan di sekitar nol. **3.3 PhysNet** Dalam metode ini, frame RGB wajah dipetakan ke dalam domain rPPG secara langsung tanpa langkah pra-dan pasca-pemrosesan. Bahkan, solusi yang dikembangkan adalah solusi end-to-end. Arsitektur jaringan saraf dalam ini menggunakan dua struktur berbeda untuk pelatihan: (1) arsitektur pertama memetakan bingkai RGB wajah ke dalam sinyal rPPG melalui beberapa lapisan konvolusi dan penyatuan, dan (2) arsitektur kedua menggunakan unit pemrosesan RNN. Perbedaan antara struktur pertama dan kedua adalah bahwa T-frame dimasukkan ke struktur jaringan pertama pada saat yang sama, dan lapisan konvolusi 3D digunakan dalam struktur jaringan kedua dengan memasukkan satu frame pada satu waktu. **3.4 Meta-rPPG** Untuk mendapatkan tune untuk menyempurnakan parameter jaringan untuk situasi yang tidak tercakup dalam set training. Arsitektur jaringan ini terdiri dari dua bagian: satu bagian memungkinkan proses adaptasi yang cepat dan bagian lainnya menyediakan pengukuran heart rate. Proses pembelajarannya melibatkan hal-hal berikut: mengekstraksi facial frames dari video, dan area wajah dipotong dengan wilayah di luar area wajah disetel ke nol untuk mendapatkan penanda wajah, dan untuk setiap frame wajah, sinyal PPG yang dimodifikasi, yang diperoleh dengan offset temporal kecil, digunakan sebagai jaringan **4. Hasil Perbandingan dan Diskusi 4.1. DataSet** Database UBFC digunakan di sini untuk melatih dan menguji keempat metode di atas. Basis data ini terdiri dari 37 video tidak terkompresi dengan resolusi 640 × 480 dalam format RGB 8-bit. Setiap video sesuai dengan subjek tertentu. Nilai kebenaran dasar dari data video adalah bentuk gelombang PPG (besar dan waktu) bersama dengan heart rate yang direkam dengan pulse oximeter. Tidak perlu dilakukan pra-pemrosesan pada database ini. **4.2.Eksperimental Setup** Eksperimen untuk penelitian ini dilakukan dalam satu fase, dimana dataset tersebut di atas dibagi menjadi training dan test set tanpa overlap. frame gambar diekstraksi dari klip video menggunakan MATLAB toolbox. Region of interest (ROI) kemudian dipilih dan dipotong menggunakan algoritma Viola–Jones dari gambar asli. Salah satu model Deep Learning membutuhkan pemetaan kulit pada frame. Akhirnya, gambar dan label kulit yang diekstraksi kemudian digunakan untuk melatih dan menguji algoritme pengukuran heart rate berbasis CNN. Hasil dari masing-masing dari empat algoritma dinilai sebagai fungsi dari mean square error (MSE), mean absolute error (MAE), dan standar deviasi (SD). Agar adil dalam hal metrik objektif, rasio set training dan pengujian tetap sama untuk keempat model yang dipilih. **4.3. Hasil dan Diskusi** Dalam kebanyakan kasus, metode PhysNet berkinerja lebih baik daripada metode deep learning lainnya dalam hal metrik objektif. Misalnya, MAE dan MSE subjek 10 di PhysNet ditemukan lebih rendah daripada metode lainnya. Hasil yang sama juga didapatkan untuk subjek 5. Lebih khusus, MAE rPPGNet, 3D-CNN, PhysNet, dan Meta-rPPG untuk subjek 10 ditemukan masing-masing 3,14; 3,36; 2,60; dan 3,67, sedangkan ukuran MSE ditemukan 10,74; 12,34; 7,63; dan 14.60. Kinerja PhysNet yang lebih baik dikaitkan dengan arsitekturnya yang memungkinkan ekstraksi fitur yang efektif dari frame input. **Kesimpulan** Paper ini memberikan tinjauan komprehensif tentang metode pengukuran heart rate nirkontak berbasis Deep Learning. Pertama, tinjauan umum metode PPG berbasis kontak dan PPG tanpa kontak telah dibahas. Kemudian, review focus ditempatkan pada metode berbasis Deep Learning yang telah diperkenalkan dalam literatur untuk pengukuran heart rate menggunakan rPPG. Di antara metode contactless berbasis Deep Learning, empat metode yang tersedia untuk umum telah diidentifikasi, dan perbandingan di antara metode ini dilakukan untuk melihat mana yang menghasilkan akurasi tertinggi untuk pengukuran heart rate dengan mempertimbangkan kumpulan data yang sama di keempat metode. Di antara keempat metode ini, PhysNet diidentifikasi memberikan rata-rata akurasi tertinggi.