# 電子健康記錄的缺失值插補方法 [**2023 年 3 月 2 日 IEEE Access (卷:11)**](https://ieeexplore.ieee.org/document/10057378) <font size="2">**DOI: 10.1109/ACCESS.2023.3251919**</font> <font size="1">*KONSTANTINOS PSYCHOGYIOS , LOUKAS ILIAS , CHRISTOS NTANOS ,AND DIMITRIS ASKOUNIS*</font> <style>.red {color: red;}</style> <style>.blue {color: #00008B;}</style> <style>.green {color: green;}</style> <style>.orange {color: orange;}</style> ## **摘要 (ABSTRACT)** 電子健康記錄(EHR)是以電子格式儲存的病患層級訊息,例如實驗室測試和問卷,相較於紙本記錄,EHR提供了病患輕鬆存取資料的替代方案,並協助醫護人員進行資訊共享 等管理程序任務,跨不同組織進行資料共享。 此外,研究人員通常使用這種類型的數據進行預測和分類,採用統計和機器學習方法。 然而,這些測量數據經常出現缺失現象。 儘管缺失通常很顯著,但通常採用案例刪除或簡單方法來處理,導致預測結果不佳或不準確。 這是因為簡單方法,如k最近鄰(kNN)和平均值/眾數插補,在大多數情況下無法考慮到定義這些醫學資料集的複雜關係。 為了解決這些限制,在本文中,我們測試並改進了最先進的缺失資料插補模型和實踐。 我們提出了一種基於去噪自動編碼器(DAE)與kNN的新缺失值插補方法,用於預插補任務。 我們透過每隔N個週期重新應用kNN到缺失資料中,每次使用不同的k值來最佳化訓練方法,以獲得更準確的結果。 我們也修訂了基於生成對抗網路(GAN)的最新缺失資料插補方法。 將其作為基準,我們介紹了在架構和訓練過程方面的改進。 這些模型與通常用於臨床研究的模型在插補和後插補預測任務方面進行了比較。 結果表明,我們提出的深度學習方法勝過了標準基準,產生了更好的插補和預測結果。 --- ## **I. 引言(INTRODUCTION)** 電子健康記錄(EHR)是一份含有例如實驗室測量等患者醫療信息的文件,並且被存儲在線上。因此,它能夠在多個設施間分享,並能夠被患者或醫務人員快速訪問。EHR主要用於設定目標和規劃患者護理,記錄護理的交付,以及評估該護理的結果[1]。這些數據提供了提升患者護理的機會,將表現度量嵌入到臨床實踐中,並促進臨床研究[2]。一個基於EHR的研究例子是使用機器學習回歸方法預測心血管風險[3]。這樣的模型可以作為一個決策支持系統,協助醫生和醫師管理患者並採取積極行動。 然而,這種類型的數據很常見地存在缺失的情況[4]。缺失數據是指感興趣的變數的值未被測量或記錄在樣本中的所有受試者身上。數據之所以缺失,有很多原因[5],包括:(i)患者拒絕回答特定問題,例如,患者未報告有關收入的數據;(ii)患者失去了隨訪;(iii)調查者或機械錯誤,例如,血壓計故障;以及(iv)醫生未為某些患者要求進行某些調查,例如,某些患者未要求膽固醇測試。缺失值可以由三個主要機制來定義:a.完全隨機缺失(MCAR)、b.隨機缺失(MAR)和 c.非隨機缺失(MNAR)[6]。第一種情況(MCAR)是指EHR中的缺失遵循完全隨機的模式。例如,如果我們有關於心血管疾病的EHR實驗室測量,例如血壓和膽固醇,某些患者可能由於當天公共交通罷工而無法前往實驗室,因此膽固醇測試的值缺失。第二種情況(MAR)表示一個變數的缺失與另一個變數有關。一個例子可能是舒張壓的缺失數據與低收縮壓有關。第三種情況(MNAR)表示變數中的缺失與變數本身有關。這種情況的一個實例是高膽固醇的人不去醫院進行實驗室測試。還值得注意的是,在臨床EHR數據集中,可能同時存在多種缺失模式,並且缺失的百分比各不相同。 #### **<span class="green">:mag: 缺失值機制:</span>** :::success * **MCAR**:數據的缺失與任何其他變數都無關,可以進行簡單的分析。 * **MAR** :數據的缺失與其他觀察到的變數有關,需要複雜的方法來進行調整。 * **MNAR**:數據的缺失與未觀察到的變數有關,很難進行不偏的分析。 ::: 在臨床研究框架內,缺失數據通常處理得不夠好[7]。最常見的方法是完整案例分析,即在預測變量或結果變量中含有缺失值的行會被刪除。這種選擇非常有問題,因為它導致數據集變小,並且模型的泛化能力不佳。此外,這種方法經常產生的結果和錯誤可能對於數據的完整子集來說是小的,但實際上過於樂觀。此外,不同的研究可能使用同一數據集的不同子集,例如,可能會刪除列而不是行,或者兩者的組合,這使得比較變得更加困難。解決這個問題的另一種方法是使用平均數、眾數(最頻繁)算法或kNN插補器[8]進行簡單插補。這些可以得到一個完整的數據集,但是太過簡單,因此插補的值是不切實際的。例如,對於心血管疾病(CVD)患者層面的數據,相應變量之間通常存在強烈的相關性,例如收縮壓和舒張壓,這應該被納入缺失值插補模型中。這是單變量統計方法和簡單回歸算法無法計算的,從而導致不准確的結果[9]。這種相關性當然存在於大多數醫療數據集中,其中對同一患者進行了測試,為特定任務進行了實驗室測量等。有一些略為複雜且結果更好的方法是Missforest(MF)[10]和多變量插補鏈式方程(MICE)[11]。即使這些方法更為高級,它們仍然缺乏充分分析定義EHR數據集的複雜關係的能力[12],[13]。在縱向研究中,這個問題更為嚴重,因為關於缺失值的信息應與同一患者的先前值相關聯。 為了解決這些限制,本文比較了幾種缺失數據插補方法。具體而言,我們提出了兩種基於去噪自編碼器(DAE)和生成對抗網絡(GANs)的深度學習方法。受[14]的啟發,我們提出了一種基於DAE的方法,使用k最近鄰(kNN)進行預插補。以此模型作為基線,我們對架構和訓練過程進行了各種變更,從而獲得更準確的結果。我們為混合類型的數據集(分類和數值)自定義了損失函數,並添加了批次正規化。此外,我們不僅在訓練開始時使用kNN一次,還在每N輪後重新應用它,並使用不同的k值。此外,訓練過程還包括對自編碼器的完整數據集引入缺失值。我們不僅在訓練過程開始時執行一次此操作,而且在每個時期結束時執行,改變要插補的變量位置。這些變更有助於kNN-DAE方法,通過改進訓練方法學習更廣泛。在GAN方法方面,我們還在現有架構的基礎上進行了改進,改進了我們研究的具體案例。更具體地說,我們使用具有kNN預插補的DAE作為生成器,並對訓練過程進行了上述調整。我們還將我們的方法與傳統方法(例如平均值、模式和普通kNN)進行了比較,並展示了我們的方法具有明顯的優勢。為了評估我們的模型,我們使用了四個公開可用的EHR數據集。最後,我們對提出的模型進行了插補和後插補預測任務的評估。我們研究後者是為了探索在應用機器學習技術到EHR數據時,選擇更穩健的插補方法是否會導致更高的預測性能,這非常重要,因為當研究人員和從業人員應用機器學習技術到EHR數據時,預測通常是共同的目標。 我們的主要貢獻可總結如下: * 我們提出了一種基於DAE的新的缺失值插補方法,並使用kNN進行預插補。 * 我們擴展和改進了一種基於GAN的最先進的缺失值插補方法。 * 我們對四個公開可用的EHR數據集進行了評估,並對這些數據集引入了不同類型的缺失,以應對現實世界情景中可能出現的所有情況。 * 我們對插補和後插補預測任務的方法進行了評估,並展示了我們提出的方法在超越最先進方法方面具有有價值的優勢 目前的手稿是2022 年IEEE-EMBS 國際生物醫學和健康資訊學會議(BHI)[15] 上提出的先前工作的延伸,並介紹了更全面的分析和評估,包括深度學習模型的新改進,更多EHR 資料集以及其他常用的比較方法。 ## **II. 相關研究(RELATED WORK)** 針對使用EHRs數據的缺失值插補,文獻中有多種不同的方法。沒有一種解決方案適用於所有案例,研究人員通常會選擇特定任務表現較好的算法。選擇插補技術的主要原因是缺失的機制、缺失數據的間隔長度等[16]。 最簡單的處理方式是刪除包含至少一個缺失值的記錄,從而選擇原始數據集中沒有缺失值的一個子集[17],[18],[19],[20]。Gupta等人[21]使用常見的機器學習模型如隨機森林和LSTMs,研究了使用EHR數據的肥胖預測案例。關於缺失值,他們刪除了包含缺失或腐敗值的行,例如不合理的日期。同時,他們刪除了超過50%的條目是腐敗的列。Kwakye和Dadzie[22]使用Framingham心臟研究數據集研究了冠狀動脈心臟病的案例,該數據集在Kaggle上可用。在預處理步驟中,他們選擇消除缺失和異常數據,導致一個不完整的數據集。 另一種流行但簡單的方法是基於平均數、眾數或零插補的插補,每個缺失值都以零插補[23]。Liu等人[24]利用了一個臨床試驗數據集(每位患者可能有多個),並採用零插補作為試驗結果,如果該值缺失,並且這是第一次進行特定的測試。如果該患者在過去的臨床試驗中進行了此測試,則使用相應的結果填充缺失值。 Guo等人[25]開發了一種深度學習方法,用於使用合成EHR數據預測心臟衰竭的問題。在他們的分析中,他們選擇丟棄超過50%的條目缺失的特徵,並使用數值和類別特徵的平均值和最頻繁值分別插補其餘部分。Gupta等人[26]使用Framingham心臟研究數據集和UCI機器學習存儲庫的心臟數據集評估了心臟病預測的機器學習模型。在預處理和特別是缺失值方面,他們的方法是使用平均數或中位數插補,其中後者優先用於偏態分布的特徵。關於類別缺失,他們通過為「缺失」添加一個額外的類別來處理。kNN和MLP也是解決此問題的兩種方法。 Jerez等人[27]將缺失數據插補方法應用於具有總缺失率5.61%的實際乳腺癌數據集。他們利用kNN、MLP、MICE、SOM等算法來解決這個問題。他們發現,表現最好的方法是kNN,這導致了更高的插補後準確度。 深度學習的最近進展通過修改現有模型以適應缺失值插補框架,產生了最先進的結果。這些進展可以分為判別性或生成性。Yoon等人[28]修改了原始的GAN架構,創建了一個生成對抗插補網絡(GAIN)。結果表明,這種方法超越了包括基於自編碼器的方法在內的強大插補方法。Dong等人[29]評估了諸如GAIN、MICE和Missforest等現代缺失值插補方法。他們使用了兩個實際數據集來支持他們的說法。結果顯示,深度學習方法在缺失百分比高時表現更好。 Park等人[30]收集了來自可穿戴設備的EHR數據,目的是基於機器學習進行預測。在這個數據集中,缺失數據的比例為2.83%。為了插補這一點,他們首先在數據的完整子集上評估了缺失值插補方法。這些方法包括:(i) GAIN,(ii) kNN,(iii) mean,mode。結果顯示,深度學習方法大大優於簡單方法。 關於判別模型,Aidos和Toma´s[14]提出了一種具有kNN預插補的過完備DAE。這種方法與許多常見的缺失值插補方法如MICE、GAIN、最小平方插補和平均數、眾數進行了測試。研究發現,這些方法優於標準方法,可以處理高達50%的缺失率。Seo等人[31]對氣體數據測試了一種具有kNN預插補的去噪自編碼器。比較是針對常見的缺失值插補方法完成的。結果顯示,自編碼器解決方案取得了最佳性能。 ## **III. 問題表述(PROBLEM FORMULATION)** #### ***A. MISSING VALUE IMPUTATION*** ![](https://hackmd.io/_uploads/BkG0dMgxT.png) ![](https://hackmd.io/_uploads/H10_5zglT.png) #### ***B. POST-IMPUTATION PREDICTION*** ![](https://hackmd.io/_uploads/Sy6aKflx6.png) ## **IV. 方法理論(METHODS)** ![](https://hackmd.io/_uploads/ByxCbVlga.png) #### ***A. SIMPLE*** ![](https://hackmd.io/_uploads/HJM-JXlla.png) #### ***B. kNN*** ![](https://hackmd.io/_uploads/ryYp1QxeT.png) ![](https://hackmd.io/_uploads/rJKyeQeg6.png) #### ***C. MISSFOREST*** ![](https://hackmd.io/_uploads/ryMoemge6.png) ![](https://hackmd.io/_uploads/BJUy-Qee6.png) #### ***D. MICE*** ![](https://hackmd.io/_uploads/ByrPk4ll6.png) ![](https://hackmd.io/_uploads/By0iyExgT.png) #### ***E. NEIGHBORHOOD AWARE AUTOENCODER (NAA)*** ![](https://hackmd.io/_uploads/ryoIWVllp.png) ![](https://hackmd.io/_uploads/Syf_bElgp.png) #### ***F. IMPROVED NEIGHBORHOOD AWARE AUTOENCODER(I-NAA)*** ![](https://hackmd.io/_uploads/BJqjG4gla.png) ![](https://hackmd.io/_uploads/SyYlXNeep.png) ![](https://hackmd.io/_uploads/ryfmXNgep.png) #### ****Fig.1*** ![](https://hackmd.io/_uploads/ryl4MNee6.png) #### ***G. GAIN*** ![](https://hackmd.io/_uploads/B1aMI4xga.png) ![](https://hackmd.io/_uploads/Hye4L4xla.png) ![](https://hackmd.io/_uploads/BkTuI4xlT.png) ![](https://hackmd.io/_uploads/rJGPLNgla.png) #### ****Fig.2*** ![](https://hackmd.io/_uploads/SyXSr4ggp.png) #### ***H. IMPROVED GENERATIVE ADVERSARIAL IMPUTATION NETWORK (I-GAIN)*** ![](https://hackmd.io/_uploads/ByPGO4elT.png) ![](https://hackmd.io/_uploads/S17xdExgp.png) ## **V. 數據集(DATASETS)** ![](https://hackmd.io/_uploads/HJCztVgep.png) #### ***A. FRAMINGHAM HEART STUDY*** ![](https://hackmd.io/_uploads/BJ8YF4eep.png) #### ***B. STROKE DATASET*** ![](https://hackmd.io/_uploads/BklS94xl6.png) #### ***C. PHYSIONET HEART FAILURE*** ![](https://hackmd.io/_uploads/BJNq9NxxT.png) #### ***D. UCI HEART DISEASE*** ![](https://hackmd.io/_uploads/HyKjcEle6.png) ## **VI. 缺失值插補(MISSING VALUE IMPUTATION)** #### ***A. EXPERIMENTAL SETUP*** ![](https://hackmd.io/_uploads/Bk5_F_xep.png) #### ***B. EVALUATION METRICS*** ![](https://hackmd.io/_uploads/HkR4q_eea.png) #### ***C. RESULTS*** ![](https://hackmd.io/_uploads/HyuicOgga.png) ##### *1) RESULTS FOR THE FRAMINGHAM HEART STUDY DATASET* ![](https://hackmd.io/_uploads/rJCys_xxp.png) ![](https://hackmd.io/_uploads/BJRKs_gx6.png) ##### *2) RESULTS FOR THE STROKE DATASET* ![](https://hackmd.io/_uploads/S1gRouee6.png) ![](https://hackmd.io/_uploads/rkukhdggT.png) ##### *3) RESULTS FOR THE PHYSIONET HEART DISEASE DATASET* ![](https://hackmd.io/_uploads/rkRdhulxp.png) ![](https://hackmd.io/_uploads/B1Kvn_eea.png) ##### *4) RESULTS FOR THE UCI DISEASE DATASET* ![](https://hackmd.io/_uploads/HkBzpuexa.png) ![](https://hackmd.io/_uploads/BJVN6_exp.png) ##### *5) OVERALL REMARKS* ![](https://hackmd.io/_uploads/S10gROlla.png) ![](https://hackmd.io/_uploads/HyxX0dlga.png) ## **VII. 插補後預測( POST-IMPUTATION PREDICTION)** #### ***A. EXPERIMENTAL SETUP*** ![](https://hackmd.io/_uploads/Bk06xFgxT.png) #### ***B. EVALUATION METRICS*** ![](https://hackmd.io/_uploads/BJIybtgxp.png) #### ***C. RESULTS*** 表 5 報告了插補後預測的結果。對於插補方法產生的每個資料集,我們展示了預測任務的 F1 分數結果。 首先,對於 UCI 心臟病資料集,我們觀察到插補結果很高,這是可以預見的,因為感興趣的變數很容易預測。 對於插補表現較好的方法對於這項任務也表現較好。 在這裡,I-GAIN 產生了最好的結果,與臨床基線相比實現了約 9% 的差異。 與原始版本相比,改進的深度學習版本也取得了更好的結果。 kNN 和 Simple 的結果最差,這是預期的,因為對應的資料集是被簡單地估算的。 對於 phyonet 資料集,我們看到表現最好的模型是 I-NAA,F1 分數約為 48%。 關於所有臨床基線,我們注意到與 I-NAA 相比,得分較低,最小差異為 ∼ 2.5%。 我們也看到,在這一步驟中,I-NAA 和 I-GAIN 的表現優於 NAA 和 GAIN,驗證了引入的調整效果更好。 而且,每種方法獲得的F1分數都較低,這是由於目標變數的不平衡所造成的。 有關中風資料集的結果可以在表 5 的第三行中查看。此處,性能最佳的方法是 I-GAIN,與 MICE 相比,f1 分數高出約 2%。 同樣明顯的是,與原始版本相比,改進的深度學習模型可以產生更好的分數。 此外,kNN 是遵循插補結果的表現最差的方法,因為對於具有許多分類變數的資料集來說,這是一個很差的方法。 一般來說,F1 分數較低,這是可以預料的,因為由於類別不平衡、輸入和輸出變數之間的相關性較低等原因,該資料集很難預測。Framingham 是我們用於此目的的最後一個資料集步。 I-NAA 產生的最佳結果與臨床框架內最常用的方法相比,F1 分數高出約 2%。 對先前數據集的評論在弗雷明漢中也很明顯。 更具體地說,我們看到改進的深度學習方法獲得了更好的 f1 分數,而簡單的 kNN 產生了最糟糕的結果。 總體而言,我們觀察到 I-NAA 和 I-GAIN 在插補後任務中產生了最佳結果,這也是在插補任務中觀察到的結果。 我們還發現,對於所有 EHR 資料集,NAA 和 GAIN 的改進版本更加穩健。 此外,樸素的方法取得了最低的結果,這是合乎邏輯的,因為它們的插補先前被證明是次優的。 也可以看出,隨機森林對 physionet、中風和 framingham 產生的預測結果較低。 發生這種情況是因為這些資料集高度不平衡,而 SMOTE 不足以彌補這一問題。 對於這種情況,應該使用更複雜的預處理步驟和模型,但出於本研究的目的,不使用這些進行比較也是可行的。 ![](https://hackmd.io/_uploads/HJcBbtxxp.png) ## **VIII. 結論與未來的工作(CONCLUSION AND FUTURE WORK)** ![](https://hackmd.io/_uploads/BJ3dGtegT.png) --- ## **引用 (REFERENCES)** <font size="2"> [1] K. Häyrinen, K. Saranto, and P. Nykänen, ‘‘Definition, structure, content, use and impacts of electronic health records: A review of the research literature,’’ Int. J. Med. Inform., vol. 77, no. 5, pp. 291–304, 2008. [2] M. Cowie, J. Blomster, L. Curtis, S. Duclaux, I. Ford, F. Fritz, S. Goldman, S. Janmohamed, J. Kreuzer, M. Leenay, A. Michel, S. Ong, J. Pell, M. Southworth, W. Stough, M. Thoenes, F. Zannad, and A. Zalewski, ‘‘Electronic health records to facilitate clinical research,’’ Clin. Res. Cardiol., Off. J. German Cardiac Soc., vol. 106, pp. 1–9, Jan. 2017. [3] E. H. Kennedy, W. L. Wiitala, R. A. Hayward, and J. B. Sussman, ‘‘Improved cardiovascular risk prediction using nonparametric regression and electronic health record data,’’ Med. Care, vol. 51, no. 3, pp. 251–258, Mar. 2013. [4] Y. Zhang, Z. Zimmer, L. Xu, R. L. H. Lam, S. Huyck, and G. Golm, ‘‘Missing data imputation with baseline information in longitudinal clinical trials,’’ Statist. Biopharmaceutical Res., vol. 14, no. 2, pp. 242–248, Apr. 2022. [5] B. J. Wells, K. M. Chagin, A. S. Nowacki, and M. W. Kattan, ‘‘Strategies for handling missing data in electronic health record derived data,’’ Egems, vol. 1, no. 3, p. 1035, 2013. [6] D. B. Rubin, Multiple Imputation for Nonresponse in Survey. Hoboken, NJ, USA: Wiley, 2004. [7] S. Nijman, A. Leeuwenberg, I. Beekers, I. Verkouter, J. Jacobs, M. Bots, F. Asselbergs, K. Moons, and T. Debray, ‘‘Missing data is poorly handled and reported in prediction model studies using machine learning: A literature review,’’ J. Clin. Epidemiol., vol. 142, pp. 218–229, Feb. 2022. [8] T. D. Le, R. Beuran, and Y. Tan, ‘‘Comparison of the most influential missing data imputation algorithms for healthcare,’’ in Proc. 10th Int. Conf. Knowl. Syst. Eng. (KSE), Nov. 2018, pp. 247–251. [9] O. F. Ayilara, L. Zhang, T. T. Sajobi, R. Sawatzky, E. Bohm, and L. M. Lix, ‘‘Impact of missing data on bias and precision when estimating change in patient-reported outcomes from a clinical registry,’’ Health Quality Life Outcomes, vol. 17, no. 1, pp. 1–9, Dec. 2019. [10] J. D. Stekhoven and P. Bühlmann, ‘‘MissForest—Non-parametric missing value imputation for mixed-type data,’’ Bioinformatics, vol. 28, no. 1, pp. 112–118, Oct. 2011. [11] M. Azur, E. Stuart, C. Frangakis, and P. Leaf, ‘‘Multiple imputation by chained equations: What is it and how does it work,’’ Int. J. Methods Psychiatric Res., vol. 20, pp. 9–40, Mar. 2011. [12] L. Gondara and K. Wang, ‘‘MIDA: Multiple imputation using denoising autoencoders,’’ in Proc. Pacific–Asia Conf. Knowl. Discovery Data Mining, D. Phung, V. S. Tseng, G. I. Webb, B. Ho, M. Ganji, and L. Rashidi, Eds. Cham, Switzerland: Springer, 2018, pp. 260–272. [13] E. Kogan, K. Twyman, J. Heap, D. Milentijevic, J. H. Lin, and M. Alberts, ‘‘Assessing stroke severity using electronic health record data: A machine learning approach,’’ BMC Med. Informat. Decis. Making, vol. 20, no. 1, pp. 1–8, Dec. 2020. [14] H. Aidos and P. Tomas, ‘‘Neighborhood-aware autoencoder for missing value imputation,’’ in Proc. 28th Eur. Signal Process. Conf. (EUSIPCO), Jan. 2021, pp. 1542–1546. [15] K. Psychogyios, L. Ilias, and D. Askounis, ‘‘Comparison of missing data imputation methods using the Framingham heart study dataset,’’ in Proc. IEEE-EMBS Int. Conf. Biomed. Health Informat. (BHI), Sep. 2022, pp. 1–5. [16] M. N. Ramli, A. S. Yahaya, N. Ramli, N. F. F. M. Yusof, and M. M. A. B. Abdullah, ‘‘Roles of imputation methods for filling the missing values: A review,’’ Adv. Environ. Biol., vol. 7, pp. 3861–3869, Oct. 2013. [17] S. Mohan, C. Thirumalai, and G. Srivastava, ‘‘Effective heart disease prediction using hybrid machine learning techniques,’’ IEEE Access, vol. 7, pp. 81542–81554, 2019. [18] S. Bashir, Z. S. Khan, F. H. Khan, A. Anjum, and K. Bashir, ‘‘Improving heart disease prediction using feature selection approaches,’’ in Proc. 16th Int. Bhurban Conf. Appl. Sci. Technol. (IBCAST), Jan. 2019, pp. 619–623. [19] S. I. Ayon, M. M. Islam, and M. R. Hossain, ‘‘Coronary artery heart disease prediction: A comparative study of computational intelligence techniques,’’ IETE J. Res., vol. 68, no. 4, pp. 2488–2507, Jul. 2022. [20] C. Jegan, ‘‘Heart attack prediction system using fuzzy C means classifier,’’ IOSR J. Comput. Eng., vol. 14, no. 2, pp. 23–31, 2013. [21] M. Gupta, T.-L.-T. Phan, H. T. Bunnell, and R. Beheshti, ‘‘Obesity prediction with EHR data: A deep learning approach with interpretable elements,’’ ACM Trans. Comput. Healthcare, vol. 3, no. 3, pp. 1–19, Apr. 2022. [22] K. Kwakye and E. Dadzie, ‘‘Machine learning-based classification algorithms for the prediction of coronary heart diseases,’’ 2021, arXiv:2112.01503. [23] R. Rajni and A. Amandeep, ‘‘RB-bayes algorithm for the prediction of diabetic in PIMA Indian dataset,’’ Int. J. Elect. Comput. Eng., vol. 9, no. 6, pp. 4866–4872, Dec. 2019, doi: 10.11591/ijece.v9i6.pp4866-4872. [24] J. Liu, Z. Zhang, and N. Razavian, ‘‘Deep EHR: Chronic disease prediction using medical notes,’’ in Proc. 3rd Mach. Learn. Healthcare Conf., vol. 85, F. Doshi-Velez, J. Fackler, K. Jung, D. Kale, R. Ranganath, B. Wallace, and J. Wiens, Eds., Aug. 2018, pp. 440–464. [25] A. Guo, R. E. Foraker, R. M. MacGregor, F. M. Masood, B. P. Cupps, and M. K. Pasque, ‘‘The use of synthetic electronic health record data and deep learning to improve timing of high-risk heart failure surgical intervention by predicting proximity to catastrophic decompensation,’’ Frontiers Digit. Health, vol. 2, Dec. 2020, Art. no. 576945. [26] S. K. Gupta, A. Shrivastava, S. P. Upadhyay, and P. K. Chaurasia, ‘‘A machine learning approach for heart attack prediction,’’ Int. J. Eng. Adv. Technol., vol. 10, no. 6, pp. 124–134, Aug. 2021, doi: 10.35940/ijeat.F3043.0810621. [27] J. M. Jerez, ‘‘Missing data imputation using statistical and machine learning methods in a real breast cancer problem,’’ Artif. Intell. Med., vol. 50, no. 2, pp. 105–115, 2010. [28] J. Yoon, J. Jordon, and M. van der Schaar, ‘‘GAIN: Missing data imputation using generative adversarial nets,’’ in Proc. 35th Int. Conf. Mach. Learn., in Proceedings of Machine Learning Research, vol. 80, J. Dy and A. Krause, Eds. Stockholm, Sweden: Stockholmsmässan, Jul. 2018, pp. 5689–5698. [29] W. Dong, D. Y. T. Fong, J.-S. Yoon, E. Y. F. Wan, L. E. Bedford, E. H. M. Tang, and C. L. K. Lam, ‘‘Generative adversarial networks for imputing missing data for big data clinical research,’’ BMC Med. Res. Methodol., vol. 21, no. 1, pp. 1–10, Dec. 2021. [30] S. Park, C.-T. Li, S. Han, C. Hsu, S. W. Lee, and M. Cha, ‘‘Learning sleep quality from daily logs,’’ in Proc. 25th ACM SIGKDD Int. Conf. Knowl. Discovery Data Mining, Jul. 2019, pp. 2421–2429. [31] B. Seo, J. Shin, T. Kim, and B. D. Youn, ‘‘Missing data imputation using an iterative denoising autoencoder (IDAE) for dissolved gas analysis,’’ Electr. Power Syst. Res., vol. 212, Nov. 2022, Art. no. 108642 [32] S. van Buuren, ‘‘Multiple imputation of discrete and continuous data by fully conditional specification,’’ Stat. Methods Med. Res., vol. 16, no. 3, pp. 219–242, Jun. 2007. [33] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. Courville, ‘‘Improved training of Wasserstein GANs,’’ in Proc. 31st Int. Conf. Neural Inf. Process. Syst. Red Hook, NY, USA: Curran Associates, 2017, pp. 5769–5779. [34] Z. Zhang, L. Cao, R. Chen, Y. Zhao, L. Lv, Z. Xu, and P. Xu, ‘‘Electronic healthcare records and external outcome data for hospitalized patients with heart failure,’’ Sci. Data, vol. 8, no. 1, p. 46, Feb. 2021. [35] A. Gupta, R. Kumar, H. Singh Arora, and B. Raman, ‘‘MIFH: A machine intelligence framework for heart disease diagnosis,’’ IEEE Access, vol. 8, pp. 14659–14674, 2020. [36] G. N. Ahmad, H. Fatima, S. Ullah, and A. S. Saidi, ‘‘Efficient medical diagnosis of human heart diseases using machine learning techniques with and without GridSearchCV,’’ IEEE Access, vol. 10, pp. 80151–80173, 2022. [37] R. M. Schouten, D. Zamanzadeh, and P. Singh, ‘‘Pyampute: A Python library for data amputation,’’ Zenodo, Aug. 2022. [Online]. Available: https://zenodo.org/record/5412827/export/hx#.Y__jRnZBzrc, doi: 10.25080/majora-212e5952-03e. [38] R. M. Schouten, P. Lugtig, and G. Vink, ‘‘Generating missing values for simulation purposes: A multivariate amputation procedure,’’ J. Stat. Comput. Simul., vol. 88, no. 15, pp. 2909–2930, Oct. 2018. [39] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay, ‘‘Scikit-learn: Machine learning in Python,’’ J. Mach. Learn. Res., vol. 12, pp. 2825–2830, Jan. 2011. [40] L. Buitinck, G. Louppe, M. Blondel, F. Pedregosa, A. Mueller, O. Grisel, V. Niculae, P. Prettenhofer, A. Gramfort, J. Grobler, R. Layton, J. VanderPlas, A. Joly, B. Holt, and G. Varoquaux, ‘‘API design for machine learning software: Experiences from the scikit-learn project,’’ in Proc. ECML PKDD Workshop, Lang. Data Mining Mach. Learn., 2013, pp. 108–122. [41] N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, ‘‘Smote: Synthetic minority over-sampling technique,’’ J. Artif. Intell. Res., vol. 16, pp. 321–357, Dec. 2002. </font>