醫療器材的效能評估項目

--- tags: IVD --- # 醫療器材的效能評估項目講者: 林宜靜副教授 ## 體外診斷醫療器材的特性體外診斷醫療器材(IVD)的性能評估分為兩大類，並向下細分各個檢測項目: - 臨床性能 - 敏感度 (Sensitivity) - 特異度 (Specificity) - 陽性預測值 (Positive predictive value) - 陰性預測值 (Negative predictive value) - 陽性相似比 (Positive likelihood ratio) - 陰性相似比 (Negative likelihood ratio) - 參考值範圍 (Reference interval) - 決策值 (Cut-off value) - 分析性能 - 精密度 (Precision) - 準確度 (Accuracy) - 測量範圍 (Measuring interval range) - 偵測極限 (Limit of Detection) - 定量極限 (Limit of Quantification) - 干擾因素 (Interference) ## 臨床性能 ### 敏感度靈敏度亦稱為真陽性率(true positive rate)，即受試者由黃金標準方法判讀真正屬於特定條件(有病)，且新體外診斷醫療器材亦正確地判讀有此特定條件的比率。其中敏感度不受疾病的盛行率影響，敏感度公式如下: $$Sensitivity = \frac{a}{(a+c)}\times100\%$$ <style type="text/css"> table.tableizer-table { font-size: 12px; font-family: Arial, Helvetica, sans-serif; text-align: center; } </style> <table class="tableizer-table"> <tbody> <tr><td colspan='2' rowspan='2'> </td><th colspan='2'>黃金標準方法</td><td rowspan='2'>總數</td></tr> <tr><td>陽性(+)</td><td>陰性(-)</td></tr> <tr><td rowspan='2'>新體外診斷醫療器材</td><td>陽性(+)</td><td>a</td><td>b</td><td>a+b</td></tr> <tr><td>陰性(-)</td><td>c</td><td>d</td><td>c+d</td></tr> <tr><td colspan='2'>總數</td><td>a+c</td><td>b+d</td><td>a+b+c+d</td></tr> </tbody> </table> :::info 參考資料: :point_right:[體外診斷醫療器材之統計審查考量](https://www.cde.org.tw/Content/Files/Knowledge/ca28ba0a-3dd4-44ed-a627-dd9b0eb50a01.pdf) ::: ### 特異度特異度亦稱為真陰性率(true negative rate)，即受試者由黃金標準方法判讀不屬於特定條件(沒病)，且新體外診斷醫療器材亦正確判讀為沒有此特定條件的比率。其中特異度不受疾病的盛行率影響，特異度公式如下: $$Specificity = \frac{d}{(b+d)}\times100\%$$ <style type="text/css"> table.tableizer-table { font-size: 12px; font-family: Arial, Helvetica, sans-serif; text-align: center; } </style> <table class="tableizer-table"> <tbody> <tr><td colspan='2' rowspan='2'> </td><th colspan='2'>黃金標準方法</td><td rowspan='2'>總數</td></tr> <tr><td>陽性(+)</td><td>陰性(-)</td></tr> <tr><td rowspan='2'>新體外診斷醫療器材</td><td>陽性(+)</td><td>a</td><td>b</td><td>a+b</td></tr> <tr><td>陰性(-)</td><td>c</td><td>d</td><td>c+d</td></tr> <tr><td colspan='2'>總數</td><td>a+c</td><td>b+d</td><td>a+b+c+d</td></tr> </tbody> </table> :::info 參考資料: :point_right:[體外診斷醫療器材之統計審查考量](https://www.cde.org.tw/Content/Files/Knowledge/ca28ba0a-3dd4-44ed-a627-dd9b0eb50a01.pdf) ::: ### 陽性預測值陽性預測值(Positive Predictive Value; PPV)為檢驗為陽性者，其真的患病的機率。其中陽性預測值會受盛行率(prevalence)的影響，其公式如下: $$PPV = \frac{P*Sensitivity}{(1-P)(1-Specificity)}$$ (Where P 代表盛行率) [註]如果以2x2 table可以改寫公式如下: $$PPV = \frac{a}{(a+b)}\times 100\%$$ <style type="text/css"> table.tableizer-table { font-size: 12px; font-family: Arial, Helvetica, sans-serif; text-align: center; } </style> <table class="tableizer-table"> <tbody> <tr><td colspan='2' rowspan='2'> </td><th colspan='2'>黃金標準方法</td><td rowspan='2'>總數</td></tr> <tr><td>陽性(+)</td><td>陰性(-)</td></tr> <tr><td rowspan='2'>新體外診斷醫療器材</td><td>陽性(+)</td><td>a</td><td>b</td><td>a+b</td></tr> <tr><td>陰性(-)</td><td>c</td><td>d</td><td>c+d</td></tr> <tr><td colspan='2'>總數</td><td>a+c</td><td>b+d</td><td>a+b+c+d</td></tr> </tbody> </table> ### 陰性預測值陰性預測值(Negative Predictive Value; NPV)為檢驗為陰性者，其真的患病的機率。其中陰性預測值會受盛行率(prevalence)的影響，其公式如下: $$NPV = \frac{(1-P)\times Specificity}{P\times(1-Sensitivity) + (1-P)\times Specificity}$$ (Where P 代表盛行率) [註]如果以2x2 table可以改寫公式如下: $$NPV = \frac{d}{(c+d)}\times 100\%$$ <style type="text/css"> table.tableizer-table { font-size: 12px; font-family: Arial, Helvetica, sans-serif; text-align: center; } </style> <table class="tableizer-table"> <tbody> <tr><td colspan='2' rowspan='2'> </td><th colspan='2'>黃金標準方法</td><td rowspan='2'>總數</td></tr> <tr><td>陽性(+)</td><td>陰性(-)</td></tr> <tr><td rowspan='2'>新體外診斷醫療器材</td><td>陽性(+)</td><td>a</td><td>b</td><td>a+b</td></tr> <tr><td>陰性(-)</td><td>c</td><td>d</td><td>c+d</td></tr> <tr><td colspan='2'>總數</td><td>a+c</td><td>b+d</td><td>a+b+c+d</td></tr> </tbody> </table> ### 陽性相似比陽性相似比(Positive Likelihood Ratio; LR+)代表患病者受檢測出現陽性結果的機率是非病患出現陽性結果的多少倍，即真陽性率與假陽性率之比。比值越大，真的患病的機率越大，代表做出正確陽性診斷的能力越好。陽性相似比(LR+)公式如下: $$LR+ = \frac{Sensitivity}{(1-Specificity)}$$ :::success LR+ $\geq$ 4, valuable; LR+ $\geq$ 10, good 若sensitivity & Specificity皆為0.5時，會算出LR+ = 1，此結果代表該IVD醫療器材無法充分提供資訊(uninformative test)。 ::: ### 陰性相似比陰性相似比(Nositive Likelihood Ratio; LR-)代表患病者受檢測出現陰性結果的機率是非病患出現陰性結果的多少倍，即假陰性率與真陰性率之比。比值越小，越不易誤判患病者為陰性，代表診斷的能力越好。陰性相似比(LR-)公式如下: $$LR- = \frac{(1-Sensitivity)}{(Specificity)}$$ :::success LR- $\leq$ 0.6, useful; LR- $\leq$ 0.1, good 若sensitivity & Specificity皆為0.5時，會算出LR+ = 1，此結果代表該IVD醫療器材無法充分提供資訊(uninformative test)。 ::: ### 參考值範圍參考值範圍(Reference interval)亦稱正常值(Normal range)，指的是在一特定的族群中某檢驗值的變動範圍，為根據既有的方法認定為「無某特定疾病的人」，而落在95%區間之樣本檢測結果。對於定性的檢驗而言，參考值範圍常是「陰性」、「正常」、「無此單株」等等字眼，例如癌症突變檢驗的參考值範圍即為「陰性」或「野生型」因為正常人不會有此突變。 :::info 參考資料: :point_right: [分子檢驗的驗證方法](http://www.biomedicine.org.tw/Upload/V6N1%20%E5%88%86%E5%AD%90%E6%AA%A2%E9%A9%97%E7%9A%84%E9%A9%97%E8%AD%89%E6%96%B9%E6%B3%95%20(%E6%9B%BE%E5%B6%94%E5%85%83)%2030.pdf) ::: ### 決策值決策值(Cut-off Value)，亦稱為閾值，是畫分檢驗結果為陽性與陰性的界值，通常為產生連續性結果的診斷試劑需要設定。其中最常用來決定最佳決策值的工具是Receiver Operating Characteristic (ROC)分析。最常見的標準是ROC曲線上靈敏度和特異度相等的點、曲線上最接近圖表左上角的點、或Youden指數最大的點。ROC曲線的X軸代表偽陽率(1-specificity)，Y軸代表真陽率(Sensitvity)，所以簡言之，曲線上X值越小且Y越大的點即為最佳決策點。在具有連續結果的檢驗中，每一個值都可以視為決策值，以該決策值可分別算出敏感度(Sensitivity)與特異度(Specificitiy)，提高決策值雖然可以使偽陽性(1-Specificity)降低，但敏感度(Sensitivity)也隨之降低，因此ROC curve即是幫助找出最佳決策值的工具。 ![ROC](https://i.imgur.com/G62We3C.png =300x300) :::info 詳細選擇決策值的方法可參考以下文章: :point_down: [On determining the most appropriate test cut-off value: the case of tests with continuous results](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5082211/) ::: ## 分析性能 ### 精密度精密度(Precision)指在一定的條件下，檢驗結果測定值之間的重複性(Repeatability)與再現性(Reproducibility)。重複性: 相同條件下同一次檢驗中所得結果的一致程度。再現性: 不同條件下(如不同操作人員、不同批次檢驗或不同實驗室間)所得結果的一致性。以食藥署這次COVID-19緊急專案製造的文件可得知常規查驗登記實驗要求內容如下: (1) 實驗室間精密度(Site-to-Site Reproducibility) - 分3處地點(2個外部測試地點、1個內部測試地點) - 至少由2名操作者執行 - 至少進行5天實驗(無需為連續) - 每天至少進行2次 - 檢體至少包括使用3種濃度(高陰性、低陽性、中等陽性) - 每件檢體3重複檢測 (2-1) 實驗室內部精密度/再現性(Within-Laboratory Precision/Reproducibility) - 至少2名操作者執行 - 至少進行12天實驗(無需為重複) - 每天至少進行2次 - 檢體至少包括使用3種濃度(高陰性、低陽性、中等陽性) - 每件檢體2重複檢測 (2-2) 重複性實驗(Repeatability) - 進行分析內(Intra-assay)精密度研究 - 進行分析間(Inter-assay)精密度研究 - 進行批次間(Inter-lot)精密度研究統計分析方式常以標準差(Standard deviation, SD)或變異係數(Coefficient of variation, CV)來表示。常見標準為CV<10%。 :::success CV值定為10%以內似乎是普遍默認的標準。參考資料: :point_right: [Calculating Inter- and Intra-Assay Coefficients of Variability](https://salimetrics.com/calculating-inter-and-intra-assay-coefficients-of-variability/) ::: :::info 其他參考資料: :point_right:[COVID-19檢驗試劑緊急專案製造參考文件](https://www.fda.gov.tw/TC/siteListContent.aspx?sid=310&id=32908) :point_right:[分子檢驗的驗證方法](http://www.biomedicine.org.tw/Upload/V6N1%20%E5%88%86%E5%AD%90%E6%AA%A2%E9%A9%97%E7%9A%84%E9%A9%97%E8%AD%89%E6%96%B9%E6%B3%95%20(%E6%9B%BE%E5%B6%94%E5%85%83)%2030.pdf) ::: ### 準確度準確度(Accuracy)代表檢驗數值與真值的接近程度，類似方法比對(method comparison)的作法，將觀察值(observed value)與已知值(know/reference value)之間進行評估。真值(已知值)建議以公認的標準方法和國際參考物來定義。目的為評估"系統性分析誤差" 在絕大多數的檢驗試劑準確度實驗，都以黃金標準方法作為比較對象，評估整題一致性(Overall agreement)，以公式呈現如下: $$Accuracy = \frac{(TP + TN)}{(TP + TN + FP + FN)}$$ TP: True positive TN: True negative FP: False positive FN: False negative 評估準確度的統計分析方法為找出95%雙尾信賴區間。 :::warning 關於如何找出95%雙尾信賴區間的上限及下限，以後再專題給大家介紹。 ::: :::info 參考資料: :point_right: [Assessment of test accuracy](https://www.ncbi.nlm.nih.gov/books/NBK262570/) ::: ### 測量範圍測量範圍(Measuring Interval Range)通常以分析範圍(Analytical Measurement Range, AMR)或臨床可報告範圍(Clinical Reportable Range, CRR)表示。以定量檢驗為例，實際值與測量值呈線性關係的區間為分析範圍。臨床檢體經稀釋後量測，符合線性關係的區間則稱為臨床可報告範圍。 ![AMR](https://i.imgur.com/bvgYzXp.png =400x) ### 偵測極限偵測極限(Limit of Detection)亦稱為分析敏感度(Analytical sensitivity)，代表分析物可由檢驗方法測出的最低濃度。當分析物在某濃度時可使95%檢驗得到陽性結果，該濃度即為LoD。以COVID-19檢驗試劑緊急專案製造參考文件為例，常規LoD測法為: - 先以序列稀釋找出可能的LoD濃度 - 分別選擇3個不同來源的病毒樣本 - 各別以20個偵測極限濃度的檢體檢驗，證實於此濃度時有95%的陽性結果。 :::info 參考文獻: :point_right: [COVID-19檢驗試劑緊急專案製造參考文件](https://www.fda.gov.tw/TC/siteListContent.aspx?sid=310&id=32908) ::: ### 定量極限定量極限(Limit of Quantification)亦稱為"Functional sensitvity"，代表分析物能夠被正確定量的最低濃度。當分析物的定量結果能在正確值的$\pm20\%$(CV=20%)範圍的最低濃度，該濃度即為LoQ。 LoQ必定$\ge$LoD :::info 參考資料: :point_right: [Limit of Blank, Limit of Detection and Limit of Quantitation](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2556583/) :point_right: [偵測極限(LOD)、定量極限(LOQ)意義為何? 如何得到？如何應用？](https://www.fda.gov.tw/TC/faqContent.aspx?pn=35&id=41) ::: ### 干擾因素干擾因素(Interference)亦稱為分析特異性(Analytical Specificity)。以COVID-19檢驗試劑而言，此性能評估項目又細分2種類別: - 交叉反應以具有醫學意義的病毒濃度($10^5$pfu/mL或更高)、細菌濃度($10^6$cfu/mL或更高)的去活化病原體加入臨床基質中進行測試。對於不易取得的病毒或細菌樣本，也可能以電腦分析(in silico analysis)佐證不會交叉交叉反應。 - 微生物干擾微生物干擾實驗(Microbial Interference Studies)的目的在於評估共同感染(co-infection)時，對低濃度分析物檢測能力的影響。以COVID-19檢測試劑為例，美國FDA要求在臨床基質中加入低濃度(3xLOD)SARS-CoV-2和高濃度微生物樣本配製成模擬檢體進行3重複測試。模擬檢體可以是SARS-CoV-2與單一種微生物，也可以是一次多種(3~5種)微生物混合一起測試。但如果多種混合的檢測結果發現干擾現象，仍需逐一檢測。 - 內源性干擾物質內源性干擾物質實驗(Endogenous Interference Substance Studies)依照檢體的基質需檢測項目有所不同。以上呼吸道檢體而言，可能干擾物質為鼻腔噴霧劑或滴劑、鼻腔醣皮質激素、鼻用凝膠、緩解過敏性症狀藥物、鼻用軟膏、人類血液等。若是血漿檢體則須將抗凝血劑納入干擾物質項目進行測試。測試時應以至少2個分析物濃度近臨床閾值的檢體進行干擾評估，並評估各干擾物質不影響檢測結果的最高可容許濃度。 :::info 參考文獻: :point_right: [COVID-19檢驗試劑緊急專案製造參考文件](https://www.fda.gov.tw/TC/siteListContent.aspx?sid=310&id=32908) :point_right: [Templates for COVID-19 IVD EUA submission](https://www.fda.gov/medical-devices/coronavirus-disease-2019-covid-19-emergency-use-authorizations-medical-devices/vitro-diagnostics-euas) ::: ## 設計具信效度的體外診斷醫材臨床試驗設計具信效度的體外診斷醫材臨床試驗應包括以下要點: 1. **代表性(representative)** - 是否經過具有代表性的病人群測過? - 試驗醫材最好經過疾病各層面病人的測試，如不同嚴重度、不同時期... 2. **確認(ascertainment)** - 標準診斷方式是否不受到試驗醫材的結果影響? - 所有病人都應接受標準診斷方式及試驗醫材的檢測。 - 若標準診斷方式是侵入性或昂貴檢查時，則可以選擇試驗醫材檢查結果陰性者，或經一段適當時間的追蹤，以確定是陰性結果。(替代作法) 3. **測量(measurement)** - 有標準診斷方式，其與試驗醫材間的比較是否為獨立的且使用盲法的? - 各別檢測方法是否由不同人獨立判讀? 4. **方法複製的可近性(Permit replication)** - 研究方法描述詳細可以複製嗎? - 是否依照方法描述即可做出相同的結果? ## 試驗的風險評估 - 進行試驗之前，試驗委託者(Sponsor)必須進行試驗的風險評估，並予以文件化。 - 風險評估必須客觀，包含回顧已發表的文獻，或尚未發表的科學性資料。 - 根據風險評估所預期的不良事件，必須在臨床效能試驗計畫中說明。 - 檢體類別及收集方式的風險、剩餘風險 - 執行檢測或檢體收集人員的風險、包含實驗室安全的風險評估 (THE END)