###### tags: `paper`
[TOC]
# Beware explanations from AI in health care
* AI/ML 在醫療保健領域得到越來越多的發展,用於診斷和治療各種疾病 (1)。
* 是否在一個程度上改善醫療保健仍有待觀察。
* 一個主要的原因是 以 AI/ML 為基礎的醫療設備的有效性在很大程度上取決於其用戶的行為特徵 (behavioral characteristics)
* EX: are often vulnerable to welldocumented biases or algorithmic aversion
* 越來越多人覺得測算法的黑盒子的性質是使 user 懷疑、缺乏信任和緩慢吸收 的主要原因 (the core source of users’ skepticism, lack of trust, and slow uptake )
* 因此,立法者也要求對黑盒子算法的決策必須要提供解釋
* 許多人被 不可解釋的 AI/ML 的準確性優勢,還要提供透明度、信任和採用 所吸引
* 這篇論文覺得
* We argue that this consensus, at least as applied to health care, both overstates the benefits and undercounts thedrawbacks of requiring black-box algorithms to be explainable.
## EXPLAINABLE VERSUS INTERPRETABLE
* 首先區分 explainable 和 interpretable 的 AI/ML 很重要。
* Interpretable AI/ML (不是這篇要嘴的東西)
* 使用的是 白盒子,而不是黑盒子
* linear model
* classification tree
* interpretable algorithm 可能不是每個人都能立即理解的
* 例如,即使是 regression 也需要一些線性關係的背景知識,並且可能會被誤解
* classification models 觀察值屬於哪個類別
* regression models 估計數值
* interpretable AI/ML 的賣點是
* open
* transparent
* capable of being understood with reasonable effort
* 要求 interpretability 放棄了原本深度學習以及它可能帶來的任何好處。
* Explainable AI/ML
* 使用 black-box model 預測,使用 explanatory algorithm 找到 interpretable function 來近似於 黑盒子的 output
* **先上車後補票,預測完再解釋**
* explanatory algorithm 沒黑盒子那麼會預測
* 主要是
* feature importance
* 提供一個易於理解的線性模型,該模型給出與黑盒算法相似的輸出
* 需要注意三點:
* 黑盒子不透明的 function 是 AI/ML 決策的基礎,因為它通常是最準確的。
* 白盒子對黑盒子的近似不可能是完美的,因為如果是這樣,兩者之間就沒有區別了。
* 白盒子注重 fit 黑盒子,通常只在局部
* interpretable AI/ML 是使用完全相同的函數,該函數負責生成輸出並且對於所有輸入都是事先已知和固定的。
* 迄今為止,美國食品和藥物管理局 (FDA) 已批准或批准的基於 AI/ML 的醫療設備中有很大一部分使用不可解釋的黑盒模型,例如深度學習 (1)。
* 這可能是因為黑盒模型被認為在許多醫療保健應用中表現更好,這些應用通常具有大量高維,例如圖像識別或遺傳預測。
* Whatever the reason, to require an explanation of black-box AI/ML systems in health care at present entails using post hoc explainable AI/ML models, and this is what we caution against here.
* 斥責 醫療保健中的黑盒 AI/ML 系統進行解釋需要使用事後可解釋的 AI/ML 模型
## LIMITS OF EXPLAINABILITY
* Explainable algorithms 是一個相對較新的研究領域,and much of the focus of tech companies and researchers has been on the development of the algorithms themselves—the engineering—and not on the human factors affecting the final outcomes.
* explainable AI/ML 的主要論點是它有助於:
* 用戶理解
* 建立信任
* supports accountability
* 當前 explainable AI/ML algorithms 至少在醫療保健領域 不太可能實現上面那幾點。
### Ersatz understanding
* Explainable AI/ML 所提供的事後的 algorithms ,所產生出對於黑盒子預測的解釋,不一定是這些預測背後的實際原因或與它們有因果關係
* explainability 的優勢,其實是一個 "愚人金",黑匣子的事後合理化不太可能有助於我們對其內部運作的理解。(這裡是的 fool's gold,我覺得就是指說用事後解釋看起來很有道哩,但是是騙人的,所以用 fool's gold)
* 甚至可能會留下我們更了解 model 的錯誤印象。
* 作者將事後合理化的理解稱為 “ersatz understanding”
* 沒有辦法確保對於任何給定的輸入、相關輸出,用戶可以理解由 Explainable AI/ML 生成的解釋。
* 在某些情況下,ersatz understanding 的問題可能不是問題。
* 例如,研究人員可能會發現透過許多不同的近似法近似黑盒子產生可以測試的假設,有助於推進研究或改進 AI/ML 系統。
* 但這與需要 AI/ML 的 regulators 截然不同-基於醫療器械的可解釋性是其上市許可的先決條件。
### Lack of robustness
* 為了讓 explainable algorithm 可以被信任,需要展示出它的穩定性
* 在這裡,作者的意思是 explainability algorithm 應該為(ㄨㄟˋ)類似的輸入生成類似的解釋
* 對於輸入的非常小的變化(例如,在圖像的幾個像素中),近似explainable AI/ML algorithm 可能會產生非常不同的解釋,這種差異不一定是合理的
* 使用基於這種 AI/ML 的醫療設備的醫生自然會質疑該 algorithm。
### Tenuous connection to accountability
* 當作了一個錯誤的決策,可以回去看決策時過程的步驟,並找出導致錯誤的原因
* interpretable AI/ML 適用
* explainable AI/ML 不適用,因為是事後的
* 混淆我們,而不是幫助我們理解其來源。
* The relationship between explainability and accountability is further attenuated by the fact that modern AI/ML systems rely on multiple components, each of which may be a black box in and of itself, thereby requiring a fact finder or investigator to identify, and then combine, a sequence of partial post hoc explanations. Thus, linking explainability to accountability may prove to be a red herring.
## THE COSTS OF EXPLAINABILITY
* Explainable AI/ML 不僅不可能產生那些被吹捧的好處,而且還會帶來額外的成本
### Misleading in the hands of imperfect users
* 即使解釋看起來可信,當與不完全理性用戶的先驗信念相結合時,它們仍然可能使用戶遠離對模型的真正理解
* medical reversals
* 發現現有的治療技術是無效或缺點大於優點
* 使用看似簡單的事後解釋,可能會產生過度自信的錯覺
* 使用者無法推理 AI/ML 的預測
* 要解釋給各種不同的人聽,可能很難產生對於所有人都有幫助的解釋
### Underperforming in at least some tasks
* 如果監管機關限制只有可以提供合理解釋的演算法能夠上市,會限制開發者只能使用一部分的 AI/ML 演算法
* 例如:在很大的資料空間中難以逼近的高度非線性模型
* 在一些不管簡單或是複雜的模型都能做到的事情可能還好(如:基於稀少的醫療紀錄來預測)
* 但是在比較複雜的事情,如:影像辨識、基因序列分析,在模型複雜度被限制的情況下,可能會變得不準確
## BEYOND EXPLAINABILITY
* 如果可解釋性不是一個嚴格的需求,像 FDA 這樣的監管機關應該要關注 AI/ML 系統的那些直接關係到其安全性和有效性的方面
* 監管機關應該要更關心**精心設計的臨床試驗**,至少在更高風險的裝置上,而不是關心 AI/ML 是否能夠被解釋
* 到目前為止,大多數基於 AI/ML 的醫療設備已經通過了 FDA 通過 510(k)? 途徑,只要求證明與合法銷售的(謂詞)設備具有實質等效性,通常不需要任何臨床試驗
* 另一個方法是當他們跟 model 互動的時候,提供個別增加的彈性
* 例如:使他們能夠要求 AI/ML 的 output 對於不同的或是新增 data
* 增加使用者購買的慾望
* 強化 model 的 robustness(穩健性)
* 這是一個不同的方式來看 model 內部的 working
* 這種互動在醫療上不是新的方法
* 一個例子是:使用電腦的決策幫助在妊娠生存能力極限下為產前諮詢做出共同決策
* 醫生和準父母使用這種決策輔助以顯示各種不確定性將如何影響“在生存能力極限下復甦嬰兒的風險:收益比”
* 越來越多證據顯示個人與演算法互動可以減少“演算法厭惡”,讓他們更能接受預測的結果
### From health care to other settings
* 他們主要爭論在醫療上,有一部分是因為醫療應用會依賴高維的預測演算法,如果一個人堅持使用足夠簡單的解釋進行良好的黑盒近似的能力,並且專業水平各不相同,那麼**損失準確度的可能性**就特別大
* 相對於其他領域來說,在醫療上的==分類錯誤的代價==和==對於病人潛在傷害==比較高
* 醫療在傳統上來說有更多方法來展示一個產品的可依賴性
* 如:很多 FDA 批准的藥物
* 我們可能會認為醫療 AI/ML 更像是一種信用商品,其使用的認知保證是對其他人的信任,而不是對其運作方式的理解
* 例如,許多醫生可能對導致 FDA 相信某種處方藥安全有效的潛在臨床試驗設計或結果非常無知,但他們知道它已獲得 FDA 批准,並且其他專家對其進行了進一步審查, 使用它為信任該藥物提供了必要的認知保證
* 他們的論點可能也能用在醫療以外的領域
### When interpretable AI/ML is necessary
* 醫療是一個寬廣的領域
* 很多 AI/ML 用來幫助診斷和治療
* 如: Biofourmis’s RhythmAnalytics DNN 用來預測超過 15 種心律失常
* 這種情況 accuracy 很重要,不需要理解
* 當黑盒子比白盒子的 accuracy 高
* 但有不同的應用
* 如:一個 AI/ML 系統,它使用對患者腎臟損傷程度的預測來確定誰有資格使用有限數量的透析機
* 我們該如何公平分配資源
* 對於監管者,如何做決定的透明度很重要
* 在這種情況下,最好的標準是從一開始就簡單地使用可解釋的 AI/ML,並有明確的預定程序和決策原因
* 用 accuracy 去交換程序的公平性
## CONCLUSION
* 當前對醫療保健 explainability
* 好處並不像表面上顯示的那樣
* 其缺點值得高度關注
* 至少對於 AI/ML 的健康醫療設備而言,最好不要將可解釋性視為一項硬性要求,而是注重其安全性和有效性。
* 醫療保健專業人員應該警惕那些提供關於黑盒 AI/ML 模型的解釋。
* 醫療保健專業人員應努力盡可能地更好地理解 AI/ML 系統,並教育他們自己了解 AI/ML 如何改變醫療保健領域,
* 如果要求 explainable AI/ML 很少有助於實現這一目標。