### 二、資料詳細描述
#### 資料需求
為了解決醫生工作負擔過重的問題,我們需要以下幾方面的資料:
1. **病人的病歷資料**:
- **病史**:包括過去的疾病記錄、手術記錄、過敏史、家族病史等。
- **症狀描述**:病人在就診時的主訴症狀,包括起病時間、症狀的性質、部位、程度、伴隨症狀等。
- **診療記錄**:包括醫生的診斷結果、治療方案、用藥情況等。
2. **醫生的診斷和治療記錄**:
- **診斷過程**:醫生在診斷過程中的各種思考和判斷,包括依據的檢查結果和病史資料。
- **治療方案**:醫生根據診斷結果制定的治療計劃,包括藥物治療、手術治療、康復方案等。
3. **醫療知識圖譜**:
- **疾病信息**:包括疾病的定義、病因、症狀、診斷標準、治療方法等。
- **症狀信息**:各種症狀的描述、可能的病因、相關的檢查方法等。
- **治療方法**:各種疾病的治療方案,包括藥物治療、手術治療、物理治療等。
#### 資料收集
資料可以通過以下途徑收集:
1. **醫院和診所的電子病歷系統**:
- 電子病歷(Electronic Health Records, EHR)系統中包含豐富的病人病歷和診療記錄,是資料的主要來源。
- 需要獲得醫院和診所的合作和授權,確保資料的合法性和隱私保護。
2. **醫學文獻和醫療數據庫**:
- 利用醫學文獻數據庫(如PubMed)和醫療數據庫(如Medline)獲取最新的醫學研究成果和醫療知識。
- 可以通過自然語言處理技術(NLP)自動抽取文獻中的有用信息,構建醫療知識圖譜。
3. **已有的醫療對話數據集**:
- 使用公開的醫療對話數據集(如MedDialog和MedDG)進行模型的訓練和測試。
- 這些數據集包含了大量的醫患對話記錄,可以幫助AI系統學習如何進行初步診斷和病歷採集。
#### 原始資料類型
原始資料的類型包括:
1. **結構化數據**:
- 包括電子病歷中的數據,如病人的基本信息、診斷結果、治療方案等。
- 這些數據可以直接轉換為表格或數據庫格式,便於分析和處理。
2. **半結構化數據**:
- 包括醫生的診斷記錄和病歷描述,這些資料通常是以文本形式存在,需經過一定的整理和轉換。
- 需要使用NLP技術進行信息抽取和結構化處理。
3. **非結構化數據**:
- 包括病人的症狀描述、醫患對話記錄等,這些資料是非結構化的文本數據。
- 需要通過NLP技術進行文本分析和信息抽取,將其轉換為結構化數據。
#### 資料整理與轉換
資料的整理和轉換過程包括以下步驟:
1. **資料清洗**:
- 去除資料中的重複和錯誤信息,確保資料的質量和準確性。
- 處理缺失值,使用合適的方法填補或刪除不完整的資料。
2. **資料標註**:
- 對資料進行標註,將有用的信息進行分類和標記。
- 例如,標註病人的症狀、疾病和治療方案等。
3. **資料轉換**:
- 將非結構化的文本資料轉換為結構化的格式,便於進行分析和建模。
- 使用NLP技術提取文本中的關鍵信息,轉換為數據庫格式或表格格式。
#### 資料集比較
針對這個問題,我們可以比較以下兩個資料集:
1. **MedDialog**:
- **描述**:MedDialog是一個大規模的醫療對話數據集,包含了大量醫患對話記錄,涵蓋了多種疾病和症狀。
- **優點**:數據集規模大,涵蓋面廣,可以提供豐富的訓練數據。
- **缺點**:數據質量參差不齊,需要進行大量的預處理工作。
2. **MedDG**:
- **描述**:MedDG是一個專注於初診對話的醫療對話數據集,包含了詳細的病歷和診斷記錄。
- **優點**:數據質量高,特別適用於初步診斷和病歷採集的研究。
- **缺點**:數據集規模相對較小,可能需要與其他數據集結合使用。
### 接下來,我們可以進一步探討解決問題的方法。你有特別希望深入了解的部分嗎?
## 引言
醫生與患者之間的對話對於提供有效和有同理心的護理至關重要。醫學訪談被稱為“醫生所擁有的最強大、最靈敏、最通用的工具”。在某些情況下,60-80%的診斷僅通過臨床病史採集即可完成。醫生與患者的對話超越了病史採集和診斷;這是一種複雜的互動,建立了融洽和信任,作為解決健康需求的工具,並能夠讓患者做出知情決策,考慮到他們的偏好、期望和擔憂。臨床醫生在病史採集和更廣泛的“診斷對話”方面擁有相當的技能,但獲得這些專業知識的機會是間歇性的,且在全球範圍內稀缺。
最近在通用大型語言模型(LLMs)方面的進展顯示,人工智慧(AI)系統有能力計劃、推理並結合相關的上下文進行自然對話。這種進展提供了一個重新思考醫學中AI可能性的機會,開發完全互動的會話AI系統。這樣的醫學AI系統將理解臨床語言,智能地在不確定性下獲取信息,並與患者及其照護者進行自然且有診斷價值的醫學對話。具備臨床和診斷對話能力的AI系統在現實世界中的潛在效用很廣泛,因為這些能力的發展可能會改善診斷和預後專業知識的獲取,提高護理質量、一致性、可及性和經濟性,並有助於實現更好的健康結果,特別是針對面臨醫療差距的人群。
## 結論
醫學AI系統的效用可以通過更好地進行對話來大大提高,基於大規模醫學知識進行溝通,同時保持適當的同理心和信任。本研究展示了基於大型語言模型(LLMs)的AI系統在臨床病史採集和診斷對話中的潛在能力。AMIE在模擬會診中的表現代表了該領域的一個里程碑,因為它被評估框架中考慮的多個臨床相關軸進行了評估。然而,這些結果應該謹慎解讀。將這一有限範圍的實驗性病史採集和診斷對話轉化為為人們及其照護者提供服務的現實世界工具,還需要大量的研究和開發,以確保技術的安全性、可靠性、公平性、有效性和隱私性。如果成功,我們相信像AMIE這樣的AI系統可以成為下一代學習型健康系統的核心,幫助將世界一流的醫療服務擴展到每一個人。
AMIE 是一個優化於診斷對話的會話醫療人工智慧(AI)系統。AMIE 通過結合真實世界和模擬的醫療對話以及多樣化的醫療推理、問答和摘要數據集進行了精細調教。值得注意的是,我們設計了一個基於自我演練的模擬對話環境,配有自動反饋機制,以擴展 AMIE 在各種醫療背景和專業中的能力。具體來說,這個迭代自我改進過程包括兩個自我演練循環:(1)“內部”自我演練循環,AMIE 利用上下文批評反饋來改進其在與 AI 患者代理進行的模擬對話中的行為;(2)“外部”自我演練循環,將一組改進的模擬對話納入後續的精細調教迭代中。在在線推理過程中,AMIE 使用推理鏈策略根據當前對話逐步完善其回應,以便在每次對話回合中向患者提供準確且有根據的回答。我們設計並進行了一項盲法遠程目標結構化臨床考試(OSCE),經過驗證的模擬患者演員通過文本界面與 AMIE 或初級保健醫生(PCP)進行互動。在多個評估軸上,AMIE 的表現被評為優於 PCP,專科醫生的評價軸中有32個中的28個,患者演員的評價軸中有26個中的24個,而在其餘的評估軸上則不劣於 PCP。
儘管大型語言模型(LLMs)已被證明能夠編碼臨床知識並在單輪醫學問答中表現出高度準確性[12-14],它們的對話能力仍主要針對臨床醫學以外的領域[15, 16]。先前在健康領域的LLM研究[12-14, 17, 18]尚未嚴格檢驗AI系統在病史採集和診斷對話方面的能力,也未與專家臨床醫生的廣泛能力進行對比。
臨床醫生通過病史採集和診斷對話來確定診斷和管理計劃,這是一項複雜的技能,其最佳執行高度依賴於上下文。因此,需要多個評估軸來評估診斷對話的質量,包括病史的結構和完整性、診斷準確性、管理計劃的適當性及其理由,以及以患者為中心的考量,例如建立關係、尊重個人和溝通效率[20]。如果LLMs的對話潛力要在醫學中實現,就有必要更好地優化醫療AI系統的開發和評估,特別是這些特性在醫生與患者之間的病史採集和診斷對話中是獨特的。
在這項工作中,我們詳細介紹了我們在開發用於臨床病史採集和診斷推理的會話醫療AI系統方面的進展。
我們的主要貢獻總結如下:
我們引入了AMIE(Articulate Medical Intelligence Explorer),這是一個基於LLM的AI系統,專門用於臨床病史採集和診斷對話。
為了在多種專業和情境中擴展AMIE,我們開發了一個基於自我演練的模擬診斷對話環境,配有自動反饋機制,以豐富和加速其學習過程。我們還引入了一種推理鏈策略來提高AMIE的診斷準確性和對話質量。
我們開發了一個試點評估標準,用於評估診斷會話醫學AI的病史採集、診斷推理、溝通技巧和同理心,涵蓋臨床醫生和患者的指標。
我們設計並進行了一項盲法遠程OSCE研究,包含來自加拿大、英國和印度的149個臨床案例情景,使得能夠隨機和對照地比較AMIE和初級保健醫生(PCPs)在進行模擬患者對話時的表現。根據各種衡量標準(如差異診斷列表的前1名和前3名準確性),AMIE在診斷準確性方面表現優於PCPs。在專科醫生的32個評估軸中有28個以及患者演員的26個評估軸中有24個,AMIE被評為優於PCPs,而在其餘評估軸上不劣於PCPs。
我們進行了一系列消融實驗,以進一步理解和特徵化AMIE的能力,強調了重要的限制,並提出了實現AMIE現實世界應用的關鍵下一步。
研究局限性
我們的研究存在重要的局限性,最顯著的是我們使用了一個文本聊天界面,儘管這使得專門用於診斷對話的LLMs能夠大規模與患者互動,但對PCPs來說,這種遠程諮詢方式是陌生的。因此,我們的研究不應被視為(遠程)醫療實踐的常規代表。
## 數據
AMIE:一個基於LLM的診斷對話AI系統
在以下部分,我們將描述優化AMIE在診斷對話能力和臨床溝通技巧方面的真實世界數據集、模擬自我演練環境、微調過程和推理鏈策略。
2.1 AMIE的真實世界數據集
AMIE的開發使用了多樣化的真實世界數據集,包括多選醫學問答、專家編撰的長篇醫學推理、電子健康記錄(EHR)筆記摘要以及大規模轉錄的醫學對話互動。如下所述,除了對話生成任務外,AMIE的訓練任務混合包括醫學問答、推理和摘要任務。
醫學推理:我們使用了MedQA(多選題)數據集,該數據集包含美國醫學執照考試(USMLE)風格的開放域多選題,每題有四到五個可能的答案[21]。訓練集包含11,450個問題,測試集包含1,273個問題。我們還從訓練集中挑選了191個MedQA問題,臨床專家對這些問題編寫了逐步推理,導向正確答案[13]。
長篇醫學問答:這裡使用的數據集包括來自HealthSearchQA、LiveQA和MultiMedBench中的Medication QA的64個問題,專家編寫的長篇回答[12]。
醫學摘要:使用了一個包含65個臨床醫生編寫的醫療筆記摘要數據集,來自MIMIC-III,這是一個大型的、公開可用的重症監護病房患者醫療記錄數據庫[22]。MIMIC-III包含約200萬條筆記,涵蓋13種類型,包括心臟病學、呼吸科、放射科、醫師、一般、出院、病例管理、會診、護理、藥房、營養、康復和社工。從每個類別中選取5條筆記,每條筆記的最小總長度為400個詞元,且每位患者至少有一條護理筆記。臨床醫生被指示撰寫每條醫療筆記的摘要,捕捉關鍵信息,同時允許包括新的信息性和澄清性短語和句子,這些內容在原始筆記中不存在。
真實世界對話:我們使用了一個從對話研究組織獲得的去識別數據集,該數據集包含98,919條在美國過去10年中1000多名臨床醫生面對面臨床訪問的醫學對話音頻轉錄[23]。它涵蓋了51個醫學專業(初級保健、風濕病學、血液學、腫瘤學、內科和精神病學等)和168種醫療狀況和訪問原因(II型糖尿病、類風濕性關節炎、哮喘、抑鬱症等常見病情)。音頻轉錄包含不同說話角色的發言,如醫生、患者和護士。平均每次對話有149.8輪(P0.25 = 75.0,P0.75 = 196.0)。對於每次對話,元數據包含患者的人口統計信息、訪問原因(隨訪、急性需求、年度檢查等)和診斷類型(新診斷、現有診斷或其他無關診斷)。更多詳情請參考[23]。
在這項研究中,我們選擇了僅涉及醫生和患者的對話,未包括護士等其他角色。在預處理過程中,我們移除了轉錄中的副語注釋,例如“[LAUGHING]”和“[INAUDIBLE]”。然後,我們根據病情類別和訪問原因使用分層抽樣將數據集分為訓練集(90%)和驗證集(10%),最終得到89,027條訓練對話和9,892條驗證對話。
## 模擬
2.2 AMIE的模擬對話學習環境與自我演練
被動收集和轉錄現實世界的臨床訪問對話是可行的,但在訓練用於醫學對話的大型語言模型(LLM)方面存在兩個重大挑戰:(1)現有的真實世界數據往往未能涵蓋廣泛的醫療條件和情境,限制了其可擴展性和全面性;(2)來自真實世界對話轉錄的數據往往很雜亂,包含模糊的語言(包括俚語、行話和諷刺)、打斷、不合語法的發言和隱含的參照。這反過來可能限制AMIE的知識、能力和適用性。
為了解決這些限制,我們設計了一個基於自我演練的模擬學習環境,用於虛擬護理設置中的診斷醫學對話,使我們能夠擴展AMIE在多種醫療條件和情境中的知識和能力。我們使用這個環境來迭代地微調AMIE,除了上述靜態的醫學問答、推理、摘要和現實世界對話數據集外,還使用一組不斷演進的模擬對話(參見圖1)。
這個過程包括兩個自我演練循環:
“內部”自我演練循環:AMIE利用上下文批評反饋,改進其在與AI患者代理進行的模擬對話中的行為。
“外部”自我演練循環:將一組改進的模擬對話納入後續的微調迭代中。然後,生成的新版本AMIE可以再次參與內部循環,創造一個持續的學習循環。
模擬對話:在每次微調迭代中,我們生成了11,686個對話,涵蓋了5,230種不同的醫療條件。這些條件選自三個數據集:
Health QA數據集[12],包含613種常見的醫療條件。
MalaCards人類疾病數據庫1,包含18,455種較少見的疾病條件。
MedicineNet疾病與條件索引2,包含4,617種較少見的條件。
在每次自我演練迭代中,從613種常見條件中隨機選取四個對話,從MedicineNet和MalaCards隨機選取的較少見條件中生成兩個對話。平均模擬對話的長度為21.28輪(P0.25 = 19.0,P0.75 = 25.0)。
使用模擬對話使我們能夠解決高質量、標記好的真實世界對話數據的有限可用性,並提高模型在不同醫療情境中的泛化和適應能力。通過利用這種自我演練模式,AMIE可以在與患者互動的過程中不斷學習和改進其對話和診斷能力。
2.2.1 模擬對話數據策劃
為了大規模生成高質量的模擬對話,我們開發了一個新穎的多代理框架,該框架包括三個主要組成部分:
小插曲生成器:AMIE利用網絡搜索根據特定的醫療條件來編寫獨特的患者小插曲。
模擬對話生成器:三個LLM代理分別扮演患者代理、醫生代理和主持人,進行逐輪對話,模擬真實的診斷互動。
自我演練批評者:第四個LLM代理充當批評者,向醫生代理提供反饋以便自我改進。值得注意的是,AMIE在這個框架中充當所有代理。我們將在下面詳細描述每個組成部分。
自閉症(Autism Spectrum Disorder, ASD),亦稱為肯納症(Kanner's Syndrome),是一種廣泛性發展障礙,主要包括以下分類:
亞斯伯格症候群
廣泛性發展障礙
其他常見的發育障礙
特徵與診斷
病因:自閉症被認為是由大腦中樞神經系統功能受損引起的,目前尚無定論,但確定與先天遺傳有很大關聯,而非父母的教養態度所造成。
診斷時間:通常在三歲前會表現出可診斷的症状。
特徵變化:特徵依年齡、智商及障礙程度而不同。
流行率
盛行率:每一千人中約有6人患有自閉症。
性別比:男女性別比約為5:1。