2022.03.22 - [GTC] 生物醫學與臨床知識擷取與搜尋 === ###### tags: `會議` ###### tags: `會議`, `講座`, `Nvidia`, `GTC` > - [場次](https://docs.google.com/spreadsheets/d/1Jm2gnqgc8tpFJaDc4nGwRHSzwMwFF8c_352uS1YtpXs/edit#gid=757809432) > - [HCLS Dev Summit: Biomedical and Clinical Knowledge Extraction and Search [S42627]](https://reg.rainfocus.com/flow/nvidia/gtcspring2022/aplive/page/ap/session/1643414048442001IeRd) <br> [TOC] <br> <br> <hr> <br> ## 簡介 **Virtually all biomedical and clinical knowledge is contained in the rich free text information generated in everything from research papers to notes describing the longitudinal journey of a patient through a modern health system.** > 幾乎所有的生物醫學和臨床知識都包含在豐富的自然文字訊息中,從研究論文到描述患者在現代衛生系統中縱向[**旅程(篩檢、診斷、治療、追蹤)**](https://youtu.be/--yqlTBSucY?t=93)的記錄,無所不包。 **Extracting and structuring information from this language, or using it directly as part of analytics pipelines, is a significant challenge.** > 從這種語言中提取和結構化資訊,或直接將其用作分析流程的一部分,是一項重大挑戰。 **Modern transformer-based natural language processing methods are the critical enabling technology for the next generation of free text knowledge synthesis.** > 基於現代 transformer 的自然語言處理方法是下一代自然文字知識合成的[關鍵賦能技術](https://blogs.nvidia.com.tw/2021/02/22/building-state-of-the-art-biomedical-and-clinical-nlp-models-with-biomegatron/)。 **However, the uniqueness of clinical speech and text necessitates domain-specific model architectures.** > 然而,臨床語音和文本的獨特性需要特定領域的模型架構。 **We'll review the technologies and tools critical to the success of a modern knowledge extraction pipeline and show how they enable diverse use cases like drug target identification and prioritization, the structuring of clinical trials, medical coding, and enterprise search.** > 我們將回顧對現代知識提取管線的成功至關重要之技術和工具,並展示它們如何實現多種用例,例如藥物靶標識別和優先級劃分、臨床試驗的結構、醫學編碼和企業搜尋。 - ### Presenter (主持人) - Anthony Costa, Senior Alliance Manager, NVIDIA NVIDIA 資深聯盟經理 Anthony Costa - ### Industry Segment (行業領域) - Healthcare & Life Sciences 醫療保健與生命科學 - ### Primary Topic (主要主題) - Conversational AI / NLP 對話式 AI / 自然語言處理 <br> <hr> <br> ## [Slides](https://docs.google.com/presentation/d/1kpXCSgpAQsVagHNV6UD1AuPW193UQoZYh1sESVWWwwQ/edit?usp=sharing) > [官方 PDF](https://static.rainfocus.com/nvidia/gtcspring2022/sess/1643414048442001IeRd/SessionFile/HCLS%20Dev%20Summit%3A%20Biomedical%20and%20Clinical%20Knowledge%20Extraction%20and%20Search_164696514576600101OP.pdf) ### page1:生物醫學與臨床知識擷取與搜尋 [![](https://i.imgur.com/3uCq9mf.jpg)](https://i.imgur.com/3uCq9mf.jpg) - ### S42627: BIOMEDICAL AND CLINICAL KNOWLEDGE EXTRACTION S42627: 生物醫學與臨床知識擷取與搜尋 > > **Anthony Costa | Senior Alliance Manager | Healthcare Analytics** > Anthony Costa | 高級聯盟經理 | 醫療保健分析 <br> ### page2:基於 NLP 的解決方案引領潮流 [![](https://i.imgur.com/se6jUyL.jpg)](https://i.imgur.com/se6jUyL.jpg) > NLP-based solutions lead the way > 基於 NLP 的解決方案引領潮流 > > > Creating computable knowledge from unstructured information > > 從非結構化資訊中建立出可計算的知識 - ### Biomedical & Clinical Knowledge Extraction (生物醫學和臨床知識提取) - **drug traget identification, prioritization and repurposing** 藥物追踪識別、優先排序和再利用 - **prior art exploration** 現有技術探索 - **clinical trials analysis** 床試驗分析 - **generative chemistry, property prediction** 生成化學,性質預測 - **adverse event detection** 不良事件檢測 - ### Healthcare Data Analytics (醫療保健數據分析) - **suggest treatments** 建議治療 - **discover diagnostic near-misses, underlying conditions** 發現診斷跡近錯失、潛在條件 - near-miss 跡近錯失 在醫療保健服務的過程中,意外發生了錯誤或不良事件,透過有意或無意的干預,並沒有對病人造成損害 - **predict risk profiles, clinical care navigation** 預測風險概況、臨床護理導航 - **build clinical trial cohorts** 建立臨床試驗族群 - ### Provider & Physician Enablement (提供者和醫師支持) - **automated medical coding, reduce physician burnout** 自動化醫療編碼,減少醫生倦怠 - **report summarization, generation** 報告匯總與生成 - **in-hospital risk prediction (e.g. re-admission, sepsis)** 住院風險預測(例如再入院、敗血症) :bulb: 應該要歸類到「醫療保健數據分析」? - **hospital automation** 醫院自動化 - ### Conversational AI & Ambient Intelligence (對話式人工智能和環境智能) - **telehealth services** 遠程醫療服務 - **encounter annotation, summarization** 遇到註釋,總結 - **next-best-action prediction** 下一個最佳行動預測 - **customized chatbots for call centers** 為呼叫中心定制的聊天機器人 <br> ### page3:為什麼要提取知識 [![](https://i.imgur.com/HS6evp6.jpg)](https://i.imgur.com/HS6evp6.jpg) - ### WHY KNOWLEDGE EXTRACTION 為什麼要提取知識 > Creating Computable Knowledge from Unstructured Information > 從非結構化資訊中建立可計算知識 > - 輸入 - **Biomedical literature** 生物醫學文獻 - **Trials data** 試驗數據 - 處理 - **Custom Pre-Trained NLP Models** 自定義預訓練 NLP 模型 - **Extract Entities using Named Entity Recognition** 使用命名實體識別擷取實體 - **Co-Reference Resolution, Negative Detection** 指代消解, 反義偵測(?) - **Relation Extraction** 關係抽取 - **Relationship Canonicalization** 關係標準化 - **Entity Linking to an Ontology** 實體鏈接到本體 - **Knowledge Graph Population** 知識圖譜建立 - **Integrated Information Retrieval and Search** - 輸出 - **Knowledge graph population, Querying** - **Semantic search applications, Ranker/Retriever** <br> ### page4 [![](https://i.imgur.com/ubVntZq.jpg)](https://i.imgur.com/ubVntZq.jpg) <br> ### page5 [![](https://i.imgur.com/8c1JT06.jpg)](https://i.imgur.com/8c1JT06.jpg) <br> ### page6 [![](https://i.imgur.com/UAZcrHy.jpg)](https://i.imgur.com/UAZcrHy.jpg) - ### 參考資料 - [MedNLI](https://developer.ibm.com/exchanges/data/all/mednli/) - 用於臨床領域自然語言推理任務的數據集。 - NLI: Natural Language Inference - MIMIC-III - [如何利用重症醫學數據庫MIMIC開展研究](https://www.gushiciku.cn/dc_hk/107690406) - MIMIC III 數據庫中每個表格所包含的信息 - [MIMIC-III数据集](https://blog.csdn.net/qq_43787862/article/details/105028846) <br> ### page7:Megatron [![](https://i.imgur.com/krp52Qo.jpg)](https://i.imgur.com/krp52Qo.jpg) - ### Megatron - Result is that downstream tasks improve monotonically as model size increases 結果是隨著模型大小的增加,下游任務單調改進 - Larger models achieve better results when trained on less data 在較少數據上訓練時,較大的模型會獲得更好的結果 <br> ### page8 [![](https://i.imgur.com/cCYSz7X.jpg)](https://i.imgur.com/cCYSz7X.jpg) <br> ### page9 [![](https://i.imgur.com/8Ws7Obo.jpg)](https://i.imgur.com/8Ws7Obo.jpg) > Bidirectional Encoder Models > 雙向編碼器模型 > > Excel at Classification Tasks > > 擅長分類任務 - **Largest biomedical language model trained\* (345M, 800M, 1.2B parameter variants)** 最大的生物醫學語言模型訓練*(具有 3.45 億、8 億及 12 億個參數變體) - **Pre-trained from scratch on 6.1B words from PubMed** 在來自 PubMed (生物醫學文字語料庫) 的 61 億個單字上,從頭開始進行預訓練 - **Using scientific biomedical vocabulary** 使用科學的生物醫學詞彙 - **Straightforward fine-tuning with NVIDIA NeMo for NER, RE, or Q&A tasks** 使用 NVIDIA NeMo 對 NER、RE 或 Q&A 任務進行簡單的微調 **參考資料** - [建構 NLP 模型的迭代過程](https://blogs.nvidia.com.tw/2021/02/22/building-state-of-the-art-biomedical-and-clinical-nlp-models-with-biomegatron/) > 現代的 NLP 模型是遵循在預先訓練之後進行微調的兩步驟範式。以無監督方式,在大型文字語料庫(PubMed)上完成預先訓練,以產生科學語言模型(BioMegatron)。之後,針對 NER、RE、QA 等各種下游 NLP 應用,調整此語言模型。對於領域專用語言模型而言,額外的第一步是選擇良好的詞彙,以訓練語言模型。根據我們建構 BioMegatron 的經驗,詞彙選擇會大幅影響下游 NLP 模型的效能。 > > 預先訓練過程是運算最密集的步驟,其涉及大量的超參數調整。可能會隨著模型變大,而開始發生記憶體限制的問題。模型平行訓練可以在多個 GPU 之間分割模型參數,以克服此問題。 <br> ### page10 [![](https://i.imgur.com/jqsG9TT.jpg)](https://i.imgur.com/jqsG9TT.jpg) - **question answering** 問題回答 **"Which transcription factor is considered as a master regulator of lysosomal genes?"** “哪個轉錄因子被認為是溶酶體基因的主要調節因子?” <br> ### page11:Gatortron [![](https://i.imgur.com/a9Opxyh.jpg)](https://i.imgur.com/a9Opxyh.jpg) - ### Gatortron - A Megatron BERT language model, pre-trained on the largest clinical dataset every assembled - Includes general domain (Wikipedia) and biomedical domain (PubMed) - 300M notes or 100B words from clinical encounters, procedures, diaries, exam summaries, and discharge summaries - 16x the amount of data used to train BioMegatron (6.1B words) - 144x the number of individual notes compared to previous clinical pre-trained models (e.g., ClinicalBERT on MIMICIII) - Using a cased clinical vocabulary and BERT-style wordpiece tokenizer - 3.9B parameters, the largest ever clinical language model - ### 參考資料 - [NVIDIA攜手阿斯利康和佛羅里達大學健康學院實現AI藥物探索突破](https://min.news/science/1fd60cea533769c4a1e2f9374d76bf3f.html) - 佛羅里達大學健康學院正在利用 NVIDIA 最新的 Megatron 框架和 NGC 上的 BioMegatron 預訓練模型來開發 GatorTron,這是迄今為止最大的臨床語言模型。 - 佛羅里達大學健康學院的 GatorTron 模型使用 200 萬名患者的超過 5,000 萬次互動記錄進行訓練,這是一個突破,可以幫助確定需要進行臨床試驗的患者,預測並向健康團隊提醒危及生命的情況,並為醫生提供臨床決策支持。 - 佛羅里達大學教務長 Joseph Glover 表示:「 GatorTron 利用十多年的電子病歷來開發最先進的模型。該校最近使用 NVIDIA DGX SuperPOD 提升了超級計算設施。這種規模的工具能幫助醫療健康研究人員獲取見解,並根據臨床筆記記錄判斷先前無法獲取的醫療趨勢。」 - 除臨床醫學外,該模型還可以快速創建患者群組進行臨床試驗,以及研究特定藥物、治療或疫苗的效果,來加速藥物研發。 <br> ### page12 [![](https://i.imgur.com/dyGINP9.jpg)](https://i.imgur.com/dyGINP9.jpg) <br> ### page13 [![](https://i.imgur.com/W8a8VnP.jpg)](https://i.imgur.com/W8a8VnP.jpg) <br> ### page14 [![](https://i.imgur.com/TaBCdgG.jpg)](https://i.imgur.com/TaBCdgG.jpg) 參考資料 - [NVIDIA發布 NVIDIA NeMo,加速語音和語言模型開發](https://blogs.nvidia.com.tw/2020/05/14/nvidia-nemo/) - NVIDIA NeMo是一個帶有 PyTorch 後端的開源套件,它能夠進一步提高抽象化層次。 - NeMo 使用戶可以使用可重複使用的組件輕鬆地建立複雜的神經網路架構。 - 在使用預先訓練模型基於自定義數據建構高精度模型的過程中,微調起了重要作用。這屬於一種遷移學習技術。**遷移學習**能夠將一項任務中所獲得的知識遷移,轉而應用於另一項類似任務的執行當中。 - NGC 中有幾種預先訓練模型可用於 ASR 、 NLP 和 TTS ,例如 Jasper 、 QuartzNet 、 BERT 以及 Tacotron2 和 WaveGlow 。這些模型經過了數千小時開源數據和專有數據的訓練,具有很高的精度,並且需要在 DGX 系統上訓練超過 10 萬小時。 - [利用 DeepPavlov 和 NVIDIA NeMo 建構簡單的 AI 助理](https://blogs.nvidia.com.tw/2020/12/10/building-a-simple-ai-assistant-with-deeppavlov-and-nemo/) ``` pip install deeppavlov==0.11.0 python -m deeppavlov install asr_tts python -m deeppavlov download asr_tts ``` ``` from deeppavlov import build_model, configs model = build_model(configs.nemo.asr) text_batch = model([‘/path/to/your/wav/file’]) print(text_batch[0]) ``` - [NVIDIA对话式AI开发工具NeMo实战分享](https://www.thepaper.cn/newsDetail_forward_14064774) - 开源工具包 NeMo 是一个集成自动语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)的对话式 AI 工具包,便于开发者开箱即用,仅用几行代码便可以方便快速的完成对话式 AI 场景中的相关任务。 <br> ### page15 [![](https://i.imgur.com/LAUCNNg.jpg)](https://i.imgur.com/LAUCNNg.jpg) <br> ### page16 [![](https://i.imgur.com/sAZarmz.jpg)](https://i.imgur.com/sAZarmz.jpg) <br> ### page17 [![](https://i.imgur.com/B5sW6LJ.jpg)](https://i.imgur.com/B5sW6LJ.jpg) <br> ### page18 [![](https://i.imgur.com/dmjuQOZ.jpg)](https://i.imgur.com/dmjuQOZ.jpg) > Self-alignment pre-training > 自對準預訓練 > > Generate embedding representations clustered directly for entity linking in IMLS > > 為 IMLS 中的實體鏈接生成直接聚類的嵌入表示 參考資料 - [自然语言处理每日论文速递[10.23]](https://zhuanlan.zhihu.com/p/268033995) - [Self-alignment Pre-training for Biomedical Entity Representations 生物医学实体表征的自对准预训练](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2010.11784) <br> ### page19 [![](https://i.imgur.com/7iEFyQz.jpg)](https://i.imgur.com/7iEFyQz.jpg) <br> ### page20 [![](https://i.imgur.com/Zn3eUE1.jpg)](https://i.imgur.com/Zn3eUE1.jpg) > Next generation architectures for knowledge synthesis, search > 用於知識合成、搜尋的下一代架構 <br> ### page21 [![](https://i.imgur.com/uAgiHSm.jpg)](https://i.imgur.com/uAgiHSm.jpg) 參考資料 - [什么是 One/zero-shot learning?](https://www.zhihu.com/question/50996014) <br> ### page22 [![](https://i.imgur.com/PlMMMRk.jpg)](https://i.imgur.com/PlMMMRk.jpg) > Nemo Megatron > > Accelerated framework for training large scale NLP models > > 用於訓練大規模 NLP 模型的加速框架 - **Scale to models with trillion parameters** 擴展到具有萬億個參數的模型 - **Automated data curation for training** 用於訓練的自動數據管理 - **Pipeline, tensor & data parallelism** 管線、張量和數據並行 - **20B parameter model in 1 month on DGX SuperPod** 具有 200 億個參數的模型,在 DGX SuperPod 上進行訓練需 1 個月 - **Optimized for DGX SuperPod** 針對 DGX SuperPod 進行了優化 參考資料 - [Large-Scale Language Modeling with NeMo Megatron](https://developer.nvidia.com/nvidia-nemo#nemo-megatron) <br> ### page23 [![](https://i.imgur.com/XT7IauV.jpg)](https://i.imgur.com/XT7IauV.jpg) <br> ### page34 [![](https://i.imgur.com/MHgoekl.jpg)](https://i.imgur.com/MHgoekl.jpg) <br> ### page25 [![](https://i.imgur.com/8GelaHs.jpg)](https://i.imgur.com/8GelaHs.jpg) <br> - [不同于NLP,数据驱动方法与机器学习无法攻克NLU,原因有三点](https://www.thepaper.cn/newsDetail_forward_14064774)