2022.03.22 - [GTC] 生物醫學與臨床知識擷取與搜尋
===
###### tags: `會議`
###### tags: `會議`, `講座`, `Nvidia`, `GTC`
> - [場次](https://docs.google.com/spreadsheets/d/1Jm2gnqgc8tpFJaDc4nGwRHSzwMwFF8c_352uS1YtpXs/edit#gid=757809432)
> - [HCLS Dev Summit: Biomedical and Clinical Knowledge Extraction and Search [S42627]](https://reg.rainfocus.com/flow/nvidia/gtcspring2022/aplive/page/ap/session/1643414048442001IeRd)
<br>
[TOC]
<br>
<br>
<hr>
<br>
## 簡介
**Virtually all biomedical and clinical knowledge is contained in the rich free text information generated in everything from research papers to notes describing the longitudinal journey of a patient through a modern health system.**
> 幾乎所有的生物醫學和臨床知識都包含在豐富的自然文字訊息中,從研究論文到描述患者在現代衛生系統中縱向[**旅程(篩檢、診斷、治療、追蹤)**](https://youtu.be/--yqlTBSucY?t=93)的記錄,無所不包。
**Extracting and structuring information from this language, or using it directly as part of analytics pipelines, is a significant challenge.**
> 從這種語言中提取和結構化資訊,或直接將其用作分析流程的一部分,是一項重大挑戰。
**Modern transformer-based natural language processing methods are the critical enabling technology for the next generation of free text knowledge synthesis.**
> 基於現代 transformer 的自然語言處理方法是下一代自然文字知識合成的[關鍵賦能技術](https://blogs.nvidia.com.tw/2021/02/22/building-state-of-the-art-biomedical-and-clinical-nlp-models-with-biomegatron/)。
**However, the uniqueness of clinical speech and text necessitates domain-specific model architectures.**
> 然而,臨床語音和文本的獨特性需要特定領域的模型架構。
**We'll review the technologies and tools critical to the success of a modern knowledge extraction pipeline and show how they enable diverse use cases like drug target identification and prioritization, the structuring of clinical trials, medical coding, and enterprise search.**
> 我們將回顧對現代知識提取管線的成功至關重要之技術和工具,並展示它們如何實現多種用例,例如藥物靶標識別和優先級劃分、臨床試驗的結構、醫學編碼和企業搜尋。
- ### Presenter (主持人)
- Anthony Costa, Senior Alliance Manager, NVIDIA
NVIDIA 資深聯盟經理 Anthony Costa
- ### Industry Segment (行業領域)
- Healthcare & Life Sciences
醫療保健與生命科學
- ### Primary Topic (主要主題)
- Conversational AI / NLP
對話式 AI / 自然語言處理
<br>
<hr>
<br>
## [Slides](https://docs.google.com/presentation/d/1kpXCSgpAQsVagHNV6UD1AuPW193UQoZYh1sESVWWwwQ/edit?usp=sharing)
> [官方 PDF](https://static.rainfocus.com/nvidia/gtcspring2022/sess/1643414048442001IeRd/SessionFile/HCLS%20Dev%20Summit%3A%20Biomedical%20and%20Clinical%20Knowledge%20Extraction%20and%20Search_164696514576600101OP.pdf)
### page1:生物醫學與臨床知識擷取與搜尋
[](https://i.imgur.com/3uCq9mf.jpg)
- ### S42627: BIOMEDICAL AND CLINICAL KNOWLEDGE EXTRACTION
S42627: 生物醫學與臨床知識擷取與搜尋
>
> **Anthony Costa | Senior Alliance Manager | Healthcare Analytics**
> Anthony Costa | 高級聯盟經理 | 醫療保健分析
<br>
### page2:基於 NLP 的解決方案引領潮流
[](https://i.imgur.com/se6jUyL.jpg)
> NLP-based solutions lead the way
> 基於 NLP 的解決方案引領潮流
>
> > Creating computable knowledge from unstructured information
> > 從非結構化資訊中建立出可計算的知識
- ### Biomedical & Clinical Knowledge Extraction (生物醫學和臨床知識提取)
- **drug traget identification, prioritization and repurposing**
藥物追踪識別、優先排序和再利用
- **prior art exploration**
現有技術探索
- **clinical trials analysis**
床試驗分析
- **generative chemistry, property prediction**
生成化學,性質預測
- **adverse event detection**
不良事件檢測
- ### Healthcare Data Analytics (醫療保健數據分析)
- **suggest treatments**
建議治療
- **discover diagnostic near-misses, underlying conditions**
發現診斷跡近錯失、潛在條件
- near-miss 跡近錯失
在醫療保健服務的過程中,意外發生了錯誤或不良事件,透過有意或無意的干預,並沒有對病人造成損害
- **predict risk profiles, clinical care navigation**
預測風險概況、臨床護理導航
- **build clinical trial cohorts**
建立臨床試驗族群
- ### Provider & Physician Enablement (提供者和醫師支持)
- **automated medical coding, reduce physician burnout**
自動化醫療編碼,減少醫生倦怠
- **report summarization, generation**
報告匯總與生成
- **in-hospital risk prediction (e.g. re-admission, sepsis)**
住院風險預測(例如再入院、敗血症)
:bulb: 應該要歸類到「醫療保健數據分析」?
- **hospital automation**
醫院自動化
- ### Conversational AI & Ambient Intelligence (對話式人工智能和環境智能)
- **telehealth services**
遠程醫療服務
- **encounter annotation, summarization**
遇到註釋,總結
- **next-best-action prediction**
下一個最佳行動預測
- **customized chatbots for call centers**
為呼叫中心定制的聊天機器人
<br>
### page3:為什麼要提取知識
[](https://i.imgur.com/HS6evp6.jpg)
- ### WHY KNOWLEDGE EXTRACTION 為什麼要提取知識
> Creating Computable Knowledge from Unstructured Information
> 從非結構化資訊中建立可計算知識
>
- 輸入
- **Biomedical literature** 生物醫學文獻
- **Trials data** 試驗數據
- 處理
- **Custom Pre-Trained NLP Models**
自定義預訓練 NLP 模型
- **Extract Entities using Named Entity Recognition**
使用命名實體識別擷取實體
- **Co-Reference Resolution, Negative Detection**
指代消解, 反義偵測(?)
- **Relation Extraction**
關係抽取
- **Relationship Canonicalization**
關係標準化
- **Entity Linking to an Ontology**
實體鏈接到本體
- **Knowledge Graph Population**
知識圖譜建立
- **Integrated Information Retrieval and Search**
- 輸出
- **Knowledge graph population, Querying**
- **Semantic search applications, Ranker/Retriever**
<br>
### page4
[](https://i.imgur.com/ubVntZq.jpg)
<br>
### page5
[](https://i.imgur.com/8c1JT06.jpg)
<br>
### page6
[](https://i.imgur.com/UAZcrHy.jpg)
- ### 參考資料
- [MedNLI](https://developer.ibm.com/exchanges/data/all/mednli/)
- 用於臨床領域自然語言推理任務的數據集。
- NLI: Natural Language Inference
- MIMIC-III
- [如何利用重症醫學數據庫MIMIC開展研究](https://www.gushiciku.cn/dc_hk/107690406)
- MIMIC III 數據庫中每個表格所包含的信息
- [MIMIC-III数据集](https://blog.csdn.net/qq_43787862/article/details/105028846)
<br>
### page7:Megatron
[](https://i.imgur.com/krp52Qo.jpg)
- ### Megatron
- Result is that downstream tasks improve monotonically as model size increases
結果是隨著模型大小的增加,下游任務單調改進
- Larger models achieve better results when trained on less data
在較少數據上訓練時,較大的模型會獲得更好的結果
<br>
### page8
[](https://i.imgur.com/cCYSz7X.jpg)
<br>
### page9
[](https://i.imgur.com/8Ws7Obo.jpg)
> Bidirectional Encoder Models
> 雙向編碼器模型
> > Excel at Classification Tasks
> > 擅長分類任務
- **Largest biomedical language model trained\* (345M, 800M, 1.2B parameter variants)**
最大的生物醫學語言模型訓練*(具有 3.45 億、8 億及 12 億個參數變體)
- **Pre-trained from scratch on 6.1B words from PubMed**
在來自 PubMed (生物醫學文字語料庫) 的 61 億個單字上,從頭開始進行預訓練
- **Using scientific biomedical vocabulary**
使用科學的生物醫學詞彙
- **Straightforward fine-tuning with NVIDIA NeMo for NER, RE, or Q&A tasks**
使用 NVIDIA NeMo 對 NER、RE 或 Q&A 任務進行簡單的微調
**參考資料**
- [建構 NLP 模型的迭代過程](https://blogs.nvidia.com.tw/2021/02/22/building-state-of-the-art-biomedical-and-clinical-nlp-models-with-biomegatron/)
> 現代的 NLP 模型是遵循在預先訓練之後進行微調的兩步驟範式。以無監督方式,在大型文字語料庫(PubMed)上完成預先訓練,以產生科學語言模型(BioMegatron)。之後,針對 NER、RE、QA 等各種下游 NLP 應用,調整此語言模型。對於領域專用語言模型而言,額外的第一步是選擇良好的詞彙,以訓練語言模型。根據我們建構 BioMegatron 的經驗,詞彙選擇會大幅影響下游 NLP 模型的效能。
>
> 預先訓練過程是運算最密集的步驟,其涉及大量的超參數調整。可能會隨著模型變大,而開始發生記憶體限制的問題。模型平行訓練可以在多個 GPU 之間分割模型參數,以克服此問題。
<br>
### page10
[](https://i.imgur.com/jqsG9TT.jpg)
- **question answering** 問題回答
**"Which transcription factor is considered as a master regulator of lysosomal genes?"**
“哪個轉錄因子被認為是溶酶體基因的主要調節因子?”
<br>
### page11:Gatortron
[](https://i.imgur.com/a9Opxyh.jpg)
- ### Gatortron
- A Megatron BERT language model, pre-trained on the largest clinical dataset every assembled
- Includes general domain (Wikipedia) and biomedical domain (PubMed)
- 300M notes or 100B words from clinical encounters, procedures, diaries, exam summaries, and discharge summaries
- 16x the amount of data used to train BioMegatron (6.1B words)
- 144x the number of individual notes compared to previous clinical pre-trained models (e.g., ClinicalBERT on MIMICIII)
- Using a cased clinical vocabulary and BERT-style wordpiece tokenizer
- 3.9B parameters, the largest ever clinical language model
- ### 參考資料
- [NVIDIA攜手阿斯利康和佛羅里達大學健康學院實現AI藥物探索突破](https://min.news/science/1fd60cea533769c4a1e2f9374d76bf3f.html)
- 佛羅里達大學健康學院正在利用 NVIDIA 最新的 Megatron 框架和 NGC 上的 BioMegatron 預訓練模型來開發 GatorTron,這是迄今為止最大的臨床語言模型。
- 佛羅里達大學健康學院的 GatorTron 模型使用 200 萬名患者的超過 5,000 萬次互動記錄進行訓練,這是一個突破,可以幫助確定需要進行臨床試驗的患者,預測並向健康團隊提醒危及生命的情況,並為醫生提供臨床決策支持。
- 佛羅里達大學教務長 Joseph Glover 表示:「 GatorTron 利用十多年的電子病歷來開發最先進的模型。該校最近使用 NVIDIA DGX SuperPOD 提升了超級計算設施。這種規模的工具能幫助醫療健康研究人員獲取見解,並根據臨床筆記記錄判斷先前無法獲取的醫療趨勢。」
- 除臨床醫學外,該模型還可以快速創建患者群組進行臨床試驗,以及研究特定藥物、治療或疫苗的效果,來加速藥物研發。
<br>
### page12
[](https://i.imgur.com/dyGINP9.jpg)
<br>
### page13
[](https://i.imgur.com/W8a8VnP.jpg)
<br>
### page14
[](https://i.imgur.com/TaBCdgG.jpg)
參考資料
- [NVIDIA發布 NVIDIA NeMo,加速語音和語言模型開發](https://blogs.nvidia.com.tw/2020/05/14/nvidia-nemo/)
- NVIDIA NeMo是一個帶有 PyTorch 後端的開源套件,它能夠進一步提高抽象化層次。
- NeMo 使用戶可以使用可重複使用的組件輕鬆地建立複雜的神經網路架構。
- 在使用預先訓練模型基於自定義數據建構高精度模型的過程中,微調起了重要作用。這屬於一種遷移學習技術。**遷移學習**能夠將一項任務中所獲得的知識遷移,轉而應用於另一項類似任務的執行當中。
- NGC 中有幾種預先訓練模型可用於 ASR 、 NLP 和 TTS ,例如 Jasper 、 QuartzNet 、 BERT 以及 Tacotron2 和 WaveGlow 。這些模型經過了數千小時開源數據和專有數據的訓練,具有很高的精度,並且需要在 DGX 系統上訓練超過 10 萬小時。
- [利用 DeepPavlov 和 NVIDIA NeMo 建構簡單的 AI 助理](https://blogs.nvidia.com.tw/2020/12/10/building-a-simple-ai-assistant-with-deeppavlov-and-nemo/)
```
pip install deeppavlov==0.11.0
python -m deeppavlov install asr_tts
python -m deeppavlov download asr_tts
```
```
from deeppavlov import build_model, configs
model = build_model(configs.nemo.asr)
text_batch = model([‘/path/to/your/wav/file’])
print(text_batch[0])
```
- [NVIDIA对话式AI开发工具NeMo实战分享](https://www.thepaper.cn/newsDetail_forward_14064774)
- 开源工具包 NeMo 是一个集成自动语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)的对话式 AI 工具包,便于开发者开箱即用,仅用几行代码便可以方便快速的完成对话式 AI 场景中的相关任务。
<br>
### page15
[](https://i.imgur.com/LAUCNNg.jpg)
<br>
### page16
[](https://i.imgur.com/sAZarmz.jpg)
<br>
### page17
[](https://i.imgur.com/B5sW6LJ.jpg)
<br>
### page18
[](https://i.imgur.com/dmjuQOZ.jpg)
> Self-alignment pre-training
> 自對準預訓練
> > Generate embedding representations clustered directly for entity linking in IMLS
> > 為 IMLS 中的實體鏈接生成直接聚類的嵌入表示
參考資料
- [自然语言处理每日论文速递[10.23]](https://zhuanlan.zhihu.com/p/268033995)
- [Self-alignment Pre-training for Biomedical Entity Representations
生物医学实体表征的自对准预训练](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2010.11784)
<br>
### page19
[](https://i.imgur.com/7iEFyQz.jpg)
<br>
### page20
[](https://i.imgur.com/Zn3eUE1.jpg)
> Next generation architectures for knowledge synthesis, search
> 用於知識合成、搜尋的下一代架構
<br>
### page21
[](https://i.imgur.com/uAgiHSm.jpg)
參考資料
- [什么是 One/zero-shot learning?](https://www.zhihu.com/question/50996014)
<br>
### page22
[](https://i.imgur.com/PlMMMRk.jpg)
> Nemo Megatron
> > Accelerated framework for training large scale NLP models
> > 用於訓練大規模 NLP 模型的加速框架
- **Scale to models with trillion parameters**
擴展到具有萬億個參數的模型
- **Automated data curation for training**
用於訓練的自動數據管理
- **Pipeline, tensor & data parallelism**
管線、張量和數據並行
- **20B parameter model in 1 month on DGX SuperPod**
具有 200 億個參數的模型,在 DGX SuperPod 上進行訓練需 1 個月
- **Optimized for DGX SuperPod**
針對 DGX SuperPod 進行了優化
參考資料
- [Large-Scale Language Modeling with NeMo Megatron](https://developer.nvidia.com/nvidia-nemo#nemo-megatron)
<br>
### page23
[](https://i.imgur.com/XT7IauV.jpg)
<br>
### page34
[](https://i.imgur.com/MHgoekl.jpg)
<br>
### page25
[](https://i.imgur.com/8GelaHs.jpg)
<br>
- [不同于NLP,数据驱动方法与机器学习无法攻克NLU,原因有三点](https://www.thepaper.cn/newsDetail_forward_14064774)