# [PAPER] CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and expert Comparison ![image](https://hackmd.io/_uploads/rJGtccr3p.png) :::info **Author** : Jeremy Irvin, Pranav Rajpurkar, Michael Ko, Yifan Yu, Silviana Ciurea-Ilcus, Chris Chute, Henrik Marklund, Behzad Haghgoo, Robyn Ball, Katie Shpanskaya, Jayne Seekins, David A. Mong, Safwan S. Halabi, Jesse K. Sandberg, Ricky Jones, David B. Larson, Curtis P. Langlotz, Bhavik N. Patel, Matthew P. Lungren, Andrew Y. Ng - Department of Computer Science, Staford University - Department of Medicine, Stanford University - Department of Radiology, Standford University **Paper Link** : https://arxiv.org/abs/1901.07031 **Code** : https://stanfordmlgroup.github.io/competitions/chexpert/ ::: ## Object - 흉부 방사선 촬영은 가장 일반적인 영상 검사로, 질병 진단 및 관리에 중요하다. - 실무 방사선 전문의 수준의 자동화된 흉부 방사선 사진 해석은 다양한 의료 환경에서 상당한 이점을 제공한다. - are large - have strong reference standards(참조 표준) - provide expert human performance metrics for comparison(전문적인 성과 지표를 제공) --- ![image](https://hackmd.io/_uploads/H1QuSjB3a.png) ## Abstract - 환자 65,240명 대상으로, 224,316개의 방사선 이미지 데이터 셋을 가지고 있다. (Table 1) - 방사선 이미지 해석에 내재된 관찰된 내용(Radiology report)을 자동적으로 감지하는 레이블(14-observation)을 설계합니다. : Positive, Negative, Uncertain and Blank 총 4가지로 감지되는데, 이전에는 음성과 불확실에 대해서 정확도가 높지가 않았다. **특히 Uncertain(불확실)에 대해서 다룬다.** ---- ![image](https://hackmd.io/_uploads/HkVZysB3a.png) ## Introduction - 흉부 방사선 이미지 라벨링 종류(14) - Cardiomegaly, Enlarged Cardiom, Edema, ... - **CheXpert 작업** - **다중 뷰 흉부 방사선 사진에서 14가지 서로 다른 관찰의 확률을 예측(Figure 1)** - 방사선 보고서에서 관찰 내용을 추출하고, 불확실성 라벨을 사용하여 보고서에 존재하는 불확실성을 포착할 수 있는 라벨러를 설계합니다. - We pay particular attention to uncertainty lbaels in the dataset, and investigate different approaches towards incorporating those labels into the training process. - **Uncertain 레이블 정확도를 올리자, 그러기 위해서는 다양한 접근 방식을 조사하자.** - We evaluate the approaches on 5 observations selected based on their clinical significance and prevalence in the dataset, and find that different uncertainty approaches are useful for different observations. - 주요 5가지 observation에 대해서, 각기 다른 접근 방식을 적용해서 "불확실성" 레이블 작업 평가한다. ## Dataset - We decided on 14 observations based on the prevalence in the reports and clinical relevance, conforming to the Fleischner society's recommended glossary(Hansell et al. 2008) - Hansell 2008 기반으로 14가지 레이블을 정리 - **"Pneumonia"**, despite being a clinical diagnosis, was included as a label in order to represent the images that suggested primary infection as the diagnosis. - 폐렴은 환자의 증상, 체질, 병력 등을 종합적으로 고려하여 의사가 진단하는 것을 말합니다. 그런데 흉부 방사선 이미지를 통해 폐렴의 존재여부 판단 - **"No Findg"**, observation was intended to capture the absence of all pathologies. - **Label extraction from radiology reports** : an automated rule-based labeler to extract observations from the free text radiology reports to be used as structured labels for the images.(three distinct stages) - **mention extraction** : the labeler extracts mentions from a list of observations from the Impression section of radiology reports. A large list of phrases was manually curated by multiple board-certified radiologists to match various ways observations are mentioned in the reports. 전문적인 식견으로 엄선한 방사선 전문의가 수동적으로 구문 리스트를 작성 - phrase - mention/ unmention - https://github.com/stanfordmlgroup/chexpert-labeler/tree/master/phrases - **mention classfication** : universal dependency parse, we follow a procedeure similar to Negbio([Peng et al.2018](https://arxiv.org/abs/1712.05898)), 보고서의 각 문장은 토큰화되고, 그 구문이 분석되며, 마지막으로 그 문장의 의존성 그래프가 계산되어, 보다 깊은 수준에서의 분석이 가능해집니다. 1. the report is split and tokenized into sentences using NLTK : 각 문장은 개별 단어나 표현('토큰')으로 분리됩니다 2. the, each sentence is parsed using the Bllop parser trained using [David McClosky's biomedical](https://nlp.stanford.edu/pubs/dmcc-naacl-2010.pdf) model. : David McClosky의 생물의학 모델을 사용하여 훈련된 Bllip 파서를 사용하여 구문 분석, 구문 분석은 문장 내 단어들의 문법적 관계를 파악하는 과정입니다. 3. the universal dependency graph of each sentence is computed using Stanford [CoreNLP](https://aclanthology.org/L14-1045/) 문장의 구성 요소 간의 문법적 및 의미론적 관계를 나타내는 그래프입니다. - **"Negative"**, no evidence of pulmonary edema, pleural effusion or pneumothorax - **"Positive"**, moderate bilateral effusions and bibasilar opacities - **"Uncertain"**, diffuse reticular pattern may represent mild interstitial pulmonary edema, the heart size is stable - 3-phase pipline consisting of pre-negation uncertainty, negation,and post-negation uncertainty. Each phase consists of rules which are matched against the mention 1. pre-negation uncertainty and post-negation uncertainty are "Uncertain" 2. Negation is "Negative" 3. any of the phases, "Positive" - **mention aggregation** - final label for 14 observation, consist of 12 pathologies as well as the "Support Devices" and "No Finding" observation. : 최종적으로 12개의 병리와 기계장치 및 발견없음을 포함한 총 14개의 레이블에 분류(P-1, N-0, and U), 즉 **13개 레이블을 분류後 "No Finding" 판단.** - "Positive", at least one mention - "Negative", at least one negatively classified mention - "Uncertain", if it has no positively classified mentions and at least one uncertain mention - "Blank", there is no mention of an observation - "No Finding", there is no pathology classified as positive or uncertain --- ## Labeler Results - comparison to NIH(NegBio) labeler - we evaluate labeler performance on three tasks: - "mention extraction task", we consider any assigned label(1, 0, or u) as positive and blank as negative. - "negation detection task", we consider 0 labels as positive and all other labels as negative - "Uncertainty dtection task", we consider u labels as positive and all other labels as negative ![image](https://hackmd.io/_uploads/SyKryaSnp.png) - we note three key differences between our method and the method of [wang et al(2017)](https://arxiv.org/abs/1705.02315) 1. 자동으로 언급을 추출하는 도구인 MetaMap이나 DNorm을 사용하지 않았다. 이는 해당 도구들이 데이터셋에 적합하지 않거나, 원하는 정보를 정확하게 추출하지 못한다. 2. "Mention Uncertain" 분류는 pre-negation과 post-negation으로 나눈다. 이를 통해 Negation과 Uncertain이 이중 매칭되는 경우를 해결할 수 있었다. e.g. "cannot exclude pneumothorax" -> 폐렴에 대한 불확실성, 'exclude xxx'라는 규칙이 pre-negation에 적용함으로써, 올바른 관찰이 이루어진다. 3. 그러므로, "Negation" and "Uncertain"을 확실하게 구분 ## Model - U-Ignore - Binary Mapping, 불확실한 레이블이 0 또는 1레이블로 대체될 수 있는지 조사합니다. - U-Zeroes and U-Ones model, 불확실성 레이블이 분류기에 의미상 유용한 정보를 전달하는 경우 이 접근 방식은 분류기의 의사 결정을 왜곡하고 성능을 저하시킬 수 있다고 예상합니다. - U-ones model, "Atelectasis, Edema"에 가장 잘 수행됩니다. 불확실한 문구가 사실상 가능성 있는 겨로가를 전달한다. 반면에 "Consoldation" 레이블에서 가장 나쁜 성능을 보였습니다. 반면에 U-Zeore에서 가장 높은 성능으 ㄹ보여줍니다. : "findings may represent atelectasis versus consolidation", 이러한 경우에, 라벨러는 두 관찰 모두에 대해 불확실성을 할당하지만 실제로는 이러한 불확실성 사례가 종종 Atelectasis-positve과 Consolidation-negative으로 해결되는 것으로 나옵니다. - U-SelfTrained, 다중 레이블 분류(Multi-label classification), 먼저 U-Ignore 접근방식을 사용하여 모델을 수렴하도록 훈련한 다음, 모델을 사용하여 각 불확실성 레이블을 다음에서 출력된 확률 예측으로 다시 레이블 지정하는 예측을 만든다. - U-Multiclass, "Unchanged appearance of the heart" or "stable cardiac contours" 언급된 내용은 확대된 경우와 비확대된 경우 모두에서 사용될 수 있다. 애매모호한 경우도 불확실성을 더 잘 구분한다. --- ## Rsult - U-ones, Atelectasis and Edema - U-MultiClass, Cardiomegaly and Pleural Effusion - U-SelfTrained, Consolidation --- - 본 논문에서는 Label 작업에서 Uncertain관련해서 주의를 가지고 여러가지 접근법을 제시하고 결과를 비교 분석했다. - Label 방법은, Mention extraction, classification and aggregation 3단계가 있다. - Mention classification에서는 추가적으로 3가지 단계를 적용했다. (Pre-negation uncertain, negation, Post-negation) - Result 내용에서 5가지 병리에 적용하는 모델들을 최종 선택했다.