# [PAPER] CheXbert: Combining Automatic Labelers and Expert Annotations for Accurate Radiology Report Labeling Using BERT ![image.png](https://hackmd.io/_uploads/BJtg6jvmT.png) --- 放射學 fang4 she4 xue3 :::info **Author** : Akshay Smit, Saahil Jain, Pranav Rajpurkar, Anuj Pareek, Andrew Y. Ng, Matthew P. Lungren **Paper Link** : https://arxiv.org/abs/2004.09167 **Code** : https://github.com/stanfordmlgroup/CheXbert/tree/master ::: * In ---- ## Abstract - 텍스트 보고서 레이블을 추출하면 의료 영상 모델의 대규모 교육이 가능해집니다. - ---- ## INTRODUCION #### CONTRIBUTION ---- ## DATA #### CheXpert CheXpert and MIMIC-CXR이라는 공개적으로 사용 가능한 흉부 X-ray 데이터 세트 두개를 사용, 두 데이터 세트에 대해 방사선 연구의 주요 결과를 요약하는 방사선 보고서의 impression section을 사용 * CheXpert * number of data : 224,314 * Label(medical condition) : except "No finding" means that only labeled as positive if no medical abnormality whatsoever was mentioned in the report impression * Positive : If the condtion was mentioned but its presence was positive. * 양성인경우 * Negative : If the condtion was mentioned but its presence was negated. * 음성인경우 * Uncertain : If the condtion was mentioned but its presence was uncertain. * 언급이 되었지만, 존재가 불문명하다 * Blank : If the condtion was not mentioned at all in the report impression. * 14가지 조건에 언급되지 않음 * No finding : in the contextof the CheXpert labeler, if there are no abnormalities detected in the chex X-ray. * 조건 : 보고서에 의학적 이상이 언급되지 않았음을 나타내는 결과 없음입니다. * 여기서는 빈칸 혹은 blank로 표현합니다. * CheXpert validation set (CheXpert 유효성 검사 세트) : 200 * 오로지 X-ray이미지를 보고 14가지 의학적상태를 해석한다. * 3명의 방사선과 전문의 의사들이 "Positive" and "Negative"로 분류한다. * 방사선 보고서 레이블을 참고하지 못한다. * CheXpert test set : 500 * Image Ground truth : 5명의 방사선 전문의가 각 X-ray 이미지를 보고 14가지 조건을 "Positive" and "Neagtive"로 표시합니다. 그리고 방사선 보고서 리포트(과거기록)을 열람하지 않았습니다. * Radiologist Report Labels : 한명의 방사선 전문의 의사가 방사선 보고서를 참고하여 14가지 조건을 "Positive", "Negative" , "Uncertain" and "Blank".(X-ray 이미지를 보지 못했습니다.) 요약하면 검증 세트는 x-ray영상에 대한 방사선 전문의의 해석에 따라 레이블이 지정되는 반면, 테스트 세트는 다른 방사선 전문의에 의한 방사선 보고서 또는 X-ray 이미지의 해석에 따라 레이블이 지정됩니다. * MIMIC-CXR * number of data : 377,110 * Chest X-ray and report * test set에는 해당 방사선 보고서에 대한 단일 방사선 전문의 해석에 의해 생성된 14개의 소견에 대한 레이블이 있습니다. 그러나 CheXpert테스트 세트에서와 같이 여러 방사선 전문의가 생성한 이미지 수준 실측 레이블이 없습니다. 주로 CheXpert데이터 세트에서 훈련된 모델을 다른 데이터 세트로 일반화할 수 있는지 평가하는데 사용됩니다. Trained their model on the CheXpert dataset and then applied it to the MIMIC-CXR dataset for evaluation * kappa : 두 평가자 사이의 평가자 간 신뢰도에 대한 통계적 척도인 Cohen의 kappa를 나타냅 니다. x-ray 이미지에 레이블을 지정하는 방사선 전문의와 CheXpert 테스트 세트에서 해당 방사선 보고서에 레이블을 지정하는 방사선 전문의 간의 일치도를 측정하는데 사용 유효성 검사 세트의 의학적 상태에 할당된 레이블은 전적으로 방사선 전문의 X선 이미지 분석을 기반합니다. 반면에 CheXpert 테스트 세트는 500개의 흉부 X선 연구로 구성되어 있으며 유사한 프로세스를 사용하여 레이블이 지정되어 있지만 5명의 X-ray, CT, MRI등의 의료영상 해석에 대한 전문적인 의학 지식을 취득한 5명의 의료인이 14가지 조건을 각각 양성 혹은 음성으로 표시했습니다. 전문의들은 이미지만 관찰했으며, 이미지 라벨링 당시의 방사선 보고서나 환자의 과거 기록에 접근 할 수 없었습니다. ---- ## EVALUATION * CheXpert test set의 500건의 흉부 X선 중 최소 50건의 X-ray 이미지에 라벨을 붙인 방사선 전문의에 의해 양성으로 표시된 의학적 상태에 대해서만 모델을 평가합니다. * Atelectasis, Cardiomegaly, Edema, Pleural Effusion, Enlarged Cardiomediastinum, Lung Opacity, Support Devices, and No Finding. * 평가 조건이라고 하는 이러한 조건은 무기폐, 심비대, 부종, 흉막삼출액, 종격동 확대, 폐 혼탁, 지지 장치 및 소견 없음입니다. ![](https://i.imgur.com/mvr1MPH.png) * F1 점수는 정밀도와 재현율을 모두 고려한 모델의 정확도 측정입니다. F1 점수는 0과 1 사이의 숫자이며 1은 완벽한 정밀도와 재현율을 나타내고 0은 정밀도와 재현율이 모두 0임을 나타냅니다. * 낮은 F1 점수는 모델의 성능이 좋지 않음을 나타내고 높은 F1 점수는 모델의 성능이 우수함을 나타냅니다. 즉, F1 점수가 낮다는 것은 모델이 거짓 양성 또는 거짓 음성을 많이 만든다는 것을 의미하고, F1 점수가 높다는 것은 모델이 거짓 양성 또는 거짓 음성을 적게 만든다는 것을 의미합니다. * Kappa는 일반적으로 의료 연구에서 범주 진단을 지정하거나 질병을 분류할 때 두 명 이상의 평가자 간의 합의를 평가하는 데 사용됩니다. 진단 테스트의 신뢰성 또는 분류 시스템의 일관성을 평가하는 데 도움이 될 수 있습니다. * 0 미만: 동의 불량 * 0.01~0.20: 약간 일치 * 0.21–0.40: 공정한 합의 * 0.41–0.60: 보통 동의 * 0.61~0.80: 실질적 일치 * 0.81–1.00: 거의 완벽한 일치 * Kappa는 질적(범주적) 항목에 대한 인터레이터 동의 또는 신뢰도의 통계적 척도입니다. 우연의 일치를 넘어서는 두 평가자 간의 일치를 측정합니다. kappa 값의 범위는 -1에서 1까지이며 1은 완벽한 일치를 나타내고 0은 우연히 일치를 나타내고 음수 값은 우연보다 더 나쁜 일치를 나타냅니다. F1 점수의 가중 평균은 데이터 세트에서 각 조건의 유병률을 고려하는 방법입니다. CheXpert 테스트 세트에서 일부 조건은 다른 조건보다 더 자주 발생합니다. 데이터 세트에서 보다 일반적인 조건에 더 많은 중요성을 부여하기 위해 각 조건의 F1 점수에 데이터 세트의 해당 조건에 대한 양수 레이블 부분을 곱합니다. **즉, 자주 발생하는 조건은 가중 평균 계산에서 가중치가 높고 빈도가 낮은 조건은 가중치가 낮습니다. 이는 데이터 세트에서 모델의 전반적인 성능을 보다 정확하게 표현하는 데 도움이 됩니다.** ---- ## EXPERIMENTS 4.1 Do radiologists labeling reports agree with radiologists labeling X-ray images? : 보고서에 레이블을 지정하는 방사선 전문의는 X-ray이미지에 레이블을 지정하는 방사선과 일치합니까? * Qestion : 먼저 흉부 X-ray 이미지에 라벨을 붙일 때와 해당 방사선 보고서에 라벨을 붙일 때 인증된 방사선 전문의의 사이의 불일치 정도를 조사합니다. (disagreement with X-ray image and radiolgoist report each label) * Method : cohen 의 Kappa 및 F1점수를 사용하여 이 두 label 집합간의 일치 수준을 측정햇습니다. * CheXpert test set : X-ray image label for docter and radiologist report for docter * negative : blank labels * uncertain : either the image ground truth label or the opposite of the image ground truth label. ![](https://i.imgur.com/mvr1MPH.png) * Result : 그들은 이미지와 보고서 라벨링 모두에 대해 방사선 전문의 사이에 상당한 양의 불일치가 있음을 발견, 그러나 불일치가 모든 조건에 고르게 분포되지 않았으며 일부 조건은 방사선과 의사 사이에서 더 높은 수중의 동의를 보였다. * Enlarged Cardiomediastinum and No Finding had a relatively small "High Kappa" score of 0.097 and 0.292, and a "High F1" score of 0.208 and 0.381. respectively, high levels of disagreement even when assuming the most optimistic mappiung of the uncertainty labels. * 예를 들어, 확대 심장 매개 변수와 발견 없음은 각각 0.097과 0.292의 비교적 작은 "높은 카파" 점수와 0.208과 0.381의 "높은 F1" 점수를 가지고 있어 불확실성 레이블의 가장 낙관적인 매핑을 가정하더라도 높은 수준의 불일치를 나타냅니다. * Enlarged Cardiom 에서 가장 낮은 점수 0.089 0.208 -0.053 0.097 * Support Devices 가장 높은 점수를 얻음 * Atelectasis, Cardiomegaly, Edema, Pleural Effusion and Lung Opacity 0.457 **4.2 Why do radiologists labeling reports disagree with radiologists labeling X-ray images?** Chest X-ray 이미지 라벨링 할때와 해당 방사선 보고서를 라벨링 할때 보드 인증 의사간에 불일치 조사 * Method : A board-certified radiologist access to X-ray image, the full radiology report, the image ground truth across all conditions * 한명의 방사선 전문의에게 X-ray 이미지, 방사선 보고서, 이미지 실측정보 등 모든 조건에 대한 보고서 레이블에 대한 액세스를 부여받습니다. 그런 다음 방사선 전문의는 보고서에 라벨을 지정하는 방사선 전문의와 X-ray 이미지에 라벨을 지정하는 방사선 전문의가 동의 하지 않는 예를 설명했습니다. 그리고 CheXpert test set의 각 조건에 대해 보고서에 레이블을 지정하는 방사선 전문의와 X-ray 이미지에 레이블으 ㄹ지정하는 방사선 전문의 사이의 불일치 횟수를 계산했습니다. * Result 1. Difference in label hierarchy: Radiologists labeling reports were instructed to label only the most specific condition as positive and leave parent conditions blank, while radiologists labeling images label each condition as positive or negative independent of the presence of other conditions. This difference in setup can result in discrepancies between the two sets of labels. * 레이블 계층의 차이: 보고서에 레이블을 지정하는 방사선과 전문의는 가장 구체적인 조건만 양성으로 레이블을 지정하고 상위 조건은 공백으로 두도록 지시받은 반면, 이미지에 레이블을 지정하는 방사선과 전문의는 다른 조건의 존재와 관계없이 각 조건을 양성 또는 음성으로 레이블을 지정했습니다. 이러한 설정 차이로 인해 두 레이블 세트 간에 불일치가 발생할 수 있습니다. 2. Bias from clinical history: Radiologists labeling reports have access to clinical report history, which can bias them towards reporting certain conditions in reports, even if they are not present in the image. This bias can arise due to framing bias, where the presentation of the clinical history can lead to different diagnostic conclusions, and attribution bias, where information in the clinical history can lead to different diagnostic conclusions. * 임상 기록의 편향: 보고서에 레이블을 지정하는 방사선 전문의는 임상 보고서 기록에 액세스할 수 있으므로 이미지에 나타나지 않더라도 보고서의 특정 상태를 보고하는 쪽으로 편향될 수 있습니다. 이 편향은 임상 병력의 제시가 다른 진단 결론으로 이어질 수 있는 프레이밍 편향과 임상 병력의 정보가 다른 진단 결론으로 ​​이어질 수 있는 귀인 편향으로 인해 발생할 수 있습니다. 3. Limited access to report sections: Radiologists labeling reports were only given access to the report impression section when labeling the CheXpert test set. Sometimes, conditions are mentioned in the Findings section of the report but not mentioned in the Impression section. This can result in more negative labels when radiologists looked at reports. * 보고서 섹션에 대한 제한된 액세스: 보고서에 레이블을 지정하는 방사선 전문의는 CheXpert 테스트 세트에 레이블을 지정할 때 보고서 인상 섹션에 대한 액세스 권한만 부여되었습니다. 경우에 따라 보고서의 결과 섹션에는 조건이 언급되지만 인상 섹션에는 언급되지 않습니다. 이로 인해 방사선 전문의가 보고서를 볼 때 더 많은 부정적인 레이블이 표시될 수 있습니다. 4. Inherent noise in labeling: Labeling images and reports is inherently noisy to a certain extent, resulting in disagreement. This noise can arise due to mistakes on the part of radiologists labeling reports and radiologists labeling images, uncertainty regarding the presence of a condition based on an image or report, and different thresholds for diagnosing conditions as positive among radiologists. * 라벨링에 내재된 잡음: 이미지와 보고서에 라벨을 붙이는 것은 본질적으로 어느 정도 잡음이 있어 불일치가 발생합니다. 이 잡음은 보고서에 레이블을 지정하는 방사선과 전문의와 이미지에 레이블을 지정하는 방사선과 전문의의 실수, 이미지 또는 보고서를 기반으로 조건의 존재 여부에 대한 불확실성, 방사선과 전문의 사이에서 조건을 양성으로 진단하기 위한 서로 다른 임계값으로 인해 발생할 수 있습니다. * 첫째, 보고서와 이미지의 라벨 지정 설정이 다릅니다. 보고서 라벨링 작업에서 방사선 전문의는 가장 구체적인 상태만 양성으로 표시하고 상위 조건은 공백으로 두도록 지시받았고, 이미지 라벨링 작업에서는 방사선과 전문의가 다른 조건의 존재와 관계없이 각 조건을 양성 도는 음성으로 표시했습니다. (예를들면, 폐 혼탁이 부종의 상위 조건이지만 부종에 대해 긍정적인 보고서를 표시하는 방사선 전문의는 폐 혼탁을 비워 둡니다. 빈 보고서 레이블은 일반적으로 음수 이미지 레이블에 매핑됩니다. ) * 둘째, 보고서에 레이블을 지정하는 방사선 전문의는 임상 보고서 기록에 액세스할 수 있으므로 보고서에특정조건을 보고하는 쪽으로 편향될 수 있지만, 이미지에 레이블을 지정하는 방사선 전문의는 이미지의 상태를 관찰하지 못할 수 있습니다. 이것은 임상 병력의 제시가 다른 진단 결론으로 이어질 수 있는 프레이밍 편향과 임상 병력의 정보가 다른 진단 결론으로 이어질 수 있는 귀인 편향으로 이어질수 있습니다.(예를들면, 방사선 전문의는 이미지에 보이지 않더라도 환자의 병력에 다라 특정 상태를 보고하는 쪽으로 편향되어 있을 수 있습니다. 이것은 ㄹraming bias 및 attribution bias으로 알려져 있으며, 여기서 임상 병력의 제시는 다른 진단 결론으로 이어질 수 있습니다.) * 셋째, CheXpert tset set에 라벨을 붙일 대 보고서에 라벨을 붙이는 방사선 전문의는 보고서 impression 섹션에는 상태가 언급되지만 impression 섹션에는 언급되지 않아 방사선 전문의가 보고서를 볼 때 더 부정적인 레이블이 표시 됩니다. (예를들면, 보고서에 레이블을 지정하는 방사선과 전문의는 보고서 impression 섹션에 대한 액세스 권한만 부여받았지만, 이미지 레이블을 지정하는 방사선과 전문의는 다른 조건의 존재와 관계없이 각 조건을 양성 도는 음성으로 레이블을 지정하기 대문이다.)(예를들면, 방사선 전문의는 보고서의 소견 섹션에서 특정 조건을 언급할 수 있지만, 인상 섹션에서는 언급하지 않아 해당 조건에 대해 부정적인 레이블이 지정될 수 있습니다.) - 결론 : 각 작업에서 방사선 전문의에게 제공되는 정보의 차이와 관련이 있습니다. 보고서에 라벨을 붙이는 방사선과 전문의는 보고서의 인상 부분만을 기준으로 라벨을 붙이도록 지시받았고, 방사선과 전문의는 실제X-ray 이미지를 기반으로 라벨을 붙였습니다. 경우에 따라 보고서의 조사 결과 섹션에는 조건이 언급되었지만, 노출 섹션에는 언급되지 않았습니다. 이로 인해 방사선 전문의가 보고서를 볼 때 부정적인 라벨이 더 많이 붙었습니다. 예를들면, 흉부 X-ray 보고서는 소견 섹션에서 특정 상태의 존재를 언급하지만 인상 섹션에서는 그것이 긍정적인지 부정적인지를 나타내지 않을 수 있습니다.방사선 전문의에게 제공되는 정보의 이러한 차이는 보고서 레이블과 이미지 레이블 사이의 불일치로 이어질 수 있습니다. * 마지막으로, 이미지와 보고서에 레이블을 지정하는 것은 본질적으로 시끄럽기 때문에 불일치가 발생합니다. 이는 보고서 및 이미지에 레이블을 지정할 대 방사선 전문의가 저지른 실수, 이미지 도는 보고서를 기반으로 조건의 존재 여부에 대한 불확실성, 방사선 전문의 사이에서 조건을 야성으로 진단하기 위한 서로 다른 임계값 대문일 수 있습니다. 과소판독과 같은 방사선과 전문의 고유의 오류 원인 및 과도한 작업량과 같은 시스템 문제와 같이 방사선 전문의해석의 불일치에 기여하는 다른 요인도 있습니다. (이미지 및 보고서에 레이블을 지정하는 프로세스는 완벽하지 않으며, 오류, 불확실성 및 방사선 전문의 간의 해석 차이가 있을 수 있습니다. 예를 들면, 방사선 전문의는 보고서나 이미지 라벨을 붙일 대 실수를 하거나 특정 조건의 존재 여부를 확신하지 못할 수 있습니다. 도한 방사선 전문의 마다 상태를 양성으로 진단하기 위한 임계값이 다를 수 있으므로 해석에 차이가 있을 수 있습니다. 또한 방사선 전문의가 존재하는 조건을 놓치는 것을 의미하는 판독 부족과 같은 고유한 오류 원인이 있을 수 있으며 과도한 작업량과같은 시스템 문제도 해석의 불일치에 기여할 수 있습니다. 전반적으로 이러한 요인으로 인해 방사선 전문의가 보고서와 이미지에 라벨을 붙일 대어느 정도 잡음과 불일치가 발생할 수 있습니다.) * 다음으로, 보고서에 레이블을 지정하는 방사선과 전문의와 이미지에 레이블을 지정하는 방사선과 의사 사이의 가장 큰 불일치 개수에 대한 정보를 제공했습니다. CheXpert test set의 500개 예시 중 방사선 전문의의 보고서 라벨과 이미지 간에 불일치가 있는 경우가 여러개 있습니다. * 예를들면, 확대 심장종격동에 대한 이미지가 양성으로 분류된 반면, 보고서에는 음성으로 분류된 사례가 223건이 있었습니다. 저자는 확대되 ㄴ종격동이 심비대의 부모 상태이기 때문에 이러한 불일치가 발생했을 수 있다고 가정했으며, 방사선과 전문의는 심비대 양성으로 표시된 경우 확대된 종격동을 공백으로 두었습니다. * 101건의 사례에서 이미지는 심비대에 대해 양성으로 분류되었지만 보고서에는 음성으로 분류되었습니다. 흉부 방사선 사진에서 심비대 진단이 환자 위치 및 임상 병력에 다라 달라질 수 있다고 설명했습니다. 또한 특히 ICU 환경에서 심비대는 임상적으로 유의미한 변화가 관찰되지 않는 한 존재하더라도 보고서에 일관되게 설명되지 않습니다. * 페 혼탁에 대해 양성으로 분류된 반면 보고서에는 음성으로 분류된 사례가 100건이 있었습니다. 폐 혼탁이 부모 조건이기 대문에 이러한 불일치가 발생했다고 가정했습니다. 더욱이, 폐 혼탁은 특히 무기폐 설정에서 고립된 여상 작업에서 볼 수 있음에도 불구하고 보고하는 방사선 전문의에게 임상적으로 중요한 것으로 간주되지 않았을 수 있습니다. * 흉막 삼출에 대해 이미지가 음성으로 표시된 반면 보고서에는 야성으로 표시된 사례가 65건이 있었습니다. 이러한 불일치가 부분적으로 방사선 전문의와 보고하는 방사선 전문의가 이전 필름에 액세스할 수 있는 임상 환경에서 흉막삼출 진단을 위한 다양한 임계값에서 비롯되었다고 제안 * 마지막으로 이미지가 부종에 대해 음성으로 분류된 반면 보고서에는 양성으로 분류된 사례가 49건 있었습니다. 흉막삼출의 예와 유사하게 임상적 맥락과 이전 영상이 이러한 불일치에 영향을 미쳤다고 설명했습니다. 해당 이미지에 따로 라벨을 붙일 때 부종의 존재는 보드 인증 방사선 전문의의 임계치 아래로 떨어졌습니다. ![](https://i.imgur.com/5mHVgh3.png) ![](https://i.imgur.com/rVRIjfr.png) 표 2의 임상적 설명과 함께 이러한 불일치의 구체적인 예를 제공했으며, 표 3은 보고서에 레이블을 지정하는 방사선 전문의와 상태별로 이미지에 레이블을 지정하는 방사선과 의사 간의 불일치 수를 보여줍니다. 4.3 Are there significant relationships between condtions labeled from reports and conditions labeled from images? 보고서에서 레이블이 지정된 조건과 이미지에서 레이블이 지정된 조건 사이에 중요한 관계가 있습니까? * 보고서에 레이블을 지정하는 방사선 전문의의 출력에서 이미지에레이블을 지정하는 방사선과의 출력으로의 매핑을 학습합니다. 그런 다음 임상적 관점에서 이 매핑이 암시하는 중요한 관계를 분석합니다. * 각 평가 조건에 대해 방사선 전문의 보고서 레이블을 이미지 실측값에 매핑하기 위해로지스틱 히귀 모델을 훈련한 방법에 대해 자세히 설명합니다. * Logistic regression 모델을 훈련하여 방사선 전문의 보고서 레이블 각 평가 조건에 대한 이미지 실측 정보에 매핑하는 방법을 설명합니다. 그들은 이러한 모델의 계수에서 얻은 승산비를사용하여 방사선 전문의 보고서 레이블과 이미지 지상 실측 간의 관계를 정량적으로 측정합니다. 연구 결과의 임상적 관련성을 확인하기 위해 그들은 특정 방사선 전문의 보고서 레이블이 이미지 레이블의 확률을 임상적으로 어떻게 변경할 수 있는지 이해하기 위해 보드 인증 방사선 전문의와 승산비를 검토합니다. 요약하면, 이 섹션에서는 저자가 방사선 전문의 보고서 레이블과 이미지 실측 정보 간의 관계를 분석하고 그 결과가 임상적으로 관련이 있는지 확인하기 위해 사용하는 방법론에 대해 설명합니다. * 이 섹션에서 저자는 방사선 전문의 보고서 레이블과 이미지 실측 정보 간의 관계를 분석하는 데 사용한 방법을 설명합니다. 그들은 8가지 평가 조건 각각에 대해 방사선 전문의 보고서 레이블을 이미지 실측값에 매핑하도록 로지스틱 회귀 모델을 훈련했습니다. 이를 위해 그들은 방사선 전문의 보고서 레이블(각 레이블이 이진 변수로 표시됨을 의미)을 원-핫 인코딩하고 이러한 이진 변수를 로지스틱 회귀 모델에 대한 입력으로 사용했습니다. 그런 다음 CheXpert 테스트 세트에서 L1 정규화(과적합을 방지하는 방법)로 모델을 교육했습니다. 마지막으로 그들은 로지스틱 회귀 모델의 계수로부터 승산비를 계산하여 특정 방사선 전문의 보고서 레이블이 이미지 레이블의 승산을 임상적으로 어떻게 변화시킬 수 있는지 이해할 수 있었습니다. * 이 연구의 저자는 8가지 다른 의학적 상태에 대한 방사선 전문의 보고서 레이블과 이미지 지상 진실 사이의 관계를 결정하기 위해 로지스틱 회귀 모델을 훈련했습니다. 그들은 방사선 전문의 보고서 레이블을 원-핫 인코딩하고 L1 정규화와 함께 로지스틱 회귀 모델에 대한 입력으로 사용하여 방사선 전문의 보고서 레이블을 8가지 조건 각각에 대한 이진 이미지 레이블에 매핑했습니다. 승산비는 로지스틱 회귀 모델의 계수를 지수화하여 계산되었습니다. * 이 섹션에서 저자는 로지스틱 회귀 모델의 결과를 설명합니다. 그들은 특정 방사선 보고서 라벨이 통계적 유의성(P < 0.05)과 함께 해당 이미지에서 특정 조건의 가능성 증가 또는 감소와 관련이 있음을 발견했습니다. 이 모델은 레이블 계층 구조를 수정할 수 있었습니다. 즉, 부모 조건(예: 종격 확대 확대)에 대한 긍정적인 보고서 레이블이 이미지에서 해당 자식 조건(예: 심비대)의 가능성을 높였습니다. 저자는 또한 모델이 보고서 레이블의 불확실성을 이미지의 조건 존재에 매핑할 수 있으며 무기폐 및 부종에 대한 불확실한 보고서 레이블이 폐 혼탁 가능성을 증가시킬 수 있음을 발견했습니다. * 이 섹션에서 저자는 로지스틱 회귀 모델의 결과를 보고합니다. 그들은 특정 방사선 보고서 라벨이 X선 이미지의 특정 조건과 크게 연관되어 있음을 발견했습니다. 예를 들어 심장비대에 대한 긍정적인 보고서 레이블은 이미지에 심장비대가 나타날 가능성을 상당히 높였습니다. 저자는 또한 심비대에 대한 긍정적인 보고서 레이블을 사용하여 레이블 계층 구조에 대해 수정된 모델이 확대된 심종격동(심장 비대의 부모)이 이미지에 나타날 확률을 증가시키는 것을 관찰했습니다. * 작성자는 또한 특정 보고서 레이블이 이미지의 다른 조건의 존재와 연관되어 있음을 발견했습니다. 예를 들어, Pleural Effusion에 대한 긍정적인 보고서 레이블은 이미지에 Lung Opacity가 나타날 확률을 높였습니다. 이는 흉막 삼출액이 종종 무기폐 및 부종과 같은 폐 혼탁의 어린이 상태와 함께 발생하기 때문일 수 있습니다. 반대로, 무기폐에 대한 긍정적인 보고서 레이블은 이미지에 지원 장치가 존재할 가능성을 줄였습니다. 이는 지원 장치가 있는 환자 모집단에서 방사선 전문의가 보고서에 무기폐의 존재에 대해 언급하는 것이 임상적으로 유용하지 않기 때문일 수 있습니다. 저자는 또한 골절에 대한 긍정적인 보고서 레이블이 이미지에 있는 지원 장치의 확률을 감소시킨다는 것을 발견했습니다. 골절에 대한 X-레이는 종종 ICU 설정이 아닌 응급실에서 수행되기 때문일 수 있습니다. * 저자는 추가로 부종에 대한 긍정적인 보고서 레이블이 이미지에 확대된 종격동 확대의 가능성을 증가시켰으며 지원 장치에 대한 긍정적인 보고서 레이블이 이미지에 존재하지 않는 가능성을 감소시켰다고 보고합니다. 저자는 그림 2에서 각 유형의 방사선 전문의 보고서 라벨에 대한 이러한 통계적으로 유의한 승산비의 시각화를 제공합니다. **4.4 Can we naively map labels obtained from reports to X-ray image labels?** 보고서에서 얻은 레이블을 X-ray 이미지 레이블에 순진하게(바로) 매핑할 수 있습니까? * 이 섹션에서 저자는 방사선 보고서 레이블을 X선 이미지 레이블에 매핑하기 위한 기본 접근 방식으로 사용한 방법을 설명합니다. 그들은 CheXpert라는 규칙 기반의 자동 방사선 보고서 라벨러를 사용하여 의학적 상태당 양성, 음성, 불확실 및 공백의 4가지 라벨 등급을 얻었습니다. 그러나 이미지 ground truth에는 조건당 양수 또는 음수 레이블만 있습니다. 따라서 그들은 CheXpert 라벨러가 생성한 라벨을 이진 라벨로 매핑해야 했습니다. * CheXpert 라벨러가 생성한 빈 라벨의 경우 음수 라벨에 매핑했습니다. 그들은 CheXpert 라벨러가 생성한 양성 및 음성 라벨을 변경하지 않고 유지했습니다. 불확실한 레이블을 처리하기 위해 그들은 Irvin et al.에서 언급한 두 가지 일반적인 불확실성 처리 전략을 사용했습니다. 그들은 불확실한 레이블을 모든 음수 레이블(0-불확실성 처리 전략) 또는 모든 양수 레이블(1-불확실성 처리 전략)에 매핑했습니다. 그들은 방사선 전문의가 제공한 X선 이미지 레이블을 지상 실측으로 표시한 레이블을 사용하여 CheXpert 테스트 세트에서 더 나은 성능 전략의 F1 점수를 기록했습니다. 그들은 이 방법을 ZeroOne Baseline이라고 불렀습니다. * Zero-One Baseline에 대한 F1 점수는 0-불확실성 처리 전략과 1-불확실성 처리 전략의 최대값만 보고하기 때문에 이 방법에 대한 불확실성 레이블의 가장 낙관적인 글로벌 매핑을 나타냅니다. 4.5 Can we learn to map labels obtained from reports to X-ray image labels? : 보고서에서 얻은 레이블을 X-ray 이미지 레이블에 매핑하는 방법을 배울 수 있습니까? * 방사선 보고서에서 얻은 레이블을 X-ray 이미지 레이블에 매핑하는 새로운 접근 방식, 방사선 보고서에서 CheXpert 레이블러를 실행하여 얻은 레이블을 이진 레이블에 매핑하는 이전 방법(Zero-One Baseline)을 기반으로 합니다. 로지스틱 회귀 모델을 훈련합니다. 이 모델은 방사선 보고서 impression에 대한 CheXpert 라벨러의 출력을 대상 조건에 대한 양수 도는 음수 레이블에 매핑합니다. 이 새로운 접근 방식은 14가지 조건 모두에 대해 자동화된 보고서 레이블을 활용하여 각 대상 조건에 대한 레이블을 예측합니다. 이러한 접근 방식은 LogReg Baseline입니다. * 이를 위해 그들은 보고서 레이블을 원-핫 인코딩하고 이를 로지스틱 회귀 모델에 대한 입력으로 사용했습니다. 조건에 대한 이미지 실측값이 모델의 출력으로 사용되었습니다. 저자는 로지스틱 회귀 모델을 훈련하기 위해 C=1.0 및 최대 반복 500으로 L2 정규화를 사용했으며 클래스 가중치는 훈련 세트에서 각 클래스의 역 보급으로 설정되었습니다. 그들은 CheXpert 테스트 데이터 세트에서 로지스틱 회귀 모델을 훈련하고 검증하기 위해 일대일 교차 검증 전략을 사용했습니다. 8가지 평가 조건 각각에 대해 저자는 CheXpert 레이블러에서 생성된 레이블을 이진 이미지 레이블에 매핑하기 위해 서로 다른 로지스틱 회귀 모델을 훈련했습니다. * 8가지 평가 조건에 대해 CheXpert레이블에서 얻은 보고서 레이블을 이진 이미지 레이블로 매핑하기 위해 로지스틱 회귀 모델을 훈련한 방법 : CheXpert 레이블에서 얻은 보고서 레이블을 원-핫 인코딩하고 이러한 이진 변수를 로지스틱 회귀 모델에 대한 입력으로 사용하여 시작합니다. 그런 다음 L2정규화(C=1.0)와 원-핫 인코딩된 보고서 레이블을 입력으로 사용하고 실측 이미지 레이블을 출력으로 사용하여 최대 500회 반복하여 모델을 훈련합니다. 클래스 불균형 문제(일부 조건이 다른 조건보다 더 일반적인 경우)를 해결하기 위해 훈련 세트에서 각 클래스의 역 보급인 클래스 가중치를 사용합니다. 그리고 유횽성 검사를 위해 일대일 교차 유효성 검사 전략을 사용합니다. * 결과적으로 LogReg Baseline 접근 방식은 대부분의 조건에서 Zero-One Baseline을 개선합니다. ZOB와 LRB와 비교하여 평균 F1 점수를 0.54 -> 0.65로, 가중 평균 F1 점수를 0.56에서 0.70으로 증가시킵니다. 그러나 LRB 접근방식은 부종 및 지원 장치에 대한 ZOB에 비해 F1점수를 낮춥니다. 흉막 삼출의 경우 두 접근법 모두 F1점수가 0.65로 동일합니다. ![](https://i.imgur.com/hFGgoFQ.png) 4.6 Can we learn to map the text reprots directly to the X-ray image labels? : 텍스트 보고서를 X-ray 이미지 레이블에 직접 매핑하는 방법을 배울 수 있습니까? * 방사선 보고서를 해당 X-ray 이미지 레이블에 직접 매핑하는 딥러닝 모델을 소개. 많은 수의 X-ray 이미지에 대해 방사선 전문의로부터 라벨을 얻는 것이 불가능하기 때문에 DenseNet 모델을 사용하여 흉부 X-ray 이미지에서 의학적 상태를 감지합니다. 이러한 예측 확률을 실측 정보로 사용하여BERT 기반 모델을 미세 조정합니다. 이 모델은 MIMIC와 CheXpert 데이터 셍트에서 토큰화된 방사선 보고서 노출을 입력으로 사용하고 DenseNet 모델에서 생성된 레이블을 출력합니다. * DenseNet 모델을 사용하여 MIMIC-CXR과 CheXpert 교육 데이터 세트의 모든 X-ray에 대한 14가지 조건에 대한 확률을 출력합니다. (CheXpert = 0.975 CheXpert - 0.883) * 이 섹션에서 작성자는 BERT 모델 교육에 대한 세부 정보를 제공합니다. Devlin 등이 설명한 방법에 따라 학습 속도가 2 × 10-5인 Adam 최적화 프로그램과 교육을 위해 3개의 TITAN-XP GPU를 사용합니다. 미세 조정 작업을 위해. 그들은 데이터 세트를 Smit et al이 취한 접근 방식과 유사하게 85% 훈련 세트와 15% 검증 세트로 무작위로 분할했습니다. BERT 모델은 18개의 방사선 보고서 인상의 배치 크기로 수렴될 때까지 훈련됩니다. * BERT+LogReg 접근 방식의 경우 𝐿2 정규화(𝐶 = 1.0) 및 최대 반복 500이 있는 로지스틱 회귀 모델을 사용합니다. 훈련 세트에서 각 클래스의 역 보급으로 클래스 가중치를 계산하고 휴가를 사용합니다. CheXpert 테스트 데이터 세트에서 로지스틱 회귀 모델을 훈련하고 테스트하기 위한 일회성 교차 검증 전략. 8가지 평가 조건 각각에 대해 BERT 모델이 출력한 확률을 이진 이미지 레이블에 매핑하기 위해 서로 다른 로지스틱 회귀 모델을 훈련합니다. * 결과 : CheXpert test set에서 다양한 BERT 접근 방식의 성능을 비교합니다. 전반적으로 이러한 결과는 VisualCheXbert가 흉부 X-ray에서 흉부 질호나을 탐지하는데 효과적인 접근 방식이며 대부분의 경우 Zero-One Baseline 및 방사선 전문의 점수를 능가한다는 것을 시사합니다. 1. 대부분의 조건에서 BERT+LogReg가 BERT+Thresholding보다 성능이 우수합니다. CheXpert 및 MIMIC데이터 세트 모두에서 사실입니다. 2. 다른 기관의 데이터 세트에 대한 교육을 받았음에도 불구하고 MIMIC 및 CheXpert 데이터 세트에 대한 교육을 받은 모델은 유사하게 수행합니다. * 다음으로, 저자는 VisualCheXbert의 성능을 Zero-One Baseline 및 방사선 전문의 라벨링 보고서의 더 높거나 더 낮은 점수와 비교합니다. 그들은 1000번의 부트스트랩 복제에서 F1 점수의 쌍차 차이를 계산하고 95% 양측 신뢰 구간과 함께 평균 차이를 제공하여 개선 사항을 보고합니다. 그들은 VisualCheXbert가 Zero-One Baseline에 대해 통계적으로 유의미하게 평균 F1 및 가중 평균 F1을 개선하고 대부분의 조건에서 더 높거나 낮은 방사선 전문의 점수에 대해 통계적으로 유의미한 개선을 얻는다는 것을 발견했습니다. ---- ## LIMITATIONS * VisualCheXbert 모델의 한계 1. "보고서 내용에서 Impression 섹션만 사용했습니다." 즉, Impression 섹션만 사용할 때 음수 또는 빈 레이블이 더 일반적일 수 있으며, 이로 인해 보고서에서 추출된 레이블과 X-ray 이미지의 실제 레이블 간에 불일치가 발생할 수 있습니다. * 방사선 보고서의 Impression 섹션은 방사선과 보고서의 요약입니다. 즉, 환자의 상태에 대한 모든 정보가 포함되어 있지 않을 수 있습니다. 예를들면, 자동화된 흉부 X-ray라벨링을 위해 Impression 섹션을 사용했지만 일부 조건은 보고서의 result 섹션에 언급되었지만 Impression에는 언급되지 않았을 수 있습니다. **이로 인해 Impression 섹션을 사용할 대 음수 또는 빈 레이블이 더 일반적일 수 있으며, Impression 섹션에서 추출된 레이블과 실제 흉부 X-ray이미지 레이블 간에 불일치가 발생할 수 있습니다.** 2. 연구에 사용된 모델인 VisualCheXbert는 최대 입력 크기가 512개 토큰입니다. 실제로는 데이터 세트의 보고서 impression3회만 이 제한보다 * VisualCheXbert 모델의 최대 입력 크기가 512 토큰이다. 즉, 한번에 제한된 양의 텍스트만 처리할 수 있으며 이 제한을 초과하는 텍스트는 모델에서 고려되지 않았습니다. 그러나 실제로는 전체 CheXpert 데이터 세트의 보고서 중 3개만이 이 제한보다 길었다. (現연구에 최소한의 영향만 미쳤다.) 3. 연구는 크기가 제한적일 수 있고, 희귀한 의학적 상태에 대한 긍정적인 예가 충분하지 않을수 있는 500개의 방사선 연구의 테스트 세트에서 모델을 평가 했습니다. * CheXpert test set의 크기와 관련이 있습니다. test set에서는 500개 구성.결과적으로 일부 의학적 상태에는 긍정적인 예가 거의 없었기 대문에 모델을 정확하게펴악하기가 어려웠습니다. 이 문제를 해결하기 위해 CheXpert test set의 예 중 최소 10%가 양성인 조건에서만 모델을 평가했습니다. 즉, 테스트 세트가 클수록 데이터에서 자주 발생하지 않는 희귀 질환 사례가 더 많이 포함됩니다. 더 큰 테스트 세트에서 모델을 테스트하면 더 일반적으로 발생하는 조건이 아니라 이러한 드문 조건에서 모델이 얼마나 잘 수행되는지 더 잘 이해할 수 있습니다. 이렇게 하면 모델의 전체 성능에 대한 보다 포괄적인 평가가 제공됩니다. 4. 단일 기관의 흉부 X-ray로 평가되었으므로 연구 결과의 일반화가 제한 됩니다. 다른 기관의 데이터에 대한 추가 평가는 모델이 다른 설정에서 얼마나 잘 수행되는지에 대한 통찰력을 제공할 수 있습니다. * 모델이 단일 기관의 흉부 X-ray(폐, 심장, 혈관 및 가슴 뼈를 시각화)에서만 테스트되어 다른 기관의 X-ray(복부나 골반과 같은 다른 장기의 엑스레이는 신체의 특정 부위에 초점을 맞춘것) 또는 다른 기관의 X-ray에서 잘 수행되는지 여부가 불확실하다는 점입니다. ---- ### CONCLUSION * 보고서에서 레이블을 지정하는 방사선과 저문의는 X-ray 이미지에 레이블을 지정하는 방사선과 전문의와 일치한가? * 우리는 보고서에 레이블을 지정하는 방사선과 전문의와 이미지에 레이블을 지정하는 방사선과 전문의 사이에 상당한 불일치가 있음을 발견했습니다. : 거의 모든 조건에 대해 낮은 kappa 점수 * 보고서에서 레이블을 지정하는 방사선과 전문의가 X-ray 이미지에 레이블을 지정하는 방사선과 전문의와 일치하지 않는 이유는 무엇인가? * 주요 네가지 이유가 있습니다. 1. CheXpert test set에서 보고서 레이블을 지정하는 방사선과 전문의는 일반적으로 하위 상태가 양성인 경우 상위 상태를 양성으로 표시하지 않습니다. 2. 보고서에서 레이블을 지정하는 방사선 전문의는 임상 보고서 기록에 액세스할 수 있으므로 이정보에 액세스할 수 없는 방사선 전문의가 이미지에 레이블을 지정하는 것과 비교하여 진단이 편향됩니다. 3. 때때로 방사선 보고서의소견에는 보고되지만 방사선 보고서의 impression에는 보고되지 않습니다. 그러나 방사선 보고서의 impression은 일반적으로 보고서에 레이블을 지정하는데 사용합니다. 이러한 불일치로 인해 보고서에서 레이블을 지정하는 방사선 전문의가 x-ray 이미지에 있는 병리를 놓칠 수 있습니다 4. 사람의 실수, 보고서와 이미지의 불확실성, 방사선과 전문의 사이에 양성으로 진단하는 기준이 다른 등, 여러 요인으로 인해 이미지와 보고서에 레이블을 지정하는 것은 어느정도 노이즈가 있습니다. * 보고서에서 레이블이 지정된 조건과 이미지에서 레이블이 지정된 조건 사이에 중요한 관계가 있습니까? * 지정된 조건과 이미지에서 많은 중요한 관계가 있습니다. (레이블 계층 구조 수정), 특정 조건에 대한 긍정적인 보고서 레이블은 이미지에 다른 조건이 존재할 가능성을 높이거나 낮출 수 있습니다. * 예를 들면, 방사선 보고서에서 특정 조건에 대해 긍정적인 레이블이 있는 경우 이미지에도 해당 조건이 있을 가능성이 높아집니다. 방사선 보고서에 하위 수준 조건(하위조건)에 대한 긍정적인 레이블이 있는 경우 이미지에 상위 수준 조건이 있을 가능성이 높아집니다. * 예를들면, 양성 무기폐 보고서 라벨은 X-ray 이미지에서 보조장치의 확률을 0.28배로 줄입니다. 방사선 보고서에 있는 조건의 존재가 해당 X-ray 이미지에서 다른 조건의 존재(또는 부재)를 나타낼 수 있다고 제안합니다. * 방사선 보고서를 X-ray 이미지 레이블에 직접 매핑하는 방법을 배울 수 있습니까? * 텍스트 방사선 보고서를 X-ray 이미지 레이블에 직접 매핑하는 방법을 배웁니다. 바로 VisualCheXbert ML * 위 모델은 흉부 X-ray에서 질병을 감지하도록 훈련된 컴퓨터 비전 모델을 X-ray 이미지에 레이블을 지정하는 방사선 전문의를 위한 프록시로 사용합니다. * VisualCheXbert는 생체 의학적으로 사전 훈련도니 EBRT 모델을 기반으로 합니다. * 즉슨, VisualCheXbert는 방사선 보고서에서 직접 정확한 X-ray 이미지 라벨을 자동으로 생성하여 잠재적으로 진단 프로세스의 효율성과 정확성을 향상시키는 유망한 도구입니다. --- ## Contributions * **요약** : VisualCheXbert는 의료 영상 분석에서 방사선과 보고서 레이블과 이미지 레이블 간의 불일치를 해결하기 위한 솔루션을 제안하는 연구 논문입니다. * **접근** : 이 논문은 방사선학 분야에서 중요한 문제인 진단 보고서와 이미지 라벨 간의 불일치 문제를 해결하기 위한 새로운 모델을 제안 * **의의** : 이러한 결과는 의료 분야에서 인공지능 기술이 어떻게 사용될 수 있는지 보여주며, 더 나은 의료 진단 및 치료에 대한 가능성을 제시합니다. * VisualCheXbert is a research paper that proposes a solution to address the discrepancy between radiology report labels and image labels in medical image analysis. In medical image analysis, it is common to have a report that describes the findings in the image. However, these reports may not always match the labels assigned to the image, which can make it difficult to use these labels for machine learning applications. * VisualCheXbert proposes a solution by using a transformer-based model that can generate both report labels and image labels simultaneously. The model is trained on a large dataset of radiology reports and images and is able to learn the relationship between the two types of labels. This allows the model to generate labels that are more accurate and consistent with the underlying image data. * The proposed approach is evaluated on several publicly available datasets and shows promising results in improving the accuracy of image labels and report labels. The authors of the paper hope that this approach can be used to improve the efficiency and accuracy of medical image analysis in the future. ---- ## Dataset MIMIC-CXR은 370,000개 이상의 흉부 X선 이미지 및 관련 방사선 보고서가 포함된 공개적으로 사용 가능한 데이터 세트입니다. 이미지와 보고서는 2001년에서 2012년 사이에 Beth Israel Deaconess Medical Center에서 수집한 65,000명 이상의 환자로부터 수집한 것입니다. ----