# [PAPER] NegBio: a high-performance tool for negation and uncertainty detection in radiology reports ![image](https://hackmd.io/_uploads/BynrQkLn6.png) :::info **Author** : Yifan Peng, Ph.D.1 , Xiaosong Wang, Ph.D.2 , Le Lu, Ph.D.2 , Mohammadhadi Bagheri, M.D.2 , Ronald Summers, M.D., Ph.D.2 , Zhiyong Lu, Ph.D.1 1National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, USA; 2Department of Radiology and Imaging Sciences, Clinical Center, National Institutes of Health, Bethesda, MD, USA **Paper Link** : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5961822/ **Code** : https://github.com/ncbi-nlp/NegBio ::: --- ## NegBio - 방사선 보고서에서 Negative과 Uncertain 소견을 탐지하는 성능의 자연어처리 도구입니다. - 방사선 보고서에서 Negative and uncertain에 대한 소견도 자주 나타난다 - 패턴 기반 알고리즘, 이전 규칙(rule-based) 방법과 다르다 --- ## Abstract - 방사선 보고서에서 Negative과 uncertain에 대한 소견이 자주 나타나고, 또한 Positive과 분류하는데 어렵다. - 위의 문제를 해결하기위해서, previous rule-based방법과 달리, NegBio 알고리즘을 제안한다. - NegBio는 보편적 종속성에 대한 패턴을 활용하여 부정 또는 확실성을 나타내는 트리거의 범위를 식별합니다. - Negative and uncertain medical findings(소견) are frequent in radiology report, but discriminating them from positive findings remains challenging for information extraction. - we propose a new algorithm, NegBio, to detect negative and uncertain findings in radiology reports. - Unlike previous rule-based methods, NegBio utilizes patterns on universal dependencies to identify the scope of triggers that are indicative of negation or uncertainty. ## Introduction - Negative and uncertain findings are frequent in radiology reports. - negative, if it is negated - uncertain if in an equivocal or hypothetical statement. - "pneumothorax" is negative in "no evidence of penumothorax" and is uncertain in "suspicious pneumothorax" - Previous efforts in this area include both rule-based and machine-learning approaches. - rule-based system, rely on negation keywords and rules to determine the negation - NegEx is a widely used algorithm that utilizes regular expressions. 그러나 정규식 표현은 surface text에 의존하므로, 긴 명사구와 같은 복잡한 구문 구조를 캡쳐하려고 시도할 때 제한됩니다. : "clear of focal airspace disease, pneumothorax, or pleural effusion", effusion은 clear단어로 부터 5단어 떨어져 있기 때문에, 부정을 감지 못한다. - After, the algorithm "ConText9" extended scope to the end of the sentence(allow the user to set a window size) + MetaMap - NegBio - Unlike previous methods, NegBio utilizes universal dependencies for pattern definition and subgraph matching for graph traversal search. - 부정/불확실성의 범위가 고정 단어 거리에 국한되지 않는다. - 불확실성도 감지한다. - end-to-end information extraction system, 긍정적으로 주장된 결과만 추출하는 것을 목표 - 그리고 부정되고 불확실한 결과를 제거하기 위해 적용 됩니다. --- ## Methods ![image](https://hackmd.io/_uploads/Hy6hdXv3p.png) - NegBio tasks as inputting a sentence with pre-tagged mentions of medical findings, and check whether a specific finding is negative or uncertain. - 의학적 소견에 대해 미리 태그된 언급이 포함된 문장을 입력하는 작업을 수행하고 특정 소견이 부정적이거나 불확실한지 확인 - Medical findings recognition - Atelectasis, Cardiomegaly, Consolidation, Edema, Effusion, Pneumonia, Pneumothorax - Fibrosis, Hernia, Infiltration, Mass, Nodule, Pleural Thickening - Universal dependency graph construction - we utilized the universal dependency graph to define patterns. - 범용 종송석 그래프(UDG), Universal dependency graph - Negation and uncertainty detection - 단어 노드가 사전 정의된 패턴 중 하나와 일치하면 이를 부정/불확실한 것으로 처리합니다. 패턴이 그래프에 정의되어 있으므로 부정/불확실성 범위는 단어 거리로 제한되지 않습니다. 대신, 구문적 맥락을 기반으로 합니다.(**it is based on syntactic context**),Blip파서 및 하위 그래프 매칭 알고리즘의 계산 복잡도는 각 O(m^3) 및 O(m) - "Lungs are lcear of acute infiltrates or pleural effusion. " - pleural effusion은 "{}<nmod:of{lemma:/clear/}"규칙과 일치하기 때문에 무효화됩니다. 규칙은 "clear"가 "nmod:of" 종속성을 갖는 "effusion"의 조정자임을 나타냅니다. - "There is no evidence of tuberculous disease." - {}<nmod:of({lemma:/evidence/}<neg{word:/no})가 tuberculous disease as neagtive - "Definite infiltrate is noe excluded" - {}<({lemma:/exclude/}>neg{word:/not/})가 "infiltrate"와 어떻게 일치하는지 보여줍니다. - AMOD : 명사구 의미를 수식하는데 사용되는 형용사구입니다.![image](https://hackmd.io/_uploads/BJqcpQvhT.png) - NEG : 부정 단어 그리고 해당 단어가 수식하는 단어의 관계입니다.![image](https://hackmd.io/_uploads/SkHyAQvnp.png) - CC : 접속어와 등위 접속사 간의 관계입니다. 접속어의 한 단어(일반적으로 첫 번째)가 접속사의 헤드로 간주됩니다.![image](https://hackmd.io/_uploads/BJWU14D26.png) - NSUBJ : 절의 주어인 명사구입니다. ![image](https://hackmd.io/_uploads/rk45yVP3p.png) - NSUBJPASS : 수동절의 주어인 명사구 입니다. ![image](https://hackmd.io/_uploads/H1a1eNvnT.png) reference [dependency tree](https://cloud.google.com/natural-language/docs/morphology?hl=ko) --- ## Discussion ![image](https://hackmd.io/_uploads/SyArSbwnp.png) - In general, NegBio leverages syntactic structures in the rules. - 규칙의 구문 구조를 활용해서, 정규 표현식보다 더 엄격할 뿐만 아니라 더 많은 텍스트 변형과 일치하도록 더 일반화될 것으로 예상된다. 게다가 부정 탐지 작업에서는 엄격하기 대문에 더 높은 정밀도를 달성했다. - NegEx"not.*"은 부정 범위를 문장 끝까지 과도하게 확장한다. 그러나 NegBio에서는 접속사 구문 구조에 따라 "not"의 부정 범위가 매우 협조적이다. - Overall, NegBio achieved a significant improvement on all datasets over the popular method NegEx. - 구문 수준에서 부정 및 불확실성 감지를 사용하면 "Positive" 결과의 잘못된 긍정 사례를 성공적으로 제거한다. - As for the recall, NegBio did not achieve higher recall because both datasets are relatively small and contain limited text variation. - in the positive findings dtection tasks, the recalls of NegBio are comparable to NegEx because we count positive findings on the document level. - "Positive" 탐지 작업에서는 NegBio과 NegEx와 유사하다. - NegBio 패턴이 문장에서 하나의 Negative를 놓치더라도 동일한 문장에서 다른 Negative를 감지. - Uncertain 감지가 높아졌다. - 오류 분석 1.Named Entity Recognition accuracy where some findings are difficult to be recognized correctly by MetaMap. MetaMap에서 어려운 엔터티 인식 정확도와 관련되어 있다. 2. due to parsing, on which our patterns rely on input. --- ## Conclusion - we propose an algorithm, NegBio, to determine negative and uncertain findings in radiology reports. - This informaiton is also useful for improving the precision of information extraction from radiology reports. - we plan to explore its applicability in clinical texts beyond radiology reports.