# '21. 11. 11 NLP 10조 피어세션 정리' ## 회의 내용 > **1**. raw data에서 어떻게 RE의 대상이 되는 문장을 추려낼 것인가? **1**. `Mecab` analyzer를 사용하여 pos-tagging을 실시한 후, 기본 단위에 명사(`N`)와 동사(`V`)가 둘 다 포함되는 경우에만 문장으로 판단하는 방법 (proposed by **민성**) - `if "N" in token`과 같이 코드를 짜면 `ETN`과 같이 어미가 포함되기 때문에 `if token.startswith("N")`과 같이 수정해야 한다. - `Mecab` 설치에 어려움이 있는데, 어차피 명사 및 동사만 tagging하면 되기 때문에 다른 tagger를 쓰면 될 것 같다. - `한 팀에 2명 이상의 임원이 경기장에 동반하거나 진 팀이 경기장을 떠나지 않았을 때`와 같은 구절은 문장은 아니지만, 명사와 동사를 둘 다 포함하기 때문에 문장으로 판단될 가능성이 있다. 이에 선어말 어미(`startswith("E")`)로 다시 한 번 걸러줄 필요가 있을 것 같다. - 관형사(`NN`)도 동사와 유사한 형식을 가지기 때문에 관형사도 추가하면 좋을 것 같다. **2**. 온점(or 단락구분 기호 `\n`)을 기준으로 자른다. 그렇다면 제목 등 필요없는 부분을 걸러질 것 같다. (proposed by **지호**) - `.`과 `\n`가 둘 다 포함되어 있지만 문장이 아닌 경우도 있다. **3**. (**1**)과 (**2**) 방법을 둘 다 적용하여 문장을 추려내면 좋을 것 같다. - 문장임에도 불구하고 `.`과 `\n`가 둘 다 포함되지 않는 경우도 있다. (**1**)번이 가장 적절한 방법론인 듯하다.