데이터 수집 Readme

# 데이터 수집 Readme ###### tags: `Dataset` ## KSS 문장분리 Annotation을 하기 위해 kss 라이브러리를 사용하여 데이터를 문장 단위로 분리한다. 하나의 폴더에 정제된 데이터 파일들을 저장한 후 `kss.py`에서 입력 데이터 경로와 문장 분리된 파일을 저장할 저장소를 지정한 후 다음 명령어를 실행한다. ``` python preprocess/kss.py ``` ## tagtog에서 데이터 가져와서 csv만들기 - 민재 ## 검증하기 Annotation 결과가 저장된 tsv 파일을 사용하여 iaa 검증을 진행한다. 1. 결과를 숫자로 치환 annotator 마다 교차검증한 부분이 달라 교차검증되지 않은 부분을 3가지 방법으로 처리한다. 1. 새로운 relation으로 정의 2. ERROR(no_relation)으로 정의 3. ground_truth와 동일한 relation으로 정의 `change_relation_to_number.py` 에 tsv 파일 경로를 지정한 후 다음 명령어를 실행한다. ``` python change_relation_to_number.py ``` 2. 1에서 만들어진 xlsx 파일경로를 `calculate_iaa.py`에 지정한 후 다음 명령어를 실행하여 결과를 확인한다. ``` python calculate_iaa.py ``` **[결과]** 각 annotator 마다 교차검증하지 않은 부분을 ground_truth와 동일한 relation으로 정의했을 때 Fleiss' Kappa 값이 가장 높았으며 그 결과는 다음과 같다. ``` #raters = 7 , #subjects = 396 , #categories = 10 PA = 0.7341269841269847 PE = 0.12256116098107442 Fleiss' Kappa = 0.697 ``` ## 모델링 및 결과 - 석진 - [참고해주세요 ㅎㅎ](https://hackmd.io/W5ATddRJTAuNq54oo5_IaQ) ## Contributors 나요한_T2073 : https://github.com/nudago 백재형_T2102 : https://github.com/BaekTree 송민재_T2116 : https://github.com/Jjackson-dev 이호영_T2177 : https://github.com/hylee-250 정찬미_T2207 : https://github.com/ChanMiJung 한진_T2237 : https://github.com/wlsl8135 홍석진_T2243 : https://github.com/HongCu