# nlp-10 화이트보드팀 랩업리포트 ## 1. 프로젝트 개요 ### I. 프로젝트 주제 및 개요 ### II. 개발환경 본 프로젝트는 리눅스 환경 하(Ubuntu 18.04.5)에서 개발되었다. 통합 개발환경으로는 Visual Studio Code와 Jupyter Notebook을 병행하여 사용하였으며, 학습을 위한 GPU로는 v100을 제공받았다. 또한, 개발에 사용된 주요 프레임워크와 라이브러리는 다음과 같다. - Pytorch (1.7.1) - transformers (4.5.0) - pandas (1.1.4) - scikit-learn (0.24.1) - datasets (1.5.0) - tqdm (4.41.1) - konlpy (0.5.2) - Elasticsearch (7.15.1) ### IV. 기대효과 (수정 필요) ## 2. 프로젝트 팀 구성 및 역할 (가나다순) - 고지호(T2007): - 김민성(T2024): - 김범찬(T2031): - 김정현(T2051): - 심현덕(T2125): - 최수홍(T2228): ## 3. 프로젝트 수행 절차 및 방법 ### I. 프로젝트 기획 기존 MRC 태스크들(SQuAD 2.0, KorQuAD 2.0)을 분석해 data handling 전략이나 사용된 모델들의 특성을 분석했다. 그 후 강의들을 듣고 baseline code를 분석하며 이번 MRC 태스크의 특성과 사용될 코드들을 분석했다. 또한 SOTA 모델들과 논문들, 부스트캠프 특강들, 공개된 1기 git을 참고해 Dense Retrieval, Elastic Search, Negative Sampling, 다양한 BERT-base 모델들과 LSTM, Conv-1d 모델링 등을 시도했다. ### II. 프로젝트 수행 본프로젝트 수행을 위한 일련의 과정은 다음과 같다. ### III. 프로젝트 결과 **LB score (public)**: - score: 1.1397, f1: 0.7013, time: 55.7934 **LB score (private)** (제출 실패): - score: 1.3080, f1: 0.6465, time: 48.6440 ## 4. 프로젝트 수행 결과 ### I. 탐색적분석 및 전처리 #### i. 데이터 소개 #### ii. 전처리 ### II. 모델 개요 #### i. Retriever #### ii. Reader ### III. 모델 선정 및 분석 #### i. Retriever #### ii. Reader ### IV. 검증(validation) 전략, 앙상블 방법 #### i. 검증 ### V. 차후 모델 개선 방안 #### 자체 모델 개선 #### 앙상블 #### augmentation ## 5. 프로젝트 후기 - 고지호(T2007): - 김민성(T2024): - 김범찬(T2031): - 김정현(T2051): - 심현덕(T2125): - 최수홍(T2228): ## 6. 참조