# nlp-10 화이트보드팀 랩업리포트
## 1. 프로젝트 개요
### I. 프로젝트 주제 및 개요
### II. 개발환경
본 프로젝트는 리눅스 환경 하(Ubuntu 18.04.5)에서 개발되었다. 통합 개발환경으로는 Visual Studio Code와 Jupyter Notebook을 병행하여 사용하였으며, 학습을 위한 GPU로는 v100을 제공받았다. 또한, 개발에 사용된 주요 프레임워크와 라이브러리는 다음과 같다.
- Pytorch (1.7.1)
- transformers (4.5.0)
- pandas (1.1.4)
- scikit-learn (0.24.1)
- datasets (1.5.0)
- tqdm (4.41.1)
- konlpy (0.5.2)
- Elasticsearch (7.15.1)
### IV. 기대효과 (수정 필요)
## 2. 프로젝트 팀 구성 및 역할 (가나다순)
- 고지호(T2007):
- 김민성(T2024):
- 김범찬(T2031):
- 김정현(T2051):
- 심현덕(T2125):
- 최수홍(T2228):
## 3. 프로젝트 수행 절차 및 방법
### I. 프로젝트 기획
기존 MRC 태스크들(SQuAD 2.0, KorQuAD 2.0)을 분석해 data handling 전략이나 사용된 모델들의 특성을 분석했다. 그 후 강의들을 듣고 baseline code를 분석하며 이번 MRC 태스크의 특성과 사용될 코드들을 분석했다. 또한 SOTA 모델들과 논문들, 부스트캠프 특강들, 공개된 1기 git을 참고해 Dense Retrieval, Elastic Search, Negative Sampling, 다양한 BERT-base 모델들과 LSTM, Conv-1d 모델링 등을 시도했다.
### II. 프로젝트 수행
본프로젝트 수행을 위한 일련의 과정은 다음과 같다.
### III. 프로젝트 결과
**LB score (public)**:
- score: 1.1397, f1: 0.7013, time: 55.7934
**LB score (private)** (제출 실패):
- score: 1.3080, f1: 0.6465, time: 48.6440
## 4. 프로젝트 수행 결과
### I. 탐색적분석 및 전처리
#### i. 데이터 소개
#### ii. 전처리
### II. 모델 개요
#### i. Retriever
#### ii. Reader
### III. 모델 선정 및 분석
#### i. Retriever
#### ii. Reader
### IV. 검증(validation) 전략, 앙상블 방법
#### i. 검증
### V. 차후 모델 개선 방안
#### 자체 모델 개선
#### 앙상블
#### augmentation
## 5. 프로젝트 후기
- 고지호(T2007):
- 김민성(T2024):
- 김범찬(T2031):
- 김정현(T2051):
- 심현덕(T2125):
- 최수홍(T2228):
## 6. 참조