# '21. 10. 15 NLP 10조 피어세션 정리'
## 데이터셋 관리
- 저작권 관련 문제에 관해 고민해볼 필요 있음.
- github에 전처리하는 코드만 올릴까?
- 공유 google drive를 이용하는 건 어떨까?
전처리 된 데이터를 버전을 만들어서 따로 관리
- 먼저 메모장을 만들고 버전이름, 구글 공유드라이브 링크를 올려서 버전 관리 하기
## \\\n\\\n이 의미가 있는가?
일단은 의미가 없다는 것이 결론이 남 전처리를 해서 \\\n을 지우기
## 꿀팁
**이모티콘 입력**: `win` + `.` or `;`
(ex.) (∪.∪ )...zzz
## 회고
### 잘 된점
나름 리서치를 했다.
- 전처리 과정에서 어떤 문자를 지우고, 어떤 문자를 남길지에 대한 토론이 성공적으로 진행되었다.
- !/~\-\.\+“”%°〈〉<><>・「」≪≫·《》‘’『』"{}'_ :(),
- CNN 기반 모델에 관한 리서치도 진행되는 중
- SpanBERT 모델이 MRC 문제를 푸는 것과 유사하게 학습한다는 것에 기반하여 SpanBERT에 관한 노력도 진행되는 중
데이터 공유나 코드를 공유함에 있어 우리팀만의 체계가 잡혀지는 것 같다.
### 아쉬운 점
강의 듣느라 시도를 많이 못했다. (강의 실습 코드가 동작하지 않는 것도 한 몫)
저번대회와 달리 여러 시도를 많이 못해본 것 같다.
- 계획은 세우긴 하는데 조금 더 노력
CNN 기반 최신 nlp 모델들에 대한 정보가 많이 없어서 구현이 어렵다. 연구가 필요함.
### 개선하면 좋을 점
주말을 활용하여 주중에 못 끝낸 일을 끝낼 수 있도록 하자 😂
- 주말에 Retriever 이해하고 Dense하게 한 번 만들어봐야겠다...
강의를 빨리 듣자
부스트캠프를 시작하기 5분전에 To-do list 3가지 정도를 작성하여 slack에 기재하고 피어세션 때 회고하자