# '21. 10. 15 NLP 10조 피어세션 정리' ## 데이터셋 관리 - 저작권 관련 문제에 관해 고민해볼 필요 있음. - github에 전처리하는 코드만 올릴까? - 공유 google drive를 이용하는 건 어떨까? 전처리 된 데이터를 버전을 만들어서 따로 관리 - 먼저 메모장을 만들고 버전이름, 구글 공유드라이브 링크를 올려서 버전 관리 하기 ## \\\n\\\n이 의미가 있는가? 일단은 의미가 없다는 것이 결론이 남 전처리를 해서 \\\n을 지우기 ## 꿀팁 **이모티콘 입력**: `win` + `.` or `;` (ex.) (∪.∪ )...zzz ## 회고 ### 잘 된점 나름 리서치를 했다. - 전처리 과정에서 어떤 문자를 지우고, 어떤 문자를 남길지에 대한 토론이 성공적으로 진행되었다. - !/~\-\.\+“”%°〈〉<><>・「」≪≫·《》‘’『』"{}'_ :(), - CNN 기반 모델에 관한 리서치도 진행되는 중 - SpanBERT 모델이 MRC 문제를 푸는 것과 유사하게 학습한다는 것에 기반하여 SpanBERT에 관한 노력도 진행되는 중 데이터 공유나 코드를 공유함에 있어 우리팀만의 체계가 잡혀지는 것 같다. ### 아쉬운 점 강의 듣느라 시도를 많이 못했다. (강의 실습 코드가 동작하지 않는 것도 한 몫) 저번대회와 달리 여러 시도를 많이 못해본 것 같다. - 계획은 세우긴 하는데 조금 더 노력 CNN 기반 최신 nlp 모델들에 대한 정보가 많이 없어서 구현이 어렵다. 연구가 필요함. ### 개선하면 좋을 점 주말을 활용하여 주중에 못 끝낸 일을 끝낼 수 있도록 하자 😂 - 주말에 Retriever 이해하고 Dense하게 한 번 만들어봐야겠다... 강의를 빨리 듣자 부스트캠프를 시작하기 5분전에 To-do list 3가지 정도를 작성하여 slack에 기재하고 피어세션 때 회고하자