--- tags: '피어세션' --- 211124 피어세션 === - 기록자 : 은진님 - 오늘의 한마디 진행 해야 될 것 --- - TodoList 리마인더 - 논문 스터디 - 최종 프로젝트 질문 정리 --- 피어세션 진행 --- - Todo 공유 - 동규님: 베이스라인 코드 분석, GPU 활용을 제대로 못함, 특강 수강 - 은진님: Don't stop pretraining 논문 Appendix 제외하고 읽음. 최종 프로젝트 논문 조사. 특강 수강. 최적화 베이스라인 코드는 저녁에. - 종현님: 4강 정리완료, 어제 이야기했던 카카오 다국어 논문 살펴봄, 리눅스 강의 들어볼 예정. - 채원님: Don't stop pretraining 논문 읽음, 강의 마저 들음, 최적화 베이스라인 코드 저녁에 볼 예정. - 태현님: 4강 듣다가 참여, 특강 수강, 논문 읽음 - 석민님: 5강 듣고 special mission 1까지 진행. Don't stop pretraining 논문은 뒤쪽 human adaptive 부분 제외하고는 다 읽음. - 논문 질문 정리 - DAPT와 TAPT의 정확한 차이점 - DAPT는 unlabel만, TAPT는 unlabel, label로 나누어져잇다. - 데이터를 어떻게 분리하는가? - 그럼 DAPT는 말뭉치, TAPT는 훈련데이터를 말하는건가 - TAPT의 경우 domain 내에서 나누어지는 task 기반을 의미하는가 아니면 문서요약, RE 와 같은 task를 의미하는가? - 한 데이터에 대해서 Mask를 다르게 해서 Augmentation을 하고 학습시키면 어느정도 효과가 있는가? - 논문 4.1 Experiments 1번째 문단 - high-resource, low-resource의 통용적인 기준 - 논문에서 얘기하는 것은 데이터 측면인가?, 모델 측면인가?, 컴퓨팅 파워 측면인가? - 데이터 측면에서의 이야기! - ≤5K labeled training examples, and no additional unlabeled data(?) - DAPT, ㄱDAPT에서 성능이 떨어지거나 상승한 경우 - CS, NEWS - 최적화 프로젝트 - 스페셜 미션1: 기존에는 CIFAR10인데 대회 데이터셋을 사용해서 opencv, albumentation 으로 변경하려고 함 - - 최종 프로젝트 - 언어감지를 어떻게 할 것인가 - **언어감지 api 사용** - 각 언어별 embedding이 어디에 속하는지 보고 가져오기 - 학습 시에 분류 모델을 통과하기 - **각 언어별 유니코드 범위로 찾기** 내일 까지 계획 --- - 최종 프로젝트 번역 모델 최대한 프로토타이핑 해보기