---
tags: '피어세션'
---
211124 피어세션
===
- 기록자 : 은진님
- 오늘의 한마디
진행 해야 될 것
---
- TodoList 리마인더
- 논문 스터디
- 최종 프로젝트
질문 정리
---
피어세션 진행
---
- Todo 공유
- 동규님: 베이스라인 코드 분석, GPU 활용을 제대로 못함, 특강 수강
- 은진님: Don't stop pretraining 논문 Appendix 제외하고 읽음. 최종 프로젝트 논문 조사. 특강 수강. 최적화 베이스라인 코드는 저녁에.
- 종현님: 4강 정리완료, 어제 이야기했던 카카오 다국어 논문 살펴봄, 리눅스 강의 들어볼 예정.
- 채원님: Don't stop pretraining 논문 읽음, 강의 마저 들음, 최적화 베이스라인 코드 저녁에 볼 예정.
- 태현님: 4강 듣다가 참여, 특강 수강, 논문 읽음
- 석민님: 5강 듣고 special mission 1까지 진행. Don't stop pretraining 논문은 뒤쪽 human adaptive 부분 제외하고는 다 읽음.
- 논문 질문 정리
- DAPT와 TAPT의 정확한 차이점
- DAPT는 unlabel만, TAPT는 unlabel, label로 나누어져잇다.
- 데이터를 어떻게 분리하는가?
- 그럼 DAPT는 말뭉치, TAPT는 훈련데이터를 말하는건가
- TAPT의 경우 domain 내에서 나누어지는 task 기반을 의미하는가 아니면 문서요약, RE 와 같은 task를 의미하는가?
- 한 데이터에 대해서 Mask를 다르게 해서 Augmentation을 하고 학습시키면 어느정도 효과가 있는가?
- 논문 4.1 Experiments 1번째 문단
- high-resource, low-resource의 통용적인 기준
- 논문에서 얘기하는 것은 데이터 측면인가?, 모델 측면인가?, 컴퓨팅 파워 측면인가?
- 데이터 측면에서의 이야기!
- ≤5K labeled training examples, and no additional unlabeled data(?)
- DAPT, ㄱDAPT에서 성능이 떨어지거나 상승한 경우
- CS, NEWS
- 최적화 프로젝트
- 스페셜 미션1: 기존에는 CIFAR10인데 대회 데이터셋을 사용해서 opencv, albumentation 으로 변경하려고 함
-
- 최종 프로젝트
- 언어감지를 어떻게 할 것인가
- **언어감지 api 사용**
- 각 언어별 embedding이 어디에 속하는지 보고 가져오기
- 학습 시에 분류 모델을 통과하기
- **각 언어별 유니코드 범위로 찾기**
내일 까지 계획
---
- 최종 프로젝트 번역 모델 최대한 프로토타이핑 해보기