10.01 금요일 멘토링

# 10.01 금요일 멘토링 ###### tags: `mentoring` # 사전질문 1 test set을 제외하고 sampling한 후 학습 추천 StratifiedKFold는 Overfitting은 어느정도 불가피하고 data augmentation을 진행하는 게 좋아보임 ## h2증강기법 - tableGAN - Interpolation - SMOTE # 사전질문 2 코드 설명 자세히 적어서 param의 위치에 대한 정보도 알아두기 코드 리뷰 시 코드 한줄한줄 자세하게 볼 예정 대회 진행 중에도 논문 하나씩 정리해서 피어세션 때 나눠보기 Tranformer 관련 논문들 위주로 읽어보는 것 추천 num_workers는 잘 동작하지 않음(torch에도 나와 있음) paralleling 하는 방법 연구 batch size를 늘리려면 모델 경량화를 적용해야함(신경 써야할 것이 많음) # 사전질문 3 overfitting 고려해야함 데이터마다 다르기 때문에 검증 필요함 # Downstream task 학습 eval loss가 급격하게 변하는 곳에서 원인을 찾아내야함 -> k fold 문제일 가능성이 있다. # 학습에서 Epoch 영향 epoch에 정답은 없음 loss가 벌어지면 안됨 한정된 상황에서 GPU는 계속 돌아가야 함 - GPU는 계속 돌리고, 분석은 그 사이에 진행 colab 등으로 작은 크기로 test Hyperparameter 바꿔서 꼭 실험을 하고 겹치지 않게 실험을 한다. model을 바꾸기 애매할 때 lr을 바꿔서 최적화를 진행한다. # 사전질문4 학습을 위해 task가 쉽게 만들어진 것 # 사전질문5 tokenizer마다 결과가 조금씩 다를 수 있음 huggingface tokenizer가 가장 안전함 sklearn tokenizer, nltk tokenizer, 트리뱅크 tokenizer, snowball tokenizer # 사전질문6 dictionary 형태가 학습하기 더 편함 - key가 중복되지 않고 key를 통해 value를 가져올 수 있음 # 사전질문7 oversampling, undersampling -> smoothing 검증을 통해 layer 수 조정 # 추가질문 모델에서 klue로 학습시킨 것들이 좋은 성능을 보여주고 있는데 한국어로만 학습해서 인가요? NLP에서 제일 중요한 부분이 tokenize 부분이다. 대회 데이터는 tokenize가 잘 되어있는 데이터 - huggingface에 특화된 데이터 실제 데이터는 tokenizer를 사용하지 못하는 경우도 있음 - 수기로 corpus 만드는 경우도 있음 kaggle 같은 외부 대회를 참여하면서 좋은 부분은 대회에 적용하는 것이 좋다.