# 10.01 금요일 멘토링
###### tags: `mentoring`
# 사전질문 1
test set을 제외하고 sampling한 후 학습 추천
StratifiedKFold는 Overfitting은 어느정도 불가피하고 data augmentation을 진행하는 게 좋아보임
## h2증강기법
- tableGAN
- Interpolation
- SMOTE
# 사전질문 2
코드 설명 자세히 적어서 param의 위치에 대한 정보도 알아두기
코드 리뷰 시 코드 한줄한줄 자세하게 볼 예정
대회 진행 중에도 논문 하나씩 정리해서 피어세션 때 나눠보기
Tranformer 관련 논문들 위주로 읽어보는 것 추천
num_workers는 잘 동작하지 않음(torch에도 나와 있음)
paralleling 하는 방법 연구
batch size를 늘리려면 모델 경량화를 적용해야함(신경 써야할 것이 많음)
# 사전질문 3
overfitting 고려해야함
데이터마다 다르기 때문에 검증 필요함
# Downstream task 학습
eval loss가 급격하게 변하는 곳에서 원인을 찾아내야함
-> k fold 문제일 가능성이 있다.
# 학습에서 Epoch 영향
epoch에 정답은 없음
loss가 벌어지면 안됨
한정된 상황에서 GPU는 계속 돌아가야 함 - GPU는 계속 돌리고, 분석은 그 사이에 진행
colab 등으로 작은 크기로 test
Hyperparameter 바꿔서 꼭 실험을 하고 겹치지 않게 실험을 한다.
model을 바꾸기 애매할 때 lr을 바꿔서 최적화를 진행한다.
# 사전질문4
학습을 위해 task가 쉽게 만들어진 것
# 사전질문5
tokenizer마다 결과가 조금씩 다를 수 있음
huggingface tokenizer가 가장 안전함
sklearn tokenizer, nltk tokenizer, 트리뱅크 tokenizer, snowball tokenizer
# 사전질문6
dictionary 형태가 학습하기 더 편함 - key가 중복되지 않고 key를 통해 value를 가져올 수 있음
# 사전질문7
oversampling, undersampling -> smoothing
검증을 통해 layer 수 조정
# 추가질문
모델에서 klue로 학습시킨 것들이 좋은 성능을 보여주고 있는데 한국어로만 학습해서 인가요?
NLP에서 제일 중요한 부분이 tokenize 부분이다.
대회 데이터는 tokenize가 잘 되어있는 데이터 - huggingface에 특화된 데이터
실제 데이터는 tokenizer를 사용하지 못하는 경우도 있음 - 수기로 corpus 만드는 경우도 있음
kaggle 같은 외부 대회를 참여하면서 좋은 부분은 대회에 적용하는 것이 좋다.