# 10.05 월요일 피어세션
###### tags: `peer-session`
## 석진 님 진행사항
KoEDA의 AEDA 진행 중
Loss와 accuracy 면에서 기존 최고 성능 모델모다 낮음
augmentation을 진행하고 stratified 시켜서 학습
우리가 평소에 쓰던 것과는 평가 기준이 달라서 제출해봐야 정확한 성능을 알 수 있다.
## 민재 님 진행사항
Overfitting이 발생하는 것 같아 해결책을 찾아보는 중
- Entity replacement (같은 label 안에서)
- EDA 라이브러리로 문장 위치 바꾸는 것
- 위의 두 가지 경우를 합친 것
Augmentation을 라벨에 맞게 따로 해보려고 함
## 찬미 님 진행사항
KoEDA의 AEDA 진행 중
데이터양이 너무 많아서 batch size를 20까지 낮춤
전체적으로 데이터 양을 늘림
다음 목표: 데이터양이 적은 label의 데이터만 늘릴 것
데이터 imbalance 이외에 다른 문제들에 대해 성능 개선을 시도해야함
product-origin을 잘 맞춘다
## 요한 님의 진행사항
11번을 15번으로 mislabeling하는 결과가 나옴
per:place_of_residence , per:origin
EDA가 효과적인 라벨이 있고, 효과적이지 않은 라벨이 있다.
잘 찾는 라벨이 다른 몇 가지 모델을 앙상블 진행해서 결과를 확인해보면 좋을 것 같음
AEDA를 진행
cls token과 sep token을 넣어보았지만 성능개선이 일어나지 않음
''를 추가해보았지만 성능 개선이 일어나지 않음
오히려 ''를 추가하면 성능 저하가 크게 일어남
# 한진 님 진행사항
요한 님처럼 Raytune, Optuna 진행
BERT에서는 다음 문장을 예측하는 방식으로 학습을 진행
input data를 BERT와 유사하게 수정
# 호영 님 진행사항
roberta-large-mnli 학습 후 성능 확인
AEDA 진행 중
# 재형 님 진행사항
FP를 줄이기 위해서 no relation으로 예측하는 것을 줄여보자
6번, 14번, 20번이 no relation으로 mislabeling하는 경우가 많았음
과거형을 잘 캐치 못하는 것 같다.
과거형 문장구조를 학습 시킬 방법이 필요한 것 같음
지난 주 수업 pdf에 나온 LM domain adaptation을 진행
## IDEA
잘 예측하지 못하는 것들만 학습시켜서 앙상블시켜보는 것
-> 앙상블할 때 가중치를 조절하는 방향이 더 좋아보임
## 멘토링 질문
1. 주말 사이에 다른 팀들의 F1 score와 AUPRC가 크게 증가하였는데 전처리의 영향일지, 모델의 영향일지 모르겠는데 NLP의 다른 task에서 보통 눈에 띄는 성능이 개선된다면 어느 것의 영향이 큰지 궁금합니다.
2.