---
tags: '팀 회고'
---
211008 팀회고
===
활동 점수 (100점 만점)
---
- T2001_강석민(10e5점): 데이터 전처리와 코드 리펙토링에 집중했고, 정보를 공유했다.
- T2053_김종현(70점): vscode, git 등 기본적으로 다룰 수 있어야 하는 것들에 익숙하지 않아 대회 코드를 적용할 때 힘들었다. 지난 대회에서도 같은 어려움을 겪었는데 대비하지 않은 점이 많이 아쉽다. 허깅페이스 트렌스포머 라이브러리 활용도 어려웠다. 대회 끝나면서 조금 익숙해진 것 같다. 허깅페이스에서 제공해주는 모델을 조금 수정해서 사용해보며 버트, 로베르타 모델 구조를 대회 전보다 깊게 이해할 수 있었다.
- T2066_김태현(70점): 강의수강 후 대회 코드 분석에 집중했다. 팀원들의 아이디어나 만들어주신 코드를 이해하면서 따라가는데 급급했기 때문에 아쉬웠다. 그래도 domain adaptation 관련 내용을 맡아서 찾아보면서 MLM을 적용해서 대회 데이터셋에 맞게 한번 더 pre-training 하는 방법을 알게 되었다.
- T2132_오동규(650점): 아쉬운 점이 참 많은 대회였다.
- T2145_윤채원(650점): 직접 코드를 구현하는데 있어서 기여하지 못한 것 같아 아쉽고 다양한 실험을 하지 못해서 아쉽다.
- T2231_최재혁(650점): 토큰들에 대해서 태그를 붙혀서 모델에 적용해보고싶어서 전처리를 시도했고, 이를 임베딩 레이어에 추가도 해보려는 시도를 했다.
- T2239_허은진(70점): hugging face 를 어떻게 사용하는지 감을 잡을 수 있었고, 초반에 강의를 듣느라 후반에 여러가지 방법을 적용하지 못해서 아쉬움이 남았다. EDA, AEDA, Special Token 수정 및 추가해서 실험을 진행했지만, 좋은 결과가 없어서 아쉬웠다.
타임라인 21/09/27 ~ 21/10/07
---
- 210927 : 인공지능과 자연어, 자연어 전처리
- 210928 : BERT 언어 모델 소개, 한국어 BERT 모델 학습
- 210929 : BERT 언어모델 기반의 단일 문장 분류
- 210930 : BERT 언어모델 기반의 두 문장 관계 분류
- 211001 : BERT 언어모델 기반의 문장 토큰 분류
- 211005 : 베이스라인 코드 이해, 모델 파인 튜닝 진행
- 211006 : 코드 리팩토링, AEDA 적용
- 211007 : 하이퍼 파라미터 적용 및 최종 모델 정리
- 211008 : 랩업 리포트 및 팀회고 작성
(+)잘했던것, 좋았던것, 계속할것
---
- 모델을 편하게 사용하기
- AEDA, 하이퍼 파라미터 시도
- 시도할 방법들을 분담하여 다 같이 시도해 본 점
- 문장에 토큰들을 새로 추가해서 토큰화를 진행
- Output Layer를 여러가지 ML, DL로 수정
(-)잘못했던것, 아쉬운것, 부족한것 -> 개선방향
---
- 모델을 직접 제작하고 학습시키는 과정을 하지 못했다.
- 앙상블을 위해 stratified k fold 를 구현했으나 시도는 못했다.
- 첫째주를 강의듣고 공부하느라 다양한 실험을 못했던 점
(!)도전할 것, 시도할 것
---
- 모델 튜닝, 코드 구현을 다 함께 하기
- 깃 사용법 익히고 협업하기
- 아이디어 공유를 github issue 페이지 활용해서 시도해보기
- 앙상블을 적용해본다
- Data Augmentation을 더 다양하게해서 데이터 셋을 좀 더 좋은 데이터로 바꾼다.
- Pre-Trained된 모델을 다시 한번 학습을 시키는 과정을 시도한다.
(-)키워드(공부한 것,알게된 것, 느낀 점)
---
- 공부한 것
- Huggingface 사용법
- KLUE 벤치마크와 한국어 모델
- Wandb, Hydra 등 파이썬 모듈
- 알게된 점
- 자연어 처리부분도 점수올리기가 생각 만큼 쉽지 않다.
- 데이터 전처리 과정이 생각만큼 쉽지 않다.
- Pretrained 모델 적용하고 Custom하는 방법
- 토크나이징 방식 변화
- Data Augmentation의 중요성
- 느낀점
- 👍 우리팀이 최고다
- 🔥 우리팀 화이팅
- 💪 ~~이제 올라갈 일만 남았다~~헷
- 📚 다음 대회는 첫날부터 공부하고 적용해봐야겠다.