---
tags: '팀 회고'
---
211105 팀회고
===
활동 점수 (100점 만점)
---
- T2001_강석민(100점): DPR트레이닝, 질문 생성등은 실패하였지만, 노력에 비례한 결과물이 나와서 만족스럽다.
- T2053_김종현(80점): 데이터 전처리, distant supervision, elastic search 시도
- T2066_김태현(70점): 팀원들이 만들어준 아이디어를 토대로 실험하는데에만 많은 시간투자를 했음. 문제 정의 후 문제를 이해하고 방법론을 더 많이 생각해보지 못한 것이 아쉬움
- T2132_오동규(50점): 언제나 아쉬운 점이 많다. 다음에 더 잘하자
- T2145_윤채원(80점): Reader부분에서 layer실험과 masking 실험 등 다양한 실험을 시도해본 점이 좋았고 generation model을 시도했으나 못한게 아쉽다.
- T2231_최재혁(70점): Retrieval 성능 개선을 위한 조사, 취업으로 인해 후반부에 신경을 많이 못쓴것이 아쉬움
- T2239_허은진(70점): Output layer에서 다양한 실험을 진행해보지 못했다. 생성모델로 개선할 부분이 있었지만 시간부족으로 시도를 못했던 점이 아쉽다.
MRC 대회 타임라인
---
- 1주차: 1~7강 강의, 베이스라인 분석 및 개선
- 2주차: 8~10강 강의, 실험파트 분배 및 공부
- 3주차: Retrieval, Reader 모델 학습 및 개선, 데이터 전처리 및 증강
- 4주차: 다양한 실험 진행 및 최종 모델 학습, 대회마무리
(+)잘했던것, 좋았던것, 계속할것
---
- To do list 공유
- 노션으로 실시간 실험 내용 및 결과 공유
- 앙상블으로 점수 향상
- Distant Supervision
- 데이터 전처리
- KLUE 때보다는 더 많은 실험을 해본것 같음
- 하이퍼파라미터 튜닝 시각화
(-)잘못했던것, 아쉬운것, 부족한것 -> 개선방향
---
- 시도했으나 좋은 결과를 보지 못했던 방법론들에 대해 좀 더 자세히 분석하고 개선된 방법으로 적용해보지 못 한 점
- 단일 모델로 더 많은 실험을 해보고 좋은 성능을 보지 못 한 점
- 다양한 데이터 Augmentation 방법을 시도해보았으나 실제로 성능 개선을 보였던 방법은 Distant Supervision 뿐이었다. 좀 더 세부적으로 조정해서 어그멘테이션 되는 데이터의 퀄리티를 높여본다면 성능 개선을 기대해볼 수 있을거 같았는데 마무리하지 못 한 점이 아쉽다
- Generation-based 모델을 더 개선하여 사용해보지 못 한 점
- DPR 모델을 제대로 완성하지 못 한 점
- 데이터 전처리 결과 예측을 잘못하여 계속 보완해야할 점들이 생겼었다. 이로 인해 시간도 많이 소요됐는데 처음부터 발생할 문제점을 깊게 고민해보고 적용했더라면 더 다양한 시도를 해볼 수 있었을텐데 아쉽다
(!)도전할 것, 시도할 것
---
- 깃허브 적극적으로 이용하기 (issue, Project, action)
- 미리 앙상블 도전해두기(제출횟수를 잘 활용하자)
- 데이터를 어떻게 늘릴 지 고민하기
- 데이터 시각화를 통해 문서 정리해두기
- 제대로된 EDA를 통해 문제 및 개선점 분석해보기
(-)키워드(공부한 것,알게된 것, 느낀 점)
---
- MRC, ODQA, EM
- Distant Supervision
- Data Augmentation - back translation, easy data augmentation
- Elastic Search
- Curriculum Learning