211105 팀회고

--- tags: '팀 회고' --- 211105 팀회고 === 활동 점수 (100점 만점) --- - T2001_강석민(100점): DPR트레이닝, 질문 생성등은 실패하였지만, 노력에 비례한 결과물이 나와서 만족스럽다. - T2053_김종현(80점): 데이터 전처리, distant supervision, elastic search 시도 - T2066_김태현(70점): 팀원들이 만들어준 아이디어를 토대로 실험하는데에만 많은 시간투자를 했음. 문제 정의 후 문제를 이해하고 방법론을 더 많이 생각해보지 못한 것이 아쉬움 - T2132_오동규(50점): 언제나 아쉬운 점이 많다. 다음에 더 잘하자 - T2145_윤채원(80점): Reader부분에서 layer실험과 masking 실험 등 다양한 실험을 시도해본 점이 좋았고 generation model을 시도했으나 못한게 아쉽다. - T2231_최재혁(70점): Retrieval 성능 개선을 위한 조사, 취업으로 인해 후반부에 신경을 많이 못쓴것이 아쉬움 - T2239_허은진(70점): Output layer에서 다양한 실험을 진행해보지 못했다. 생성모델로 개선할 부분이 있었지만 시간부족으로 시도를 못했던 점이 아쉽다. MRC 대회 타임라인 --- - 1주차: 1~7강 강의, 베이스라인 분석 및 개선 - 2주차: 8~10강 강의, 실험파트 분배 및 공부 - 3주차: Retrieval, Reader 모델 학습 및 개선, 데이터 전처리 및 증강 - 4주차: 다양한 실험 진행 및 최종 모델 학습, 대회마무리 (+)잘했던것, 좋았던것, 계속할것 --- - To do list 공유 - 노션으로 실시간 실험 내용 및 결과 공유 - 앙상블으로 점수 향상 - Distant Supervision - 데이터 전처리 - KLUE 때보다는 더 많은 실험을 해본것 같음 - 하이퍼파라미터 튜닝 시각화 (-)잘못했던것, 아쉬운것, 부족한것 -> 개선방향 --- - 시도했으나 좋은 결과를 보지 못했던 방법론들에 대해 좀 더 자세히 분석하고 개선된 방법으로 적용해보지 못 한 점 - 단일 모델로 더 많은 실험을 해보고 좋은 성능을 보지 못 한 점 - 다양한 데이터 Augmentation 방법을 시도해보았으나 실제로 성능 개선을 보였던 방법은 Distant Supervision 뿐이었다. 좀 더 세부적으로 조정해서 어그멘테이션 되는 데이터의 퀄리티를 높여본다면 성능 개선을 기대해볼 수 있을거 같았는데 마무리하지 못 한 점이 아쉽다 - Generation-based 모델을 더 개선하여 사용해보지 못 한 점 - DPR 모델을 제대로 완성하지 못 한 점 - 데이터 전처리 결과 예측을 잘못하여 계속 보완해야할 점들이 생겼었다. 이로 인해 시간도 많이 소요됐는데 처음부터 발생할 문제점을 깊게 고민해보고 적용했더라면 더 다양한 시도를 해볼 수 있었을텐데 아쉽다 (!)도전할 것, 시도할 것 --- - 깃허브 적극적으로 이용하기 (issue, Project, action) - 미리 앙상블 도전해두기(제출횟수를 잘 활용하자) - 데이터를 어떻게 늘릴 지 고민하기 - 데이터 시각화를 통해 문서 정리해두기 - 제대로된 EDA를 통해 문제 및 개선점 분석해보기 (-)키워드(공부한 것,알게된 것, 느낀 점) --- - MRC, ODQA, EM - Distant Supervision - Data Augmentation - back translation, easy data augmentation - Elastic Search - Curriculum Learning