--- tags: '피어세션' --- 211021 피어세션 === - 기록자 : - 오늘의 한마디 진행 해야 될 것 --- - TodoList 리마인더 질문 정리 --- 피어세션 진행 --- - Todo - 동규님 : 강의 마무리. 그리고 좋은 노랫소리 - 석민님 : T5 GPU로 올리는거 실패, 테트리스 - 재혁님 : 꾸준한 운동, 리트리버 관련 작업 - 은진님 : T5 학습중, 토크나이징 부분에서 문제 있었는데 해결했음, 방법론 조사 계획, 오늘,내일 주간 학습정리 할 예정 - 종현님 : augmentation 데이터 생성 중, 서버가 끊기는 문제가 있어서 중간중간 pickle 파일로 저장 중, 데이터 보다보니 전처리 해줘야 할 것 같아서 학습 데이터랑 위키 데이터 전처리 해야할 듯. - 태현님 : 9, 10강 강의 수강, 알고리즘 문제 푸는 중, - 채원님 : 학습정리, 방법론조사(오피스아워 링크) - T5 모델 학습에서 tokenizer 문제 - 결론 : 그냥 지문이 길 경우에 짤려서 학습함 - 그러한 데이터들 제외하고 학습해야 함 - 데이터 전처리 방법 참고 - https://arxiv.org/pdf/2105.09680.pdf - top-k 만큼 문서를 가져오고 이어붙인다. => 베이스라인 코드의 방법 - Augmentation idea - train 데이터셋이 가지고 있는 문장을 서로 합쳐서 새로운 긴 문장을 만들어서 사용 내일 까지 계획 --- - 앞으로의 대회 진행 계획 - retrieval 구현 - wiki_docs 전처리 - retrieval 포함한 baseline code 개선 - augmentation 실험 결과 비교 - korquad 기반으로 pre-train 모델 만들기