---
tags: '피어세션'
---
211021 피어세션
===
- 기록자 :
- 오늘의 한마디
진행 해야 될 것
---
- TodoList 리마인더
질문 정리
---
피어세션 진행
---
- Todo
- 동규님 : 강의 마무리. 그리고 좋은 노랫소리
- 석민님 : T5 GPU로 올리는거 실패, 테트리스
- 재혁님 : 꾸준한 운동, 리트리버 관련 작업
- 은진님 : T5 학습중, 토크나이징 부분에서 문제 있었는데 해결했음, 방법론 조사 계획, 오늘,내일 주간 학습정리 할 예정
- 종현님 : augmentation 데이터 생성 중, 서버가 끊기는 문제가 있어서 중간중간 pickle 파일로 저장 중, 데이터 보다보니 전처리 해줘야 할 것 같아서 학습 데이터랑 위키 데이터 전처리 해야할 듯.
- 태현님 : 9, 10강 강의 수강, 알고리즘 문제 푸는 중,
- 채원님 : 학습정리, 방법론조사(오피스아워 링크)
- T5 모델 학습에서 tokenizer 문제
- 결론 : 그냥 지문이 길 경우에 짤려서 학습함
- 그러한 데이터들 제외하고 학습해야 함
- 데이터 전처리 방법 참고
- https://arxiv.org/pdf/2105.09680.pdf
- top-k 만큼 문서를 가져오고 이어붙인다. => 베이스라인 코드의 방법
- Augmentation idea
- train 데이터셋이 가지고 있는 문장을 서로 합쳐서 새로운 긴 문장을 만들어서 사용
내일 까지 계획
---
- 앞으로의 대회 진행 계획
- retrieval 구현
- wiki_docs 전처리
- retrieval 포함한 baseline code 개선
- augmentation 실험 결과 비교
- korquad 기반으로 pre-train 모델 만들기