---
tags: '피어세션'
---
211012 피어세션
===
- 기록자 :
- 오늘의 한마디
- "더 이상 꿀같은 연휴는 없다..ㅠ"
진행 해야 될 것
---
- TodoList 리마인더
질문 정리
---
- MRC 프로젝트에서 Tokenizer에서 Doc_stride 값을 지정해서 qusetion과 context를 이어붙여 max_length가 넘어간다면 Stride 길이로 오버랩되는 부분의 길이를 지정해서 슬라이딩 시켜서 또 한번 자르는 형태인 것 같은데 구체적으로 동작하는 과정이 이해가 안된다.
피어세션 진행
---
- 주말에 한 일
- 석민님: koaeda 모듈 만듬, 동작은 하는데 이번 과제에서는 쓰기 어려울 것 같다. 웹 관련 공부, 책 읽기 등등
- 태현님: 네이버 코테, 휴식, 동료에 대한 관심을 보임, 랩업 리포트 작성, 알고리즘 풀려고 계획, 시간이 잘 간다.
- 채원님: 시각화 강의, MRC 자료 찾아보기
- 재혁님: 네이버 코테, 주말 드라마 시청, 생일 즐김, 운동, 랩업 리포트 작성
- 종현님: warp-up 리포트 작성, 한강 산책, GPT 논문 정리
- 은진님: 네이버 코테, 양재천 투어, 랩업리포트 작성, 학교 수업 2개정도, MRC 간단히 조사
- MRC 대회 준비 (가능하면 금요일 전까지 !)
- 대회 데이터셋으로 한번 더 pre-train 시키기
- domain distribution, task distribution 고려
- Dataset을 분석하고 어그멘테이션 하기
- 방법론 조사 미리 해두기
- 함께 논문 찾아보고 내용 공유하기
- EDA의 필요성?
- context 텍스트 양 자체가 많고 eda를 하게 되면 오히려 노이즈만 생길 수 도 있다. 맞춤법 검사가 더 필요할 것 같다.
- 데이터 셋이 적기 때문에 우선 데이터 크기 자체를 키우는 게 중요할 것 같다.
- 적절한 전략을 세워서 데이터 크기를 키워보자
- 전 기수 프로젝트 활동 내용 참고
- notion에 정리함
- 역할분담을 하자
- roberta QA 전용 모델 참고
- https://huggingface.co/transformers/model_doc/roberta.html#robertaforquestionanswering
내일 까지 계획
---
- 베이스라인 코드 한번 읽어보기