211012 피어세션

--- tags: '피어세션' --- 211012 피어세션 === - 기록자 : - 오늘의 한마디 - "더 이상 꿀같은 연휴는 없다..ㅠ" 진행 해야 될 것 --- - TodoList 리마인더 질문 정리 --- - MRC 프로젝트에서 Tokenizer에서 Doc_stride 값을 지정해서 qusetion과 context를 이어붙여 max_length가 넘어간다면 Stride 길이로 오버랩되는 부분의 길이를 지정해서 슬라이딩 시켜서 또 한번 자르는 형태인 것 같은데 구체적으로 동작하는 과정이 이해가 안된다. 피어세션 진행 --- - 주말에 한 일 - 석민님: koaeda 모듈 만듬, 동작은 하는데 이번 과제에서는 쓰기 어려울 것 같다. 웹 관련 공부, 책 읽기 등등 - 태현님: 네이버 코테, 휴식, 동료에 대한 관심을 보임, 랩업 리포트 작성, 알고리즘 풀려고 계획, 시간이 잘 간다. - 채원님: 시각화 강의, MRC 자료 찾아보기 - 재혁님: 네이버 코테, 주말 드라마 시청, 생일 즐김, 운동, 랩업 리포트 작성 - 종현님: warp-up 리포트 작성, 한강 산책, GPT 논문 정리 - 은진님: 네이버 코테, 양재천 투어, 랩업리포트 작성, 학교 수업 2개정도, MRC 간단히 조사 - MRC 대회 준비 (가능하면 금요일 전까지 !) - 대회 데이터셋으로 한번 더 pre-train 시키기 - domain distribution, task distribution 고려 - Dataset을 분석하고 어그멘테이션 하기 - 방법론 조사 미리 해두기 - 함께 논문 찾아보고 내용 공유하기 - EDA의 필요성? - context 텍스트 양 자체가 많고 eda를 하게 되면 오히려 노이즈만 생길 수 도 있다. 맞춤법 검사가 더 필요할 것 같다. - 데이터 셋이 적기 때문에 우선 데이터 크기 자체를 키우는 게 중요할 것 같다. - 적절한 전략을 세워서 데이터 크기를 키워보자 - 전 기수 프로젝트 활동 내용 참고 - notion에 정리함 - 역할분담을 하자 - roberta QA 전용 모델 참고 - https://huggingface.co/transformers/model_doc/roberta.html#robertaforquestionanswering 내일 까지 계획 --- - 베이스라인 코드 한번 읽어보기