10.27 피어 세션 250 + 250 = 500

# 10.27 피어 세션 250 + 250 = 500 ###### tags: `peer-session` ## 송민재 - RoBERTa model - 9시간이 넘는 학습 이후 남는 건 별로 없었다... - 석진님의 전처리 코드를 추가해서 진행 - BM25+DPR 코드 - 팀 baseline에 추가해볼 예정 ## 나요한 - Reader 모델 탐색 중 - Paperswithcode, huggingface, github 참조 중 - Baseline에 비해서 좋은 성능을 보여주는 모델들의 활용도 찾는 중 - 데이터셋을 csv파일로 변환시켜서 데이터 구조 확인 ## 정찬미 - 데이터 전처리 중(복잡한 구조를 가진 데이터가 많음) * 단어가 나열되어 있는 데이터를 잘라야 하는지 고민 중 * 다양한 실험은 필요할 것 같다! * 패턴이 없으면 차라리 남기는 것도 방법일 것 같다. * 데이터 별겨 별거 다 있음. 글. 표. 사진. * 의견: 리더용 위키 셋이랑 리트리버용 위키셋을 나눠서 하는 아이디어. 어차피 documet id만 동일하게 유지하고 있으면 가능할 것 같다. ## 한진 * 쿼리를 리더와 리트리버로 나누기 시도 중 ## 홍석진 - 오피스 아워에서 사용했었던 elasticsearch를 실행하는 것은 완료 - top-k를 잘 추출해낼 시 baseline에 합칠 예정 - 리더보드에서 성능을 올렸던 모델에 대한 설명 ## 이호영 - CNN/Daily Mail dataset에 Reading comprehension model 적용한 논문 정리해서 28일 목요일 피어세션에 발표 ## 백재형(bro) - ElasticSearch + BM25 성능이 안 좋다. -> 토크나이저에서 nori를 사용 rank bm-25는 klue/bert-subword 토크나이저를 사용해서 두개의 호환이 잘 안되는 것 같다. - DPR을 in batch로 진행하는 부분에서 hard negative 수행해보 - 이후 reader 진행