# 10.27 피어 세션 250 + 250 = 500
###### tags: `peer-session`
## 송민재
- RoBERTa model
- 9시간이 넘는 학습 이후 남는 건 별로 없었다...
- 석진님의 전처리 코드를 추가해서 진행
- BM25+DPR 코드 - 팀 baseline에 추가해볼 예정
## 나요한
- Reader 모델 탐색 중
- Paperswithcode, huggingface, github 참조 중
- Baseline에 비해서 좋은 성능을 보여주는 모델들의 활용도 찾는 중
- 데이터셋을 csv파일로 변환시켜서 데이터 구조 확인
## 정찬미
- 데이터 전처리 중(복잡한 구조를 가진 데이터가 많음)
* 단어가 나열되어 있는 데이터를 잘라야 하는지 고민 중
* 다양한 실험은 필요할 것 같다!
* 패턴이 없으면 차라리 남기는 것도 방법일 것 같다.
* 데이터 별겨 별거 다 있음. 글. 표. 사진.
* 의견: 리더용 위키 셋이랑 리트리버용 위키셋을 나눠서 하는 아이디어. 어차피 documet id만 동일하게 유지하고 있으면 가능할 것 같다.
## 한진
* 쿼리를 리더와 리트리버로 나누기 시도 중
## 홍석진
- 오피스 아워에서 사용했었던 elasticsearch를 실행하는 것은 완료
- top-k를 잘 추출해낼 시 baseline에 합칠 예정
- 리더보드에서 성능을 올렸던 모델에 대한 설명
## 이호영
- CNN/Daily Mail dataset에 Reading comprehension model 적용한 논문 정리해서 28일 목요일 피어세션에 발표
## 백재형(bro)
- ElasticSearch + BM25
성능이 안 좋다.
-> 토크나이저에서 nori를 사용
rank bm-25는 klue/bert-subword 토크나이저를 사용해서
두개의 호환이 잘 안되는 것 같다.
- DPR을 in batch로 진행하는 부분에서 hard negative 수행해보
- 이후 reader 진행