# 10.28 피어 세션
###### tags: `peer-session`
## 이호영
### 논문 발표
- A Thorough Examination of the CNN daily mail reading comprehension task
https://github.com/nlp-hakdang/paper-is-all-you-need
## 한진
- 데이터에서 리트리버로 넘어갈 때 확인
- Sparse retrieval : 한정되어 있음
- Dense retrieval :
Representation-based Retriever : 강의에서의 DPR
interaction -based retriever : documen의 token양이 많아서 연산량이 많아짐
representation-interaction : 두 개의 장점을 합친 것
* survey 논문 : https://arxiv.org/abs/2101.00774
## 나요한
- QA데이터셋 종류들
- TriviaQA(short answer),
- SQuAD 1.1(ground truth 답안이 많이 존재하는 형태)
- LUKE 시도 중 (QA(SQuAD1.1) Task SOTA)
- huggingface를 통해 활용하려 했으나, 불가능한 형태
- github 소스코드를 활용해 현재 SQuAD 데이터 학습 진행중 -> 추후 대회 데이터셋에 맞게 학습진행
- LUKE 아이디어: entity 추가 삽입(title을 통해서 예측) -> 머신이 이해할 수 있는 Entity-aware Self-attention
- entity를 title로 왜 넣는지?
- 기존에 알던 entity는 사람, 기관, 장소, 날짜, entity를 LUKE모델이 question을 보고 entity를 유추해서 좀더
- Reader 모델 (추천!)
- UnitedQA, LUKE, DilBERT, ProQA, T5(generative)
## 송민재
- 반성
### DPR
- 11epoch top10 : 59%
### DPR + BM25
### BM25 종류바꾸기
### Tokenizer의 영향
### Validset바꾸기
## 홍석진
- Elastic search index settings 구현
- 이를 위한 불용어(stopword)파일 만듬
- 아직 성능을 더 늘릴 수 있는 방법을 찾아보기도 할 것
- (Baseline code에 이식하기) -> 최대한 inference.py code를 건드리지 않고 상속받는 형식이나 class 및 function 형태로 구현
## 정찬미
- 데이터 전처리 argument.py에 넣기
## 백재형
- Reader를 알아보는 중
- topk 문서 분류 : append를 하는 형태(baseline)
- 길이로 EDA해봤는데 평균적으로 700자라서 512의 roberta에도 잘라서 들어가게 된다.
- 합치기까지 하면 더 커짐
- DRQA 논문을 찾아봄 (자르지 않고 따로따로 넣음 잘라도 분리를 해놓음)
- 문서별로 구분을 한다는 것 - 그렇게 바꿔봐야 하나? 싶은 상황
train context를 추가해주는 것도 방법이지 읺을까?