# 10.18일 피어세션
[](https://hackmd.io/bIinvMyyS_6ik-mDWUa5WA)
###### tags: `peer-session`
## 논문 발표
### 송민재
- Retriever 검증
- 현재 topk를 사용할 경우 k개의 문서가 전부 합쳐짐
- accuracy를 비교해주는 ipynb를 만듬
- Dense Passage Retrieval for Open-Domain Question Answering
https://www.notion.so/211018-retriever-4d1e7ab0be564d2993df54a081da1442
### 나요한
- sparse vs dense representation
- sparse와 dense가 무엇이 다른가?!
### 백재형
- RAG
개인 블로그에 자료 올릴 예정
Encoder와 Generator는 동시에 학습되고 Document는 이미 학습되어서 나온다.
DPR retrieval을 직접 구현해야함
SKT의 KoBART 모델을 seq2seq로 사용
Encoder는 BERT의 encoder를 사용
- DPR
- 구현: 3가지 방법
- BM25 구현
- 각종 하이퍼 파라미터
- 리트리버 validation
- RAG
- DPR 그대로 사용
- Token 방식, sentence 방식
- 민재님의 날카로운 의견
- DPR에서 accuracy을 구할 때 answer span이 있는 답은 전부 다 TP로 여긴다. 질문: 백재형은 몇살인가?
- pasage1: 백재형은 19살이다.
- passage2: 송민재는 19살이다.
- 원하는 답:19살
- 그런데 passage2에도 19살이 있어서 TP로 여김.
### 한진
- MRC survey 논문
- History
- Task
- Datasets
- Metric
- Accuracy, EM
- Precision, Recall, F1 (token-level, question-level)
- ROUGE
- BELU
- Meteor
- HEQ
- EDA
- Data Augmentation
KorQuad와 비교
육하원칙 (why, how, what, when, where, who) 별로
데이터 개수 파악하기 -> why, how의 질문 개수가 가장 적었다.