# 10.18일 피어세션 [![hackmd-github-sync-badge](https://hackmd.io/bIinvMyyS_6ik-mDWUa5WA/badge)](https://hackmd.io/bIinvMyyS_6ik-mDWUa5WA) ###### tags: `peer-session` ## 논문 발표 ### 송민재 - Retriever 검증 - 현재 topk를 사용할 경우 k개의 문서가 전부 합쳐짐 - accuracy를 비교해주는 ipynb를 만듬 - Dense Passage Retrieval for Open-Domain Question Answering https://www.notion.so/211018-retriever-4d1e7ab0be564d2993df54a081da1442 ### 나요한 - sparse vs dense representation - sparse와 dense가 무엇이 다른가?! ### 백재형 - RAG 개인 블로그에 자료 올릴 예정 Encoder와 Generator는 동시에 학습되고 Document는 이미 학습되어서 나온다. DPR retrieval을 직접 구현해야함 SKT의 KoBART 모델을 seq2seq로 사용 Encoder는 BERT의 encoder를 사용 - DPR - 구현: 3가지 방법 - BM25 구현 - 각종 하이퍼 파라미터 - 리트리버 validation - RAG - DPR 그대로 사용 - Token 방식, sentence 방식 - 민재님의 날카로운 의견 - DPR에서 accuracy을 구할 때 answer span이 있는 답은 전부 다 TP로 여긴다. 질문: 백재형은 몇살인가? - pasage1: 백재형은 19살이다. - passage2: 송민재는 19살이다. - 원하는 답:19살 - 그런데 passage2에도 19살이 있어서 TP로 여김. ### 한진 - MRC survey 논문 - History - Task - Datasets - Metric - Accuracy, EM - Precision, Recall, F1 (token-level, question-level) - ROUGE - BELU - Meteor - HEQ - EDA - Data Augmentation KorQuad와 비교 육하원칙 (why, how, what, when, where, who) 별로 데이터 개수 파악하기 -> why, how의 질문 개수가 가장 적었다.