10.28 피어 세션

# 10.28 피어 세션 ###### tags: `peer-session` ## 이호영 ### 논문 발표 - A Thorough Examination of the CNN daily mail reading comprehension task https://github.com/nlp-hakdang/paper-is-all-you-need ## 한진 - 데이터에서 리트리버로 넘어갈 때 확인 - Sparse retrieval : 한정되어 있음 - Dense retrieval : Representation-based Retriever : 강의에서의 DPR interaction -based retriever : documen의 token양이 많아서 연산량이 많아짐 representation-interaction : 두 개의 장점을 합친 것 * survey 논문 : https://arxiv.org/abs/2101.00774 ## 나요한 - QA데이터셋 종류들 - TriviaQA(short answer), - SQuAD 1.1(ground truth 답안이 많이 존재하는 형태) - LUKE 시도 중 (QA(SQuAD1.1) Task SOTA) - huggingface를 통해 활용하려 했으나, 불가능한 형태 - github 소스코드를 활용해 현재 SQuAD 데이터 학습 진행중 -> 추후 대회 데이터셋에 맞게 학습진행 - LUKE 아이디어: entity 추가 삽입(title을 통해서 예측) -> 머신이 이해할 수 있는 Entity-aware Self-attention - entity를 title로 왜 넣는지? - 기존에 알던 entity는 사람, 기관, 장소, 날짜, entity를 LUKE모델이 question을 보고 entity를 유추해서 좀더 - Reader 모델 (추천!) - UnitedQA, LUKE, DilBERT, ProQA, T5(generative) ## 송민재 - 반성 ### DPR - 11epoch top10 : 59% ### DPR + BM25 ### BM25 종류바꾸기 ### Tokenizer의 영향 ### Validset바꾸기 ## 홍석진 - Elastic search index settings 구현 - 이를 위한 불용어(stopword)파일 만듬 - 아직 성능을 더 늘릴 수 있는 방법을 찾아보기도 할 것 - (Baseline code에 이식하기) -> 최대한 inference.py code를 건드리지 않고 상속받는 형식이나 class 및 function 형태로 구현 ## 정찬미 - 데이터 전처리 argument.py에 넣기 ## 백재형 - Reader를 알아보는 중 - topk 문서 분류 : append를 하는 형태(baseline) - 길이로 EDA해봤는데 평균적으로 700자라서 512의 roberta에도 잘라서 들어가게 된다. - 합치기까지 하면 더 커짐 - DRQA 논문을 찾아봄 (자르지 않고 따로따로 넣음 잘라도 분리를 해놓음) - 문서별로 구분을 한다는 것 - 그렇게 바꿔봐야 하나? 싶은 상황 train context를 추가해주는 것도 방법이지 읺을까?