10.19 피어 세션

# 10.19 피어 세션 ###### tags: `peer-session` ## 진행사항 ### 홍석진 - EDA Document id mean/max 값 확인 - Elastic search 멘토님 자료, 1기 코드 분석 중 ### 나요한 - Dense Retrieval 코드를 가져왔는데 TF-IDF보다 성능이 좋지 않았다. Negative sample 뽑아온 document가 두 자리 순위권을 가질 정도로 성능이 좋지 않음 - Someone의 첨언 DPR 논문을 참고하면 좋습니다. 전체 문서에 대해서 40 epoch이 걸렸다. 원래 문서 6만 개에서 question embedding 240개 2 epoch(1시간) 전체 문서로 학습시킨다. (passage encoder) - 민재 님의 질문 Baseline에서 full_ds(train+valid)를 사용하고 있는지? 전체 문서 6만개의 embedding은 갖고 있어야할 것 같다. Dense에도 진명훈 님의 retriever 학습 속도를 증가시키는 코드 적용해보기 retrieval의 성능을 파악할 수 있는 metric을 보여줄 수 있으면 좋을 것 - Sparse Retrieval Sparse의 성능이 더 좋게 나왔다. ### 백재형 a.k.a Elastic search 권위자 "18일 오피스아워 이미 다 알고 있는거였다." "껌이었다. 쭈압쭈압" 제가 몇개월 걸려 배운 것을 한시간안에 전달받으셨으니 여러분도 이제 ES을 껌으로 보시면 됩니다. - BM25 roberta-large에 적용 시 점수가 많이 오름 query를 tokenize하는데 2분 30초가 걸림 병렬화 하면 문서가 사라지는 결과가 나와서 하나씩 실행함 multiprocessing를 하지 않거나 tokenize한 문장을 csv로 저장하면 더 빨라질 것 같다. Elastic search의 BM25를 활용하면 속도가 더 빨라질 것이다. ### 송민재 - DPR 코드 수정 중, 완성 이후 aistage 토론과 github에 올릴 예정 설명 추가해주세요... @4HZUfJh-SiWEaPgeVXQNug ### 정찬미 - FAISS 참고 자료 민재 님의 진행 사항에 추가하면 좋을 것 같다. ### 이호영 - Baseline code 분석(aistages 한진님 토론 참고) - Elastic search(석진 님께 질문하면서 진행, BM25는 더 자세히) - Special mission 3의 dense, sparse 리트리버 코드 분석하기 - Reading Wikipedia to Answer Open-Domain Questions 간단정리 (수요일 피어세션 발표)