# Elastic Search
문서를 뽑았을 때, 답변(Answer)이 문서 안에 있을 확률을 구해보려 하였다.
- KorQuAD 데이터 셋 특성 상, 문서 안에 답변이 100% 존재해야 하는데, 74% 정도의 정확도를 보였다. (Tokeninzer 미사용)
- Tokenizer를 사용하여 정확도를 다시 비교해볼 계획
# Faiss
Wikipedia Document가 약 50000개 정도 되는데, Faiss를 사용하지 않고 하나의 입력 Query Vector에 대해 50000번 연산했을 때의 속도가 0.1초 미만이었다.
- 굳이 faiss를 사용해야할까에 관한 의문이 있음.
- **한계** : 실제 데이터가 아닌, numpy로 생성한 dummy data로 실험했기 때문에 실제 데이터에 적용해서 accuracy와 running time 등을 비교할 필요가 있음.
# Model
학습된 모델로 Inference를 돌렸는데, 같은 답이 중복되어 나왔다.
- Sparse Retriever가 전부 같은 Passage를 return했기 때문.
- 그래서 민성님은 Retriever를 다시 한 번 살펴보는 중