# 10.19 피어 세션
###### tags: `peer-session`
## 진행사항
### 홍석진
- EDA
Document id mean/max 값 확인
- Elastic search
멘토님 자료, 1기 코드 분석 중
### 나요한
- Dense Retrieval
코드를 가져왔는데 TF-IDF보다 성능이 좋지 않았다.
Negative sample
뽑아온 document가 두 자리 순위권을 가질 정도로 성능이 좋지 않음
- Someone의 첨언
DPR 논문을 참고하면 좋습니다.
전체 문서에 대해서 40 epoch이 걸렸다.
원래 문서 6만 개에서 question embedding
240개
2 epoch(1시간)
전체 문서로 학습시킨다. (passage encoder)
- 민재 님의 질문
Baseline에서 full_ds(train+valid)를 사용하고 있는지?
전체 문서 6만개의 embedding은 갖고 있어야할 것 같다.
Dense에도 진명훈 님의 retriever 학습 속도를 증가시키는 코드 적용해보기
retrieval의 성능을 파악할 수 있는 metric을 보여줄 수 있으면 좋을 것
- Sparse Retrieval
Sparse의 성능이 더 좋게 나왔다.
### 백재형 a.k.a Elastic search 권위자
"18일 오피스아워 이미 다 알고 있는거였다."
"껌이었다. 쭈압쭈압"
제가 몇개월 걸려 배운 것을 한시간안에 전달받으셨으니 여러분도 이제 ES을 껌으로 보시면 됩니다.
- BM25
roberta-large에 적용 시 점수가 많이 오름
query를 tokenize하는데 2분 30초가 걸림
병렬화 하면 문서가 사라지는 결과가 나와서 하나씩 실행함
multiprocessing를 하지 않거나
tokenize한 문장을 csv로 저장하면 더 빨라질 것 같다.
Elastic search의 BM25를 활용하면 속도가 더 빨라질 것이다.
### 송민재
- DPR
코드 수정 중, 완성 이후 aistage 토론과 github에 올릴 예정
설명 추가해주세요... @4HZUfJh-SiWEaPgeVXQNug
### 정찬미
- FAISS 참고 자료
민재 님의 진행 사항에 추가하면 좋을 것 같다.
### 이호영
- Baseline code 분석(aistages 한진님 토론 참고)
- Elastic search(석진 님께 질문하면서 진행, BM25는 더 자세히)
- Special mission 3의 dense, sparse 리트리버 코드 분석하기
- Reading Wikipedia to Answer Open-Domain Questions 간단정리 (수요일 피어세션 발표)