211020 피어세션

--- tags: '피어세션' --- 211020 피어세션 === - 기록자 : - 오늘의 한마디 - 진행 해야 될 것 --- - TodoList 리마인더 - 멘토링 리뷰 질문 정리 --- - T5 요약 모델을 쓰면 필요한 특정 token이 사라져서 정답을 못찾지 않나요? - 요약된 문서 자체를 reader에서 찾는 것이 아니라 요약되 내용을 원본 document를 찾음..? - Sparse가 아닌 Dense를 쓸 때, 활용하려고 만든 모델 피어세션 진행 --- - 멘토님들에게서 얻어갈 수 있는 것들을 얻어가도록 하자! - 멘토링의 아쉬움 - Todo - 채원님: 밀린 강의 듣고, 방법론 조사함. pre-training 된 모델 돌려봣는데 생각보다 성능이 잘나왔다. ko-electra - 종현님: distance super vision. 코드 구현의 어려움에 부딪힘. 오후에 동규님 도움을 받아서 구현해볼 예정 - 태현님: 9강 학습정리 but 못들음, 알고리즘 풀예정. T5 모델 생성 - 동규님: T5논문 훑어보기. 점심 약속으로 칼국수 먹음. 데이터 분리했고, 멘토링이랑 피어세션 들어왔음. - 재혁님: 7시 기상후 다시 취침 => 10시 운동. 엘라스틴했어요. - 은진님: T5 논문 읽어보고 돌려보고 싶어서 special mission을 다시 살펴봤음. Haystack 관련 공부(https://github.com/deepset-ai/haystack), 10강 듣고 정리 - 석민님: sparse retrieval 오류 수정. tagging 하는 거 돌리는 중. T5 요약 모델 만들었음 - elastic search - retriever가 reader에게 문서를 던져 줄 때, 하나만 던져 주는 것이 아니라 상위 10개를 던져주면, reader에서 nearest neighbor search로 가장 적합한 문서 찾아서 정답 찾기 - 아이디어 - reader의 경우 무조건 문서 하나를 골라야 하는가? - bleu score 활용 - 정답 인덱스를 찾고 그 앞뒤로 윈도우 사이즈로 짜르고, 그 외의 것은 네거티브샘플링을 한다. - T5 요약 모델 - pororo 요약 library 써보고 비교 - tensorflow 사용 해서 만들었음 - 데이터셋 나누어서 실험 - train, validation 나누어서 reader 검증 내일 까지 계획 --- - 버그 수정: best_model이 로드가 안된다