211018 피어세션

--- tags: '피어세션' --- 211018 피어세션 === - 기록자 : - 오늘의 한마디 - "눈 관리도 틈틈이 하자" 진행 해야 될 것 --- - TodoList 리마인더 질문 정리 --- - tokenizer는 max-length에 맞게 뒷부분이 짤리는가? - tokenizer를 pre-trained로 불러 올 때, token화는 하는 데 max-length 만큼만 모델에 전달됨 - Generation의 형태로 답을 도출하는 경우 평가를 어떻게 하는가? - Text2Text로 input과 output이 나오기 때문에 class로 나누어서 확률로 나오는 것이 아닌 다른 방식 피어세션 진행 --- - Todo 점검 - 재혁님: 운동, 8강 학습정리, 하이브리드 ODQA 방법론 찾아봄, 엘라스틱 서치 공부 - 석민님: 8강 완료, 코드 리펙토링, 트레이너에 하이드라 적용, 추론 방식 최적화 예정, 하이퍼라이미터 레이튠 적용, TF-IDF/BM25 클래스 구현 - 종현님: augmentation 논문 (negative sampling 적용 방법 생각), 저번주 강의, 스페셜 미션이랑 8강 - 태현님: 8강 강의랑 스페셜 미션, 커리큘럼 러닝 방법론 조사, 알고리즘 대비 중, 리팩토링 코드 이해하기 쉽도록 설명 추가 예정. - 채원님: 8강 강의랑 스페셜 미션, 방법론 조사 (span-BERT 모델), - 은진님: 8강 강의, 중간고사 시험 공부, 생성 기반 MRC 모델 조사(T5, BART) - 동규님: train/valid 데이터 셋 분리, 데이터 어그멘테이션 논문, 코드 구현 - Elastic Search - 데이터를 어떻게 넣을 것인지 알려주고, DB에서 Elastic search를 통해서 원하는 부분만 추출해서 가져오는 느낌..? - kibana : 대시보드를 표시해주는 툴 - BM25 - "!pip install rank_bm25" - BM25: corpus tokenizing -> BM25 api 적용해서 손쉽게 사용가능 - token별 빈도수 볼 수 있음 - query와 similarity score가 높은 상위 n개의 document 선택 가능 - sparse 방식은 token 카운트 기반이라 그런지 질문에 있는 단어가 들어있는 지문을 잘 뽑아내지만 그 지문에 정답 단어가 없을 수 있다. -> 그래서 하이브리드로 써야하는가 봄. - Dense에서 negative sampling을 BM25로 가져오는 방식을 이용하자 - QA 성능 향상 아이디어 - faiss 이용 -> 얼마나 중요한 span을 많이 잡아주는가 성능에 중요한 영향을 미칠듯. - 성능이 제일 좋을 것으로 예상되는 후보 - T5 - BART - BART의 경우 한국어 모델이 있지만, T5의 경우 다국어 모델이기 때문에 조금 변형해서 사용해야 함 - 코드 분석 - baseline에서 DPR 평가 부분이 없다 - DPR 모델 중에 huggingface 3버전에 사용할 수 있는 pre-trained 모델이 있다 - Sparse 를 고유명사는 높은점수, 일반명사는 보통점수, 동사는 정규화후 보통점수, 조사나 형용사 부사등은 낮은점수 및 0점 - 역할분담 - 재혁님: 리트리버 ~~왈왈~~ - 석민님: 할거를 찾자 - 동규님, 종현님: negative sampling 더 명확하게, Augmentation 방법론 조사 및 적용 - 채원님: 추출 모델 조사 - 은진님: 리더파트 - 태현님: 프리트레인 모델 생성 내일 까지 계획 --- - Retrieval과 Augmentation을 같이 방법을 계획해서 구현 하면 좋지 않을까..? - Augmentation을 할 때, negative sampling을 합쳐서 만들면 좋은데 - 그 시점에서 BM25 또는 Elastic serach를 사용해서 negative sampling을 합치면 좋을 것 같다 - 3개의 팀으로 나눠서 진행 - Data Augmentation을 전체적으로 정리해서 관리 - Retrieval을 해서 DPR을 써서 학습 - Extraction 모델로 실험결과 확인 후 Generation 모델도 확인