211103 피어세션

--- tags: '피어세션' --- 211103 피어세션 === - 기록자 : 오동규 - 오늘의 한마디 - 채원님 아이폰 자랑.. 부럽.. 나는 갤럭시 s8인데.. - 재혁님 내일 부서배정! 개발팀 가라 얍! - 데이터 어그멘테이션은 돌고돌아 제자리로.. 진행 해야 될 것 --- - TodoList 리마인더 질문 정리 --- 피어세션 진행 --- - Todo - 석민님: 문서별로 나누어서 질문 받기, 리드미 작성 완료함 - 동규님: 실험 여러개(xlm,roberta 등) -> 제일 잘 나온 모델이 EM 73 (XLM_Roberta_Large_finetuned_korquadv1) - 은진님: 레이어 추가 시도 but 성능이 잘 안나옴, 여러가지 추가를 시도하며 성능을 확인 할 예정 - 채원님: sentence 나눠서 마스킹, 모델 실험 중. 그러나 세이브단계에서 오류 ㅠㅠ. EM 스코어가 왜 잘 안나오는지 분석 예정 - 종현님: DS 문단검색으로 나눈 데이터셋 chunk를 합쳤더니 89000 문장 정도로 나왔고, 질문을 넣었을 때 유사도가 높은 문장들을 추출해서 문단으로 구성. positive/negative example 생성함. 테스트셋 inference 시에 유사도를 반영해서 최종 답을 출력하는 방법 사용하면 좋을듯. - 태현님: XLM 후처리, 모델 새로 학습 (하이퍼파라미터 튜닝), 꾸르잠.. - span masking - 조사 제거 inference - XLM 모델 사용 후 후처리 - DHBaek/xlm-roberta-large-korquad-mask - 모델의 뒷단에 LSTM layer을 붙인 것으로 실험 중 - ikyo팀 후처리 부분을 조금 개선해서 사용 -> 그대로 사용,, 내일 까지 계획 ---