211101 피어세션

--- tags: '피어세션' --- 211101 피어세션 === - 기록자 : 은진님 - 오늘의 한마디 : 진행 해야 될 것 --- - TodoList 리마인더 - 런앤런 로고 평가 질문 정리 --- - elastic search top k를 늘리면 어떻게 되는가 - 만약 8번에 답이 있고, topk가 10인데 8이 점수가 가장 높으면 정답을 찾을 수 있음. 하지만 만약에 topk가 15일 때, 점수가 가장 높은 것이 14번째 일 때는, 8이 아닌 14를 택하기 때문에 오답을 찾을 수 있음 - 성능이 더 좋지 않을 수도 있다 피어세션 진행 --- - 로고 평가해주세요 ![](https://i.imgur.com/b48hDWD.png) - Todo 공유 - 동규님: How good is tokenizer 논문 읽기, 모델실험을 구경하느라 정확히는 못읽음 - 석민님: 코드정리 깔끔하게 함, LSTM 모듈화 할 예정, Readme 작성하고 Logo 만듦. - 태현님: 엘라스틱 서치, gen_dataset으로 최종 모델 돌려보자고 했는데 아직, Conv layer freeze한 모델은 LSTM layer와 성능 상의 차이는 많지 않음. 컨디션 되찾기! - 은진님: 커리큘럼 러닝 실험 결과 확인(생각보다 성능향상이 안보임), 뒷단 layer를 깊게 쌓을려고 시도, input 형식을 바꾸면 성능이 올라가는 부분을 고민->span masking, - 종현님: DS dataset 구현, 학습할 모델 탐색, GPT-2 관련 내용 정리하고 학습 - 채원님: BART 잘가.. , inference 오류 미해결.. span BART 관련 실험 예정(Span Masking) - 주말 실험 결과 공유: - MLM Training: 성능 안 올라감, 학습 시간 오래 걸림 - MLM 먼저 말고, QA이랑 MLM을 같이 학습 중 (현재 EM: 66) - DPR 구현: 무슨짓을 하던간에 sparse 보다 점수가 안나온다..ㅠㅠ, DATA수가 문제다. - 생성 모델 T5 인코더로 reader 학습 구현 -> 성능이 너무 차이나게 좋지 않음을 확인 - DS dataset으로 학습: 처음엔 성능이 좋았으나 갈수록 성능이 떨어짐 (negative sampling 때문인가?) - BART 실험: inference에서 에러 발생 - wiki에 있는 새로운 Token 추가 - MLM 모델 성능이 좋으면 토큰을 추가하려고 했었는데 이렇게 랜덤으로 초기화된 임베딩이 새로 들어가게되면 기존의 UNK로 나올 때보다 안 좋을 수도 있음 - 새로운 Token Embedding을 학습을 해야 효과가 있을 것 같아서 아직 안 했음. - 석민님이 만드신 새로운 데이터셋으로 학습 - 점점 Score가 낮아짐 - 오히려 Noise로 작용 - 생성된 데이터셋을 조금씩 추가 - NLP에서 Augmentation을 잘 사용하지 않는 이유 - NLP의 경우 Noise가 조금만 추가되어도 의미적인 내용이 완전 달라지는 경향이 있다. - 예시를 들면 CV의 경우 flip해도 그림이 나타내는 게 같지만, NLP의 경우 순서만 바꾸어도 의미가 완전 달라짐. - 보통 문법적인 것을 low level, 의미적인 것을 high level에서 학습 - DS(Distant Supervision) - gen_dataset + DS: 성능이 떨어짐ㅠㅠ - Hyperparameter Tuning으로도 돌렸는데 안 좋아짐 - 원래 데이터셋 + DS: EM 70정도 - Input 형식 변경 - Padding left - Span Masking - 내일 까지 계획 --- - 성능 향상을 위한 시도 - input 변형 방법 - span masking: 채원, 동규 - 질문에만 masking - 지문에만 masking(정답 제외) - 둘다 masking - document에 점수 부여 - elastic search 사용해서 성능 향상 시도 - gen_ds_dataset 전처리로 개선하기 - 리드미 작성하기