---
tags: '피어세션'
---
211101 피어세션
===
- 기록자 : 은진님
- 오늘의 한마디 :
진행 해야 될 것
---
- TodoList 리마인더
- 런앤런 로고 평가
질문 정리
---
- elastic search top k를 늘리면 어떻게 되는가
- 만약 8번에 답이 있고, topk가 10인데 8이 점수가 가장 높으면 정답을 찾을 수 있음.
하지만 만약에 topk가 15일 때, 점수가 가장 높은 것이 14번째 일 때는, 8이 아닌 14를 택하기 때문에 오답을 찾을 수 있음
- 성능이 더 좋지 않을 수도 있다
피어세션 진행
---
- 로고 평가해주세요

- Todo 공유
- 동규님: How good is tokenizer 논문 읽기, 모델실험을 구경하느라 정확히는 못읽음
- 석민님: 코드정리 깔끔하게 함, LSTM 모듈화 할 예정, Readme 작성하고 Logo 만듦.
- 태현님: 엘라스틱 서치, gen_dataset으로 최종 모델 돌려보자고 했는데 아직, Conv layer freeze한 모델은 LSTM layer와 성능 상의 차이는 많지 않음. 컨디션 되찾기!
- 은진님: 커리큘럼 러닝 실험 결과 확인(생각보다 성능향상이 안보임), 뒷단 layer를 깊게 쌓을려고 시도, input 형식을 바꾸면 성능이 올라가는 부분을 고민->span masking,
- 종현님: DS dataset 구현, 학습할 모델 탐색, GPT-2 관련 내용 정리하고 학습
- 채원님: BART 잘가.. , inference 오류 미해결.. span BART 관련 실험 예정(Span Masking)
- 주말 실험 결과 공유:
- MLM Training: 성능 안 올라감, 학습 시간 오래 걸림
- MLM 먼저 말고, QA이랑 MLM을 같이 학습 중 (현재 EM: 66)
- DPR 구현: 무슨짓을 하던간에 sparse 보다 점수가 안나온다..ㅠㅠ, DATA수가 문제다.
- 생성 모델 T5 인코더로 reader 학습 구현 -> 성능이 너무 차이나게 좋지 않음을 확인
- DS dataset으로 학습: 처음엔 성능이 좋았으나 갈수록 성능이 떨어짐 (negative sampling 때문인가?)
- BART 실험: inference에서 에러 발생
- wiki에 있는 새로운 Token 추가
- MLM 모델 성능이 좋으면 토큰을 추가하려고 했었는데 이렇게 랜덤으로 초기화된 임베딩이 새로 들어가게되면 기존의 UNK로 나올 때보다 안 좋을 수도 있음
- 새로운 Token Embedding을 학습을 해야 효과가 있을 것 같아서 아직 안 했음.
- 석민님이 만드신 새로운 데이터셋으로 학습
- 점점 Score가 낮아짐
- 오히려 Noise로 작용
- 생성된 데이터셋을 조금씩 추가
- NLP에서 Augmentation을 잘 사용하지 않는 이유
- NLP의 경우 Noise가 조금만 추가되어도 의미적인 내용이 완전 달라지는 경향이 있다.
- 예시를 들면 CV의 경우 flip해도 그림이 나타내는 게 같지만, NLP의 경우 순서만 바꾸어도 의미가 완전 달라짐.
- 보통 문법적인 것을 low level, 의미적인 것을 high level에서 학습
- DS(Distant Supervision)
- gen_dataset + DS: 성능이 떨어짐ㅠㅠ
- Hyperparameter Tuning으로도 돌렸는데 안 좋아짐
- 원래 데이터셋 + DS: EM 70정도
- Input 형식 변경
- Padding left
- Span Masking
-
내일 까지 계획
---
- 성능 향상을 위한 시도
- input 변형 방법
- span masking: 채원, 동규
- 질문에만 masking
- 지문에만 masking(정답 제외)
- 둘다 masking
- document에 점수 부여
- elastic search 사용해서 성능 향상 시도
- gen_ds_dataset 전처리로 개선하기
- 리드미 작성하기