---
tags: '피어세션'
---
211027 피어세션
===
- 기록자 : 다 같이 :smile_cat:
- 오늘의 한마디
- "바쁘다 바빠 현대사회"
진행 해야 될 것
---
- TodoList 리마인더
질문 정리
---
피어세션 진행
---
- Todo 공유
- 동규님: tokenizer 학습(wiki 데이터 위주로 없는 토큰 확인), roberta MLM으로 학습 예정, tokenizer 학습 시 사용할 수 있는 huggingface의 새로운 기능 공유 예정
- 석민님: 데이터 Augmentation 시도(pororo, konlpy), 데이터증강 코드 업로드 할 예정
- 은진님: early-stopping 기능 추가하여 병합됨, T5 모델 oom 문제 해결중(git generation branch에 올림), T5 인코더만 사용하여 BERT처럼 학습할 수 있는 방법 찾는 중, 네트워크 과목 공부할 예정
- 종현님: 모델 전처리 완료(수정해서 다시 하니까 EM이 1.~점정도 올라감), 위키 전처리 데이터 돌리는 중, Retrieval 코드 구현할 예정
- 태현님: 실험 목표 완료, 결국 roberta-large로?
- (동규님 답변) large 모델이 확실히 성능이 잘 나온다
- 채원님: 치과 다녀옴, Curriculum Learning 논문 읽었음, Roberta 모델 학습을 어떻게 할지 고민중(LSTM, Conv Layer 결과에 효과가 없어서 레이어를 더 깊게 쌓을까 고민중), Bart를 사용해볼 예정
- 재혁님: 건강검진, elastic search docs 찾아봄, retrieval elastic search 성능 문제 해결(config 수정)
- 인덱스 부분 수정해서 성능 올림
- 엘라스틱 서치 최대 성능 15개뽑았을때 90프로정도
- 목표는 95%~
- Multilingual 모델을 Monolingual 모델 성능만큼 내는 법 (논문 자체의 내용은 토크나이저가 모델 성능에 미치는 영향을 분석하기 위해 Multilingual 모델을 Monolingual 모델과 비교하며 다양한 실험을 진행한 논문)
- (동규님) [논문 리뷰 유튜브 링크](https://www.youtube.com/watch?v=bV9WWRyRBt4&t=3s)
- 앞으로는 best model을 남기는 기능을 구현?
- Data Augmentation
- 명사를 출력할 것인가, 년도(Time)를 출력할 것인가, komoran 기준으로 명사 출력하고 다른 형태소 분석기들로 그 명사를 재분석해서 2개 이상으로 나뉘지 않을 경우 고유명사가 아니라 판단 (다른 형태소 분석기가 2개 이상으로 나눠야 고유명사라 판단), 이 방식으로 판단한 명사만 정답 단어로 활용하여 질문을 생성.
- 올바르지 않은 데이터는 데이터증강 후에 전처리 할 예정
- 대략 10개 중 3개 정도의 데이터가 별로 안좋은 데이터인듯.
- 인간지능으로 해결,,
- 시간이 엄청 오래걸림.. 5개 하는데 5분
- 답으로 쓸 명사나 시간이 여러개인 경우 drop(하나만 있는 경우만 채택)
- pororo 쓰면 이상한 에러 고쳐야할 게 있음
- / 를 //로 바꿔주어야 하는 부분이 있음.
- 토크나이저를 <<전처리된 train(질문, context), val(질문, context), wiki(text만)>>에서 새로 학습
- 기존 토크나이저와 얼마나 차이가 나는지 비교하고 학습
- transformer에서 간편하게 하는 기능 제공
- 새로운 토큰을 추가해서 MLM 학습을 하려고 했음
- wiki 포함하면 2분 40초 소요, 미포함의 경우 4초
- 새로운 vocab과 그냥 vocab의 차이는 11417개
- 이상한 문자들은 filtering(SH:한자 SL:외국어, UNKNOWN)
- 필터링하면 만개로 줄어듬
- 이걸 바로 적용할 예정X
- wiki text를 눈을 확인해봤을때 이상한 문자가 포함된 경우가 있음
- 오타인 문자들이 모여서 만들어진 결과거나
- 이상한 단어로만 구성된 위키 데이터가 있거나
- 순차적으로 수를 늘리면서 추가하여 실험할 계획
- MLM training
- 1 epoch만 돌리고 성능 확인할 예정
- answer는 왜 안 넣나요?
- context에 있기 때문에!
- 근데 넣는게 안정적일 것 같다.
- 전처리 변경
- html태그 제거를 위해 <,>안에 있는 것들을 다 없앴는데 -> <<정답>>까지 사라짐
- <,>안에 영어가 들어가있는 것만 제거하는 것으로 변경
- 원래는 개인정보이슈로 없앤다고 배웠는데, 답에 있어서 신문사, 기자이름도 다 살림
- T5, LSTM, Conv layer 붙여서 모델 써보기
- LSTM, Conv
- 결과 자체는 기본 모델과 별로 없었다. (비슷하거나 조금 낮거나)
- 1기 분들 자료에는 레이어를 조금 깊게 쌓았었는데 시도해볼만 한 것 같다.
- mT5, keT5
- keT5는 성능이 별로..(base 모델을 써도 mt5랑 비교했을 때 EM 점수가 20점정도 낮음)
- mT5는 라지 모델을 썼는데 memory 용량이 안됨. 그냥 생 모델로 평가했을때 EM 59~60정도(0.3 epoch 정도 학습..)
- T5 인코더만 써서 Extractive QA 처럼 학습하는 방법 적용해볼 예정
- 그리고 BART 모델을 채원님이 사용해볼 예정
- Curriculum Learning 실험 계획
- 난이도에 대한 판단은 보통 term frequency로 판단하거나 grammer가 얼마나 복잡한지 여부로 판단
- 주로 large-scale 모델에서 많이 사용을 하고, training epoch이 적을 때나 레이블에 노이즈가 있는 경우 효과가 있다고 한다.
- ColBERT 모델도 Retriever 파트에서 적용해볼 수 있는것 같은데 시간 남으면 적용해볼 수 있을듯.
- Prompt-based fine tuning 개념 : fine tuning 시에 최대한 pretraining 단계와 비슷하게 학습을 진행하면 더 좋은 성능을 얻을 수 있다. (https://thegradient.pub/prompting/)
내일 까지 계획
---