--- tags: '피어세션' --- 211206 피어세션 === - 기록자 : - 오늘의 한마디 - '인생.. 쉽지 않네' 진행 해야 될 것 --- - TodoList 리마인더 - 킥오프 뭐할지 - 경량화 논문 리뷰 질문 정리 --- - 데이터셋을 부를 때, 속성을 어떻게 할 것인가? - id, title, text, target 으로 설정 - 일단 text: 한국어, target: 번역할 언어로 설정 - 바꿔서 사용 가능 - 데이터 전처리 절차 - 한국어 띄어쓰기를 제거해서 중복을 찾음 - 중복된 한글 데이터를 가지고 있는 한국어-일본어, 한국어-중국어 데이터를 합쳐서 일본어-중국어 데이터셋 만듦 피어세션 진행 --- - Todo - 가볍게 근황 Talk으로 패스 - 최종 프로젝트 - 코드 변경사항 - DataCollator사용 - input_ids, attention_mask 길이가 같아야함 - decoder_input_ids, decoder_attention_mask, labels길이가 같아야 함 - Train 부분은 일부만 변경 - 언어별 모델을 어떤 것을 사용할 것인가? - 디코더 모델, 적당한 사이즈 - 경량화 논문 요약 - 1번: Weight Distillation - 단순히 Teacher Net에서 prediction만을 사용하는 것이 KD - pre-trained 모델의 성능이 입증된 것 처럼 parameter에 더 많은 정보가 담겨 있음 - teacher Net의 parameter 중 일부를 cut off해서 student Net의 parameter 초기화 하면 WD보다 KD가 성능이 더 좋음 (잘못된 접근) - 그래서 teacher Net의 전체 parameter를 다 사용해서 WD 해야 효과가 유의미함 - teacher가 student보다 parameter가 월등이 많은데, 척도나 shape이 달라도 모든 정보를 전달하기 위해 'parameter generator'를 사용해서 전달 - KD 방식 + Parameter Generator (각 층의 Output도 학습하도록) - parameter generator는 weight grouping - 2번: Selective Knowledge Distillation - 모든 데이터가 KD에 좋은 영향을 주는가? - Knowledge Distillation에 좋은 영향만 주는 데이터만 골라서 쓰자! - 그러면 어떻게 데이터를 구분해서 나눌 것인가? - Data Property (데이터 속성) - 문장 길이와 단어 빈도수를 기준으로 - 문장 길이가 길고 빈도수가 낮으면 high - 문장 길이가 짧고 빈도수가 높으면 low - Student Model의 속성 - Word Cross Entropy 사용 - Sentence Cross Entropy 사용 - Teacher Model의 속성 - P golden - 별로 효과가 없었음 - 실험 결과 Word CE 기준으로 데이터 샘플을 나누는 것만 효과가 유의미해 보임 - 3번: Towards Developing a Multilingual and Code-Mixed Visual Question Answering System - VQA text로 KD를 진행했을 때의 실험 - VQA란? - 이미지와 질문이 들어오면 답변이 돌아오는 Task - 영어로 학습한 teacher모델로 multilingual 모델을 KD하는 내용 - 질문과 이미지를 인코딩 하는 모델 각각, 이 두 representation을 섞어서 하나의 feature로 만들어주는 모델 하나, 최종 예측을 수행하는 모델까지 총 4개의 모델 - 4가지 objective => distillation objective를 여러가지로 두는 것 - cls token distillation - object attention distillation - prediction distillation - negative log-likelihood - 우리의 task에 맞춰 쓸거면, objectiv를 다르게 잘 적용해야 할 것 같다 - 내일 까지 계획 --- - 스크럼 까지 적당한 크기의 언어별 디코더 모델 찾아오기! - 한국어 : 종현님 - 영 어 : 채원님 - 일본어 : 석민님, 태현님 - 중국어 : 동규님, 은진님