# 09.23 피어세션 ###### tags: `peer-session` ## 논문 리뷰 ### 요한 님 - ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately) / [ICLR, 2020] BERT보다 더 학습 속도가 빠르다. Accuracy 면에서 훨씬 성능이 좋다. #### 1. Introduction - Performance SQuAD 2.0에서 SOTA를 달성함 Generator, Discriminator 구조 Discriminator -> ELECTRA GAN과 비슷한 방식으로 학습을 진행하지만 다른 점이 존재한다. Maximum likelihood를 통해서 학습 시킨다. 강화학습을 통해 학습시킨 것은 Maximum likelihood보다 성능이 떨어졌다. #### 3. Experiments - GLUE Score - Generator size graph Discriminator size가 커지면 Score는 상승한다. Generator size가 Discriminator size보다 커지면 성능이 떨어진다. ELECTRA의 small, base model 모두 BERT의 small, base 모델보다 성능이 모두 높다. #### 4. Related Work - Self-Supervised Pre-trained Model in NLP #### 5. Conclusion - Proposed **replaced token detection** - more compute effienct, better performance in downstream task #### Question GAN과 ELECTRA의 차이점에 대한 추가 설명이 필요합니다. GAN에서는 noise vector를 사용하지 않는다. 수식이 복잡해서 실제 구현에는 어려움이 있을 것으로 예상 Generator: BERT의 방법론을 통해 만들어진 Generator에 discriminator를 추가함 Text에 GAN을 적용하기 어렵기 때문에 Maximum likelihood로 train 한다는 점에서 adversarial 방식이 아니다. BERT에서 약 15%의 masking을 사용하였는데 masking을 사용하지 않고 generator와 discriminator 형식을 사용한다 --- ### 재형 님 - KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning) / [EMNLP, 2019] #### 1. Contribution: Abstract and Conclusion - N지선다 문제를 해결 - BERT와 GPT에서는 성능이 잘 나오지 않음 방법 commonsense graph기반 지식 그래프를 구성함 #### 2. Introduciton: Problem Definition 사람에 비해서는 형편 없는 성능이지만, Explainable하다는 데에 의의를 둔다. - External Knowledge - 외부 지식 창고를 사용 - Graph 자료 구조를 사용 - Vertice: concept - Edge: relation #### 3. Reasoning Flow 3.2.1 개념 간 관계를 강화 - 주변 개념들에서 공통 feature을 파악한다. - GCN(Graph Conv Net)에서 relation으로 연결된 concept에 대해서 convolution 수행 - average pooling을 적용 - 연결된 개념 노드에 주변 노드의 의미가 서로 중첩되어 저장 됨 - KGE method으로 벡터화 3.2.2 - GCN에서 넘어온 벡터를 받아서 LSTM에 입력 - 각 relation이 순차적으로 진행되기 때문에 시계열 데이터로 판단 - LSTM의 many to one architecture을 사용해서 순차적으로 연결된 relation에 대한 feature representation을 반환함. 3.2.3 - T = question과 symentic 연결관계를 MLP으로 hidden representation으로 mapping - T와 내적을 통해 LSTM의 결과와 attention을 구함 -> 현재 질문과 답변에 대해 가장 의미가 유사한 논리구조를 weighted sum 한다. - 주어진 문장 구조에 대한 hidden representation vector s와 내적으로 T의 attention을 구함. 질문과 답변의 concepts에서 가장 유의미한 concept에 대해 weighted sum. - 두 attention weighted sum을 합친 결과가 graph vector. s는 BERT와 GPT 로부터 pretrained 된 vector. - 각 질문과 답변 조합을 각각 모델에 넣고 독립적으로 sigmoid. 가장 값 큰 답변 선택. #### Question Q. 논문에서 말하는 expalainable이 뭔가요? A. 기존의 Attention Matrix도 explainable하지만, 해당 논문에서는 단어와 단어사이의 관계를 추가적으로 표현해줍니다. [기존 방법] 요한이랑 호영이랑 친하데 [제안 방법] 요한이랑 호영이가 스타크래프트를 좋아해서 친해졌다고 해! --- ### 찬미 님 - Listen, Attend and Spell #### Abstraction - LAS (Listen, Attend, Spell) model - 음성을 문자로 변경해주는 neural network - 기존의 DNN-HMM 모델과 다르다 - 모든 것을 E2E로 학습한다. - 구성요소 - Listener - Speller #### Introduction - SOTA 음성인식 모델 - 기존 음향모델, 언어모델 ,명사 모델 등 여러 가지 복잡한 구조를 가졌었으나 E2E 방식으로 간소화시킴 #### Model - LAS model - 각각의 출력 문자를 이전 문자에 대한 조건부 분포로 모델링 - 음향 신호가 입력으로 들어오면 문자 시퀀스의 조건부 확률을 직접 예측할 수 있기 때문에 모델을 차별화된 E2E로 만들어 줌 - Listener - Encoder로서 음성 신호를 high level feature로 변환 - BLSTM (Bidirectional LSTM) - Speller - Decoder로 attention-based LSTM 변환기 역할을 한다. #### Performance - WER가 CLDNN-HMM 방식보다 떨어지지만 WER을 많이 떨어뜨린 점 & E2E로 학습한 점에서 의의를 둔다. #### Conclusion - 음향 신호를 직접적으로 문자로 표현해줄 수 있는 LAS를 제안함 - Seq2seq framework를 사용하여 출력 sequence에 대한 조건부 독립 가정을 설정하지 않고 음성 인식이 가능하다. - 2015년도에 발표된 논문으로써, 딥러닝을 사용한 음성인식 모델의 Base --- ### 민재 님 - TransformersRec4 #### Abstract 단일 Transformer 모델인 XLNet을 사용하였다. - GPT로 대표되는 Auto-Regressive(AR) 모델과 BERT로 대표되는 Auto-Encoder(AE) 모델의 장점을 합쳤다. Transformer가 기존 ML, DL 기반 추천시스템에 비해 어떤 성능 차이를 보이는지 알아봄 NLP와 추천시스템과의 연구 및 개발 간격을 좁히기 위함 (빨판 상어 처럼 NLP에서 좋은 것들을 추천 시스템에서 잘 써먹고 있다.) - 추천시스템에서의 Transformer - Add side transformation - Usage of ranking metrics for evaluation - Temporal incremental training and evaluation #### Meta Architecture - Input feature - Typing Embedding - Regularization - Label smoothing의 효과가 제일 좋았다. - Loss Function - Incremental training and evaluation - 일정한 주기로 나눈 뒤 window마다 다시 학습해 새로운 결과를 도출한다. - 이전 학습에서 바뀐 param들에 대해서 fine tuning을 진행한다. - Hyperparameter optimization - Metrics NDCG(Normalized Discounted Cumulative Gain) 지표를 사용 의문점 -> 다음 클릭을 예측하는 task의 형태에서 순위를 어떻게 매길지? 다음 클릭을 예측하는 횟수를 카운트해서 순위를 매기면 되지 않을까 생각합니다 #### Dataset Gini index: 뉴스 데이터가 더 높은 인기도 편향을 가지고 있음 InteractionL: 최대 20개의 상호작용에 따라 session을 잘라서 표현 e-commerce는 1일 - 다음 클릭에 큰 영향을 준다. news data는 1시간 단위로 - 이전 클릭이 다음 클릭에 영향을 크게 주지 않음 #### Result Experimental Result 질문 3가지(RQ1,2,3) #### Conclusion E commerce dataset에서 성능이 크게 향상됨 뉴스 데이터에 대해서는 성능이 크게 증가하지 않음 ### Question Q. n window 마다 pine tuning을 여러번 한다고 했는데, 그렇다면 이것 말고는 다른 pretraining 없이, 이전 과정의 n window의 누적을 pretrain이라고 생각하는게 맞나요? A. 네. 사람이 좋아하는 선호가 변할 수 있어서 과거 특정 기간 동안의 선호만을 반영한다.