# 09.23 피어세션
###### tags: `peer-session`
## 논문 리뷰
### 요한 님 - ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately) / [ICLR, 2020]
BERT보다 더 학습 속도가 빠르다.
Accuracy 면에서 훨씬 성능이 좋다.
#### 1. Introduction
- Performance
SQuAD 2.0에서 SOTA를 달성함
Generator, Discriminator 구조
Discriminator -> ELECTRA
GAN과 비슷한 방식으로 학습을 진행하지만 다른 점이 존재한다.
Maximum likelihood를 통해서 학습 시킨다.
강화학습을 통해 학습시킨 것은 Maximum likelihood보다 성능이 떨어졌다.
#### 3. Experiments
- GLUE Score - Generator size graph
Discriminator size가 커지면 Score는 상승한다.
Generator size가 Discriminator size보다 커지면 성능이 떨어진다.
ELECTRA의 small, base model 모두 BERT의 small, base 모델보다 성능이 모두 높다.
#### 4. Related Work
- Self-Supervised Pre-trained Model in NLP
#### 5. Conclusion
- Proposed **replaced token detection**
- more compute effienct, better performance in downstream task
#### Question
GAN과 ELECTRA의 차이점에 대한 추가 설명이 필요합니다.
GAN에서는 noise vector를 사용하지 않는다.
수식이 복잡해서 실제 구현에는 어려움이 있을 것으로 예상
Generator: BERT의 방법론을 통해 만들어진 Generator에 discriminator를 추가함
Text에 GAN을 적용하기 어렵기 때문에 Maximum likelihood로 train 한다는 점에서 adversarial 방식이 아니다.
BERT에서 약 15%의 masking을 사용하였는데 masking을 사용하지 않고 generator와 discriminator 형식을 사용한다
---
### 재형 님 - KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning) / [EMNLP, 2019]
#### 1. Contribution: Abstract and Conclusion
- N지선다 문제를 해결
- BERT와 GPT에서는 성능이 잘 나오지 않음
방법
commonsense graph기반 지식 그래프를 구성함
#### 2. Introduciton: Problem Definition
사람에 비해서는 형편 없는 성능이지만, Explainable하다는 데에 의의를 둔다.
- External Knowledge
- 외부 지식 창고를 사용
- Graph 자료 구조를 사용
- Vertice: concept
- Edge: relation
#### 3. Reasoning Flow
3.2.1
개념 간 관계를 강화
- 주변 개념들에서 공통 feature을 파악한다.
- GCN(Graph Conv Net)에서 relation으로 연결된 concept에 대해서 convolution 수행
- average pooling을 적용
- 연결된 개념 노드에 주변 노드의 의미가 서로 중첩되어 저장 됨
- KGE method으로 벡터화
3.2.2
- GCN에서 넘어온 벡터를 받아서 LSTM에 입력
- 각 relation이 순차적으로 진행되기 때문에 시계열 데이터로 판단
- LSTM의 many to one architecture을 사용해서 순차적으로 연결된 relation에 대한 feature representation을 반환함.
3.2.3
- T = question과 symentic 연결관계를 MLP으로 hidden representation으로 mapping
- T와 내적을 통해 LSTM의 결과와 attention을 구함 -> 현재 질문과 답변에 대해 가장 의미가 유사한 논리구조를 weighted sum 한다.
- 주어진 문장 구조에 대한 hidden representation vector s와 내적으로 T의 attention을 구함. 질문과 답변의 concepts에서 가장 유의미한 concept에 대해 weighted sum.
- 두 attention weighted sum을 합친 결과가 graph vector. s는 BERT와 GPT 로부터 pretrained 된 vector.
- 각 질문과 답변 조합을 각각 모델에 넣고 독립적으로 sigmoid. 가장 값 큰 답변 선택.
#### Question
Q. 논문에서 말하는 expalainable이 뭔가요?
A. 기존의 Attention Matrix도 explainable하지만, 해당 논문에서는 단어와 단어사이의 관계를 추가적으로 표현해줍니다.
[기존 방법] 요한이랑 호영이랑 친하데
[제안 방법] 요한이랑 호영이가 스타크래프트를 좋아해서 친해졌다고 해!
---
### 찬미 님 - Listen, Attend and Spell
#### Abstraction
- LAS (Listen, Attend, Spell) model
- 음성을 문자로 변경해주는 neural network
- 기존의 DNN-HMM 모델과 다르다
- 모든 것을 E2E로 학습한다.
- 구성요소
- Listener
- Speller
#### Introduction
- SOTA 음성인식 모델
- 기존 음향모델, 언어모델 ,명사 모델 등 여러 가지 복잡한 구조를 가졌었으나 E2E 방식으로 간소화시킴
#### Model
- LAS model
- 각각의 출력 문자를 이전 문자에 대한 조건부 분포로 모델링
- 음향 신호가 입력으로 들어오면 문자 시퀀스의 조건부 확률을 직접 예측할 수 있기 때문에 모델을 차별화된 E2E로 만들어 줌
- Listener
- Encoder로서 음성 신호를 high level feature로 변환
- BLSTM (Bidirectional LSTM)
- Speller
- Decoder로 attention-based LSTM 변환기 역할을 한다.
#### Performance
- WER가 CLDNN-HMM 방식보다 떨어지지만 WER을 많이 떨어뜨린 점 & E2E로 학습한 점에서 의의를 둔다.
#### Conclusion
- 음향 신호를 직접적으로 문자로 표현해줄 수 있는 LAS를 제안함
- Seq2seq framework를 사용하여 출력 sequence에 대한 조건부 독립 가정을 설정하지 않고 음성 인식이 가능하다.
- 2015년도에 발표된 논문으로써, 딥러닝을 사용한 음성인식 모델의 Base
---
### 민재 님 - TransformersRec4
#### Abstract
단일 Transformer 모델인 XLNet을 사용하였다.
- GPT로 대표되는 Auto-Regressive(AR) 모델과 BERT로 대표되는 Auto-Encoder(AE) 모델의 장점을 합쳤다.
Transformer가 기존 ML, DL 기반 추천시스템에 비해 어떤 성능 차이를 보이는지 알아봄
NLP와 추천시스템과의 연구 및 개발 간격을 좁히기 위함
(빨판 상어 처럼 NLP에서 좋은 것들을 추천 시스템에서 잘 써먹고 있다.)
- 추천시스템에서의 Transformer
- Add side transformation
- Usage of ranking metrics for evaluation
- Temporal incremental training and evaluation
#### Meta Architecture
- Input feature
- Typing Embedding
- Regularization
- Label smoothing의 효과가 제일 좋았다.
- Loss Function
- Incremental training and evaluation
- 일정한 주기로 나눈 뒤 window마다 다시 학습해 새로운 결과를 도출한다.
- 이전 학습에서 바뀐 param들에 대해서 fine tuning을 진행한다.
- Hyperparameter optimization
- Metrics
NDCG(Normalized Discounted Cumulative Gain) 지표를 사용
의문점 -> 다음 클릭을 예측하는 task의 형태에서 순위를 어떻게 매길지?
다음 클릭을 예측하는 횟수를 카운트해서 순위를 매기면 되지 않을까 생각합니다
#### Dataset
Gini index: 뉴스 데이터가 더 높은 인기도 편향을 가지고 있음
InteractionL: 최대 20개의 상호작용에 따라 session을 잘라서 표현
e-commerce는 1일 - 다음 클릭에 큰 영향을 준다.
news data는 1시간 단위로 - 이전 클릭이 다음 클릭에 영향을 크게 주지 않음
#### Result
Experimental Result 질문 3가지(RQ1,2,3)
#### Conclusion
E commerce dataset에서 성능이 크게 향상됨
뉴스 데이터에 대해서는 성능이 크게 증가하지 않음
### Question
Q. n window 마다 pine tuning을 여러번 한다고 했는데, 그렇다면 이것 말고는 다른 pretraining 없이, 이전 과정의 n window의 누적을 pretrain이라고 생각하는게 맞나요?
A. 네. 사람이 좋아하는 선호가 변할 수 있어서 과거 특정 기간 동안의 선호만을 반영한다.