# 09.24 피어세션
###### tags: `peer-session`
# 논문 발표
## ALBERT - 석진
- abstract
- 버트: 모델 크기와 모델 크기가 비례함
- 두가지의 parameter reduction 기술로 파라미터 수를 줄임 -> 알버트의 탄생
- introduction
- two parameter redution
- factorized embedding parameterization
- cross layer params sharing
- factorized embedding parameterization
- 임베딩 차원을 줄임. 굳이 안커도 된다.
- practical viewpoint
- decomposition해서 reduction 했음
- cross layer params sharing
- 같은 파라미터를 사용함=> 성능의 하락이 크지 않음
- 기존의 BERT와 비교했을 때 그래프의 모양이 부드러움
- 부드럽다 => 수렴하는 형태를 가진다.
- Inter-sentence coherence loss
- BERT의 경우 MLM loss와 NSP를 사용
- ALBERT의 경우 coherence(?)를 고려한 setence-order prediction loss(SOP)를 사용
### 질문
```
- 같은 구조에 같은 데이터를 가지고 Layer를 12번 학습하는 것과 12개의 Layer를 학습하는게 어떤차이?
- 핵심에 대해 좀더 깊게 공부한다(?)
- 블록을 깊게 쌓는 것의 의미?
- 파라미터가 공유를 하더라도 지속적으로 input이 달라지게 되 다른 output으로 유도해볼수 있음.
```
<br></br>
## Generative Spoken Language Modeling from Raw Audio - 호영
- Facebook AI Research
- Abstract
- 라벨 없이 학습시키기 위해서 개발한 모델
- 평가 방식도 논문으로 썼다고 한다!
1. Discrete auto encoder
- 음성을 text label로
3. generative lang model
5. speech decoder lang model
- Introduction
목표 : 텍스트나 라벨링 없이 아이가 학습할 때처럼 학습하는 것
-> self supervised learning
- 사용자가 정해준 문제와 정답을 pretext task라고 한다...
- downstream task에 사용하기 전 unlabeled data을 사용해서 pretraining하는 것을 self supervised learning.
- Metrics
- ASR: speech 평가
- Encoded Representation: 인코딩 결과를 평가
- Human eval metrics: 사람이 얼마나 이해 가능한지 평가
- MOS, CER, MMOS
### 질문
```
1. CPC predictor가 language model 처럼 다른 단어를 예측하는 것인지? 이걸로 self supervised learning을 위한 fake task?
- 으로 가는데 페북의 큰그림인것 같다.
2. contrastive loss? 가 siamese network triplet loss와 유사한 원리?
- contrastive loss는 절대적인 거리를 고려
- triplet loss 는 상대적인 거리를 고려
- 이렇게 거리를 이용하여 학습하는 로스를 metric learning
3. 해결하려는 문제가 뭐였는지 까먹었어요...
- LM을 학습시킬때 텍스트 대신 오디오 데이터로 LM을 학습
- Speech LM / (음성 -> 텍스트) -> 음성
- 지금 당장은 LM이지만 학습시켜 나중에 downstream에 음성으로
4. 음성처리에 관한 전반적인 설명? CPC? Wav2Vec HuBERT
- 인코더: Speech 임베딩 모델이 받아들일수 있는 벡터로 바꾸는 과정
```
<br></br>
## Joint Entity and Relation Extraction with Set Prediction Networks - 한진
- triple: 객체의 관계(sub, relation, obj)
- task: 하나의 트리플이 아니라 여러개의 트리플을 찾는다.
- 현실: 트리플에 순서가 없어도 된다 -> 이 방법을 제안
BPE를 사용하여 단어를 tokenizing => BERT로 문장을 encoding
#### Non-Autoregressive Decoder's input
X가 입력 문장, n개의 entity -> 기존의 seq2seq 모델
n은 일반적인 triple 개수보다 큰 상수로 설정
Multi-head Self-Attention은 triple간의 관계를 추출
H_e : BERT 모델의 출력
Entity가 시작하는 부분 끝나는 부분, object가 시작하고 끝나는 부분을 학습함
Multi-head Inter-Attention은 문장의 정보를 추출
softmax
#### Bipartite Matching Loss
C_match: 예측값과 ground truth값을 연결하는데 소모되는 cost
pi는 Hungarian Algorithm을 통해 최적화 -> 링크 첨부
논문에서 발표하는 것은 크게 두 가지
#### Experiment
- Research Question
- Datasets
- Metric
- Implement
overlapping pattern : 하나의 문장에 다양한 관계가 있는 경우
#### Result
우리 layer가 좋다 짱이다
당시의 SOTA에 비해 좋은 성능을 냈다.
Research Question에 대한 답변으로 result를 작성
### 질문
1. m은 하이퍼 파라미터 인가요?
- 그렇다
- m 보다 실제 ground truth relation이 더 많으면 패딩 같이 처리함?
2. bert의 pretraind task 동일? mask 가리기와 다음 문장 예측하기?
-
3. 수식(2)에서 i>j로 변경되었는데 이후 정보를 예측하는데 차이가존재?
-
4. 인코딩한 벡터와 무엇을 연결? 그냥 target label이랑 비교하면 안되는 건가요 ㅜㅜ
- 이 논문의 contribution이 여러 트리플의 순서가 바뀌어도 잘 찾아낼 수 있는 것이다. 그래서 prediction의 어느 위치에서 나올지 몰라도 알수 있게? 하기 위해서 연결함?
5. cost 최적화도 통계적 기반 원리? 그냥 탐색 알고리즘? 통계적 빈도에 따른 가설을 최적화하는 gradient descent? 해석적으로 계산?
- [헝가리안 알고리즘](https://gazelle-and-cs.tistory.com/29)은 고전적인 알고리즘이다.
7. RQ3, RQ4가 뭔가요?
8. 화면에 쓰시는게 스타일러스 펜인가요? 설마 마우스?!
- 발표자료 만들 때 쓴거는 컴퓨터 타블릿 사용했습니다 허허
- 한진님은 스타일러스 펜도 있다.
10.