# 09.24 피어세션 ###### tags: `peer-session` # 논문 발표 ## ALBERT - 석진 - abstract - 버트: 모델 크기와 모델 크기가 비례함 - 두가지의 parameter reduction 기술로 파라미터 수를 줄임 -> 알버트의 탄생 - introduction - two parameter redution - factorized embedding parameterization - cross layer params sharing - factorized embedding parameterization - 임베딩 차원을 줄임. 굳이 안커도 된다. - practical viewpoint - decomposition해서 reduction 했음 - cross layer params sharing - 같은 파라미터를 사용함=> 성능의 하락이 크지 않음 - 기존의 BERT와 비교했을 때 그래프의 모양이 부드러움 - 부드럽다 => 수렴하는 형태를 가진다. - Inter-sentence coherence loss - BERT의 경우 MLM loss와 NSP를 사용 - ALBERT의 경우 coherence(?)를 고려한 setence-order prediction loss(SOP)를 사용 ### 질문 ``` - 같은 구조에 같은 데이터를 가지고 Layer를 12번 학습하는 것과 12개의 Layer를 학습하는게 어떤차이? - 핵심에 대해 좀더 깊게 공부한다(?) - 블록을 깊게 쌓는 것의 의미? - 파라미터가 공유를 하더라도 지속적으로 input이 달라지게 되 다른 output으로 유도해볼수 있음. ``` <br></br> ## Generative Spoken Language Modeling from Raw Audio - 호영 - Facebook AI Research - Abstract - 라벨 없이 학습시키기 위해서 개발한 모델 - 평가 방식도 논문으로 썼다고 한다!![](https://i.imgur.com/CgqKVsG.png) 1. Discrete auto encoder - 음성을 text label로 3. generative lang model 5. speech decoder lang model - Introduction 목표 : 텍스트나 라벨링 없이 아이가 학습할 때처럼 학습하는 것 -> self supervised learning - 사용자가 정해준 문제와 정답을 pretext task라고 한다... - downstream task에 사용하기 전 unlabeled data을 사용해서 pretraining하는 것을 self supervised learning. - Metrics - ASR: speech 평가 - Encoded Representation: 인코딩 결과를 평가 - Human eval metrics: 사람이 얼마나 이해 가능한지 평가 - MOS, CER, MMOS ### 질문 ``` 1. CPC predictor가 language model 처럼 다른 단어를 예측하는 것인지? 이걸로 self supervised learning을 위한 fake task? - 으로 가는데 페북의 큰그림인것 같다. 2. contrastive loss? 가 siamese network triplet loss와 유사한 원리?![](https://i.imgur.com/rofHxHC.png) - contrastive loss는 절대적인 거리를 고려 - triplet loss 는 상대적인 거리를 고려 - 이렇게 거리를 이용하여 학습하는 로스를 metric learning 3. 해결하려는 문제가 뭐였는지 까먹었어요... - LM을 학습시킬때 텍스트 대신 오디오 데이터로 LM을 학습 - Speech LM / (음성 -> 텍스트) -> 음성 - 지금 당장은 LM이지만 학습시켜 나중에 downstream에 음성으로 4. 음성처리에 관한 전반적인 설명? CPC? Wav2Vec HuBERT - 인코더: Speech 임베딩 모델이 받아들일수 있는 벡터로 바꾸는 과정 ``` <br></br> ## Joint Entity and Relation Extraction with Set Prediction Networks - 한진 - triple: 객체의 관계(sub, relation, obj) - task: 하나의 트리플이 아니라 여러개의 트리플을 찾는다. - 현실: 트리플에 순서가 없어도 된다 -> 이 방법을 제안 BPE를 사용하여 단어를 tokenizing => BERT로 문장을 encoding #### Non-Autoregressive Decoder's input X가 입력 문장, n개의 entity -> 기존의 seq2seq 모델 n은 일반적인 triple 개수보다 큰 상수로 설정 Multi-head Self-Attention은 triple간의 관계를 추출 H_e : BERT 모델의 출력 Entity가 시작하는 부분 끝나는 부분, object가 시작하고 끝나는 부분을 학습함 Multi-head Inter-Attention은 문장의 정보를 추출 softmax #### Bipartite Matching Loss C_match: 예측값과 ground truth값을 연결하는데 소모되는 cost pi는 Hungarian Algorithm을 통해 최적화 -> 링크 첨부 논문에서 발표하는 것은 크게 두 가지 #### Experiment - Research Question - Datasets - Metric - Implement overlapping pattern : 하나의 문장에 다양한 관계가 있는 경우 #### Result 우리 layer가 좋다 짱이다 당시의 SOTA에 비해 좋은 성능을 냈다. Research Question에 대한 답변으로 result를 작성 ### 질문 1. m은 하이퍼 파라미터 인가요? - 그렇다 - m 보다 실제 ground truth relation이 더 많으면 패딩 같이 처리함? 2. bert의 pretraind task 동일? mask 가리기와 다음 문장 예측하기? - 3. 수식(2)에서 i>j로 변경되었는데 이후 정보를 예측하는데 차이가존재? - 4. 인코딩한 벡터와 무엇을 연결? 그냥 target label이랑 비교하면 안되는 건가요 ㅜㅜ - 이 논문의 contribution이 여러 트리플의 순서가 바뀌어도 잘 찾아낼 수 있는 것이다. 그래서 prediction의 어느 위치에서 나올지 몰라도 알수 있게? 하기 위해서 연결함? 5. cost 최적화도 통계적 기반 원리? 그냥 탐색 알고리즘? 통계적 빈도에 따른 가설을 최적화하는 gradient descent? 해석적으로 계산? - [헝가리안 알고리즘](https://gazelle-and-cs.tistory.com/29)은 고전적인 알고리즘이다. 7. RQ3, RQ4가 뭔가요? 8. 화면에 쓰시는게 스타일러스 펜인가요? 설마 마우스?! - 발표자료 만들 때 쓴거는 컴퓨터 타블릿 사용했습니다 허허 - 한진님은 스타일러스 펜도 있다. 10.