---
tags: 'peer-session'
---
# 210913 피어세션
- 아프지 말고..,
## 피어세션 진행
- 텍스트 없는 음성처리
- [링크1](https://github.com/pytorch/fairseq/tree/master/examples/textless_nlp/gslm)
- [링크2](http://www.aitimes.kr/news/articleView.html?idxno=22445&fbclid=IwAR2g58LTpzTaegObva2wRjUrT8W_A1sGd9KWnWQPZrq9a3_c9TQ7y01lyyI)
- [링크3](https://www.marktechpost.com/2021/09/09/facebook-ai-introduces-gslm-generative-spoken-language-model-a-textless-nlp-model-that-breaks-free-completely-of-the-dependence-on-text-for-training/)
- 루트 d_k 로 나눠주는 이유?
- 정규화를 위함, 아마 d_k를 분산으로 보는 거 같다.
- 모든 값이 양수면 상관이 없는데, 음수와 양수가 섞여있으면 그 차이를 줄어준다.
- 값이 너무 커짐을 방지하기 위함?
- [링크 12p](http://cse.iitkgp.ac.in/~sudeshna/courses/NLP19/Transformer-26-Sep-19.pdf)
- Self-Attention과 RNN Sequential Operations 계산
- GPU Core가 무제한임을 가정하고 병렬화를 하면 왜 시간복잡도가 O(1)이 되는가?
- 배치사이즈를 무한대로 준거랑 같은원리인가?
- GPU Core = 한번에 처리할 수 있는 문제 갯수
- 병렬화를 하면 한번에 처리하는 문제갯수가 많아진다. 하지만 그만큼 GPU Core의 리소스를 많이 먹는다.
- 따라서 GPU에 부담을 덜 주기 위해 배치사이즈 만큼 나눠서 직렬화를 시키는 것 같다.
- Residual Block
- x를 단순히 입력으로 보는 것이 아니라, 이전에 입력한 학습 벡터(word2vec)로 가정하게 된다면, 기존의 학습을 이용하는 가중치 공유 방식
## 멘토링 질문 정리
- 시간복잡도
- 왜 루트 d_k로 나누는가?
- positional encoding, 왜 sin, cos를 사용하는가?
- Transformer에서 Gradient vanishing?
## 내일 까지 계획
- 8강까지 듣기(Transformer 2)