210913 피어세션

--- tags: 'peer-session' --- # 210913 피어세션 - 아프지 말고.., ## 피어세션 진행 - 텍스트 없는 음성처리 - [링크1](https://github.com/pytorch/fairseq/tree/master/examples/textless_nlp/gslm) - [링크2](http://www.aitimes.kr/news/articleView.html?idxno=22445&fbclid=IwAR2g58LTpzTaegObva2wRjUrT8W_A1sGd9KWnWQPZrq9a3_c9TQ7y01lyyI) - [링크3](https://www.marktechpost.com/2021/09/09/facebook-ai-introduces-gslm-generative-spoken-language-model-a-textless-nlp-model-that-breaks-free-completely-of-the-dependence-on-text-for-training/) - 루트 d_k 로 나눠주는 이유? - 정규화를 위함, 아마 d_k를 분산으로 보는 거 같다. - 모든 값이 양수면 상관이 없는데, 음수와 양수가 섞여있으면 그 차이를 줄어준다. - 값이 너무 커짐을 방지하기 위함? - [링크 12p](http://cse.iitkgp.ac.in/~sudeshna/courses/NLP19/Transformer-26-Sep-19.pdf) - Self-Attention과 RNN Sequential Operations 계산 - GPU Core가 무제한임을 가정하고 병렬화를 하면 왜 시간복잡도가 O(1)이 되는가? - 배치사이즈를 무한대로 준거랑 같은원리인가? - GPU Core = 한번에 처리할 수 있는 문제 갯수 - 병렬화를 하면 한번에 처리하는 문제갯수가 많아진다. 하지만 그만큼 GPU Core의 리소스를 많이 먹는다. - 따라서 GPU에 부담을 덜 주기 위해 배치사이즈 만큼 나눠서 직렬화를 시키는 것 같다. - Residual Block - x를 단순히 입력으로 보는 것이 아니라, 이전에 입력한 학습 벡터(word2vec)로 가정하게 된다면, 기존의 학습을 이용하는 가중치 공유 방식 ## 멘토링 질문 정리 - 시간복잡도 - 왜 루트 d_k로 나누는가? - positional encoding, 왜 sin, cos를 사용하는가? - Transformer에서 Gradient vanishing? ## 내일 까지 계획 - 8강까지 듣기(Transformer 2)