---
tags: 'peer-session'
---
# 210914 피어세션
- 힘내자 아자아자! 다음주 휴가~
## 피어세션 진행
- 데이터셋 설문은 어떻게?
- 이번주 의욕이 많이없다.
- 맹스님의 강의
- 스케일링을 왜하는가? => 값이 치솟는 것을 방지, 시원하게 해결은 안됨
- 제안: 이번주 멘토링은 금요일 어떠신가요?
- 트랜스폼의 시간복잡도는 GPU성능이 충분하면 왜 O(1)인가?
- RNN 같은경우 O(n)인데 여기서 n은 단어 갯수를 의미한다.
- Residual layer에서 Add를 사용하는 목적이 기울기 소실방지인데 층이 깊지않는데 굳이 해줘야 할까? 기울기 소실이 일어나긴 할까?
## 멘토링 질문 정리
- 시간복잡도 (Sequential Operation 부분)
- 트랜스폼의 시간복잡도는 GPU성능이 충분하면 왜 O(1)인가?
- 어텐션 스코어 계산 할 때, 왜 루트 d_k로 나누는가?
- d_k의 역할이 뭘까?
- positional encoding, 왜 sin, cos를 사용하는가?
- 단순 정수의 나열(e.g., 1, 2, 3, 4...)을 사용하면 안될까?
- 어떻게 순서가 반영되는건지? 단순히 위치에 따라 unique한 벡터 값을 더해주는 것?
- Layer normalization
- 과정?
- Transformer에서 warm-up이 필수인 이유와 Post-Layer -Normalization 구조가 문제가 되는 이유?
- Transformer에서 Gradient vanishing?
- 기울기 소실이 일어나긴 할까?
- RNN의 경우 sequential의 길이에 비례해서 backpropagation이 길어지고, CNN의 경우 layer가 커질수록 activatino function에 의해서 gradient vanishing이 발생한다. 이러한 경우와는 다르게 어떻게 gradient vanishing이 발생하는가?
## 내일 까지 계획
-