--- tags: 'peer-session' --- # 210914 피어세션 - 힘내자 아자아자! 다음주 휴가~ ## 피어세션 진행 - 데이터셋 설문은 어떻게? - 이번주 의욕이 많이없다. - 맹스님의 강의 - 스케일링을 왜하는가? => 값이 치솟는 것을 방지, 시원하게 해결은 안됨 - 제안: 이번주 멘토링은 금요일 어떠신가요? - 트랜스폼의 시간복잡도는 GPU성능이 충분하면 왜 O(1)인가? - RNN 같은경우 O(n)인데 여기서 n은 단어 갯수를 의미한다. - Residual layer에서 Add를 사용하는 목적이 기울기 소실방지인데 층이 깊지않는데 굳이 해줘야 할까? 기울기 소실이 일어나긴 할까? ## 멘토링 질문 정리 - 시간복잡도 (Sequential Operation 부분) - 트랜스폼의 시간복잡도는 GPU성능이 충분하면 왜 O(1)인가? - 어텐션 스코어 계산 할 때, 왜 루트 d_k로 나누는가? - d_k의 역할이 뭘까? - positional encoding, 왜 sin, cos를 사용하는가? - 단순 정수의 나열(e.g., 1, 2, 3, 4...)을 사용하면 안될까? - 어떻게 순서가 반영되는건지? 단순히 위치에 따라 unique한 벡터 값을 더해주는 것? - Layer normalization - 과정? - Transformer에서 warm-up이 필수인 이유와 Post-Layer -Normalization 구조가 문제가 되는 이유? - Transformer에서 Gradient vanishing? - 기울기 소실이 일어나긴 할까? - RNN의 경우 sequential의 길이에 비례해서 backpropagation이 길어지고, CNN의 경우 layer가 커질수록 activatino function에 의해서 gradient vanishing이 발생한다. 이러한 경우와는 다르게 어떻게 gradient vanishing이 발생하는가? ## 내일 까지 계획 -