--- tags: 'Mentoring' --- # 210917 멘토링 - 포지셔널 인코딩에서 왜 Sin, Cos를 쓰는가? - 주기의 규칙성이 일정해서 유니크한 위치를 구할 수 있다. - 왜 Post-Layer Normalization이 문제가 되는가? - 아직 논쟁중(진명훈님 강의 중, 이유경 멘토님 답변) - Transformer에서 Gradient Vanishing - 발생하지 않음 - CLS로 정보가 집중되는 이유? - 훈련 상으로 해당 토큰에 넣도록 설정을 해놨기 때문에 - Sentence Order Prediction - 넣지 않으면 점수가 많이 떨어진다. - 이 구문의 필요성은 여전히 논쟁중이다. - Multi head Attention 에서 각 head에 같은 input이 들어가게 되는데 어떻게 다양성을 보장할 수 있을까? - CNN의 필터와 같은 역할로 볼 수 있다(맞는지 여쭤보기) - init가 다르게 설정되기 때문에 다르게 된다. - BERT 8-1-1 => 마스크 - 단어치환 // 왜 이렇게 나누는지? - Masking Rate를 하이퍼 파라미터를 설정해서 가장 좋은 결과가 나온게 8-1-1이다. - 검증의 신뢰성을 높이기 위해, 15% 를 샘플링한 후 8-1-1로 나눈다. - NLP에서는 Augmentation을 잘 안쓴다. - [streamlit](https://dreamlog.tistory.com/597) - paperswithcode - Full stack Deep Learning