--- tags: '피어세션' --- 211201 피어세션 === - 기록자 : - 오늘의 한마디 진행 해야 될 것 --- - TodoList 리마인더 - 논문 스터디 질문 정리 --- 피어세션 진행 --- - Todo - 동규님: GPT2 논문 읽음, 최적화 괜찮은 모델을 찾아서 train.py로 돌려놓음, 저녁에 최종 프로젝트 코드 작성 예정 - 석민님: gpt2 논문 읽음, klue 때 gpt 강의 다시 들어봄, gpt2 어렵 ㅠ - 태현님: gpt2 논문 읽음, 최종 프로젝트에 사용할 데이터 살펴봄, 알고리즘 1문제 해결. - 은진님: 최적화 코드 살펴봄 + 돌려놓음, gpt2 논문 읽으면서 추가로 강의 찾아서 들음. - 채원님: 최적화 강의, GPT2논문 읽는데 시간소비. 피어세션 끝나고 알고리즘 풀 예정. - 종현님: 알고리즘 풀이, Early Stopping 구현 but 아직 푸쉬 전, 최적화 강의, 밤에 GPT2 논문 볼 예정 - 면접 질문 - 요즘 Sigmoid 보다 ReLU를 많이 쓰는데 그 이유는? : sigmoid는 gradient vanishing 문제가 있기 때문, sigmoid의 도함수는 최대가 0에서 0.25인 것이기 때문에 계속 연산 될 때 gradient 소실이 일어남 - Non-Linearity라는 말의 의미와 그 필요성은? : 선형 함수만으로 여러 레이어를 쌓으면 그대로 선형함수이기 때문에 깊이가 의미 없어지고, 복잡한 문제를 풀 수 없다 - ReLU로 어떻게 곡선 함수를 근사하나? : - ReLU의 문제점은? : 0보다 작은 activation값에 대해서는 모두 동일하게 0으로 처리한다는 것 - Bias는 왜 있는걸까? : - Gradient Descent에 대해서 쉽게 설명한다면? : - 왜 꼭 Gradient를 써야 할까? 그 그래프에서 가로축과 세로축 각각은 무엇인가? 실제 상황에서는 그 그래프가 어떻게 그려질까? : - GD 중에 때때로 Loss가 증가하는 이유는? : - 중학생이 이해할 수 있게 더 쉽게 설명 한다면? : 오르막 내리막길 - Back Propagation에 대해서 쉽게 설명 한다면? : Back Propagation 역전파, 이 개념을 이해하기 위해서는 순전파의 개념을 알아야 한다. 예시로 가장 간단하게 x => w1 => w2 => y 로 가정한다. 순전파는 x를 넣었을때 y를 계산하는 과정이다. w1, w2 두번을 거치고 진행이 된다. 역전파는 y를 이용해서 x까지 가면서 gw1, gw2를 얻는 과정이다. 즉 순전파는 w1과 w2의 값을 이용하는 과정이고, 역전파는 w1과 w2의 기울기를 아는 과정이다. - Local Minima 문제에도 불구하고 딥러닝이 잘 되는 이유는? : Local Minima이 존재할 확률이 비교적 적어서 , 고차원으로 가면 local minima에서 흘러나올 수 있는 확률이 커져서 - GD가 Local Minima 문제를 피하는 방법은? : - 찾은 해가 Global Minimum인지 아닌지 알 수 있는 방법은? : - GPT-2 논문 질문 - 1페이지 - abstract에서 underfitting(but still underfits WebText)의 의미? - 더 성능이 좋아질 여지가 있다? - 2페이지 - Multitask learning이란? - objective가 여러개인 것 - 한 번에 여러 task를 동시에 학습 - architectural level, algorithmic level의 의미 - architectural은 구조의 변형으로, algorithmic의 경우 학습 할 때 구조가 아닌 학습 방법을 바꾸는 방법 - inner와 outer 방식의 차이? - 3페이지 - 일단 생략 - 4페이지 - Byte level? - Byte level에서는 Pre-processing이 필요없는이유? (3.1 에 Since our model operates on a byte level and does not require lossy pre-processing or tokenization) - We scale the weights of residual layers at initialization ~~ 문장에서 residual layer란? - 5페이지 - invertible de-tokenizers란? 내일 까지 계획 --- - 내일 스크럼 불참 예정! - 채원님