---
tags: '피어세션'
---
211201 피어세션
===
- 기록자 :
- 오늘의 한마디
진행 해야 될 것
---
- TodoList 리마인더
- 논문 스터디
질문 정리
---
피어세션 진행
---
- Todo
- 동규님: GPT2 논문 읽음, 최적화 괜찮은 모델을 찾아서 train.py로 돌려놓음, 저녁에 최종 프로젝트 코드 작성 예정
- 석민님: gpt2 논문 읽음, klue 때 gpt 강의 다시 들어봄, gpt2 어렵 ㅠ
- 태현님: gpt2 논문 읽음, 최종 프로젝트에 사용할 데이터 살펴봄, 알고리즘 1문제 해결.
- 은진님: 최적화 코드 살펴봄 + 돌려놓음, gpt2 논문 읽으면서 추가로 강의 찾아서 들음.
- 채원님: 최적화 강의, GPT2논문 읽는데 시간소비. 피어세션 끝나고 알고리즘 풀 예정.
- 종현님: 알고리즘 풀이, Early Stopping 구현 but 아직 푸쉬 전, 최적화 강의, 밤에 GPT2 논문 볼 예정
- 면접 질문
- 요즘 Sigmoid 보다 ReLU를 많이 쓰는데 그 이유는?
: sigmoid는 gradient vanishing 문제가 있기 때문, sigmoid의 도함수는 최대가 0에서 0.25인 것이기 때문에 계속 연산 될 때 gradient 소실이 일어남
- Non-Linearity라는 말의 의미와 그 필요성은?
: 선형 함수만으로 여러 레이어를 쌓으면 그대로 선형함수이기 때문에 깊이가 의미 없어지고, 복잡한 문제를 풀 수 없다
- ReLU로 어떻게 곡선 함수를 근사하나?
:
- ReLU의 문제점은?
: 0보다 작은 activation값에 대해서는 모두 동일하게 0으로 처리한다는 것
- Bias는 왜 있는걸까?
:
- Gradient Descent에 대해서 쉽게 설명한다면?
:
- 왜 꼭 Gradient를 써야 할까? 그 그래프에서 가로축과 세로축 각각은 무엇인가? 실제 상황에서는 그 그래프가 어떻게 그려질까?
:
- GD 중에 때때로 Loss가 증가하는 이유는?
:
- 중학생이 이해할 수 있게 더 쉽게 설명 한다면?
: 오르막 내리막길
- Back Propagation에 대해서 쉽게 설명 한다면?
: Back Propagation 역전파, 이 개념을 이해하기 위해서는 순전파의 개념을 알아야 한다.
예시로 가장 간단하게 x => w1 => w2 => y 로 가정한다.
순전파는 x를 넣었을때 y를 계산하는 과정이다. w1, w2 두번을 거치고 진행이 된다.
역전파는 y를 이용해서 x까지 가면서 gw1, gw2를 얻는 과정이다.
즉 순전파는 w1과 w2의 값을 이용하는 과정이고, 역전파는 w1과 w2의 기울기를 아는 과정이다.
- Local Minima 문제에도 불구하고 딥러닝이 잘 되는 이유는?
: Local Minima이 존재할 확률이 비교적 적어서
, 고차원으로 가면 local minima에서 흘러나올 수 있는 확률이 커져서
- GD가 Local Minima 문제를 피하는 방법은?
:
- 찾은 해가 Global Minimum인지 아닌지 알 수 있는 방법은?
:
- GPT-2 논문 질문
- 1페이지
- abstract에서 underfitting(but still underfits WebText)의 의미?
- 더 성능이 좋아질 여지가 있다?
- 2페이지
- Multitask learning이란?
- objective가 여러개인 것
- 한 번에 여러 task를 동시에 학습
- architectural level, algorithmic level의 의미
- architectural은 구조의 변형으로, algorithmic의 경우 학습 할 때 구조가 아닌 학습 방법을 바꾸는 방법
- inner와 outer 방식의 차이?
- 3페이지
- 일단 생략
- 4페이지
- Byte level?
- Byte level에서는 Pre-processing이 필요없는이유? (3.1 에 Since our model operates on a byte level and does not require lossy pre-processing or tokenization)
- We scale the weights of residual layers at initialization ~~ 문장에서 residual layer란?
- 5페이지
- invertible de-tokenizers란?
내일 까지 계획
---
- 내일 스크럼 불참 예정!
- 채원님