피어세션
level3 팀 회고
활동 점수 (100점 만점)
T2001_강석민(90점): 이번주는 널널해서 깊게 공부할 수 있었다.
T2015_김강민(88점): 이해가 되지 않은 강의를 여러번 들어볼려고 노력함 아직 이해가 되지 않는 것들은 추석기간 동안 채워 볼 예정
T2087_박성호(60점): 강의에 대한 이해도가 떨어져서 복습을 너무 많이 했다. LaTex를 똑똑하게 써보자.
T2178_이홍규( -1 * exp(20)점): 할 때는 많이 힘들었는데 어찌저찌 클리어하고나니 오히려 재밌는 거 같았다. 팀원들에게 민폐를 너무 많이 끼쳐서 죄송스럽다...
포지셔널 인코딩에서 왜 Sin, Cos를 쓰는가?
주기의 규칙성이 일정해서 유니크한 위치를 구할 수 있다.
왜 Post-Layer Normalization이 문제가 되는가?
아직 논쟁중(진명훈님 강의 중, 이유경 멘토님 답변)
Transformer에서 Gradient Vanishing
seokomin changed 4 years agoView mode Like Bookmark
질문 꾸러미 (개인당 2개 필수)
BERT에서 classsification 문제를 풀 때 CLS토큰의 마지막 레이어를 이용해 그 위에 linear layer을 붙여 푼다고 했는데 SEP토큰만 써서 풀 수 있지 아닐지? 마지막이 아닌 CLS를 따로 두는 걸까요? / BERT의 CLS token: 왜 여기로 정보가 집중(?)될까? (Classification을 왜 얘 가지고 만 하지?)
참고자료
GPT2에서 Few shot을 통해 성능향상을 이뤘다고 하는데 모든 training 이 few shot이 아닌지??
few shot으로 성능향상이 이룬게 아닌, zero-shor, one-shot, few-shot중 few-shot이 가장 성능이 좋다는 설명
GPT & BERT 정리
멘토링 답변 토론
학습 목표 - 각 질문에 답하면서 깊게 공부하기
ELMO가 등장하게 된 배경은?
GPT와 BERT가 기존 트랜스포머와 차이점은?
GPT-1 에 추가 된 기능은 무엇인가?
기존 GPT-1과 BERT의 차이점은?
BERT의 토크나이저 방법
피어세션
level3 팀 회고
max_pad_len에 관한 토론
활동 점수 (100점 만점)
T2001_강석민(90점): 설명을 잘해주시고, 자기주도학습이 많이 주어져서 좋았다. 그러나 강의에서 나온 세세한 부분은 깊은 설명이 부족하여 강의수를 늘리더라도 좀 더 자세한 설명이 있다면 좋겠다.
T2015_김강민(80점): 백신을 맞아서 몸이 아파 많이 참여가 어려웠지만 이론강의와 과제를 최대한 진도에 맞출려고 했다. BLEU에 대한 이해와 LSTM의 backpropagation과정을 좀 더 깊게 이해하고 싶다.
T2087_박성호(80점): torch.multinomial 관련 부분이 궁금해서 멘토님께 여쭤봤는데 제대로 해결을 못했다. 관련 공부를 더 해보고 다시 질문을 드려야겠다. 블로그 포스팅을 잘 해서 뿌듯.
seokomin changed 4 years agoView mode Like Bookmark
필수 과제 2번 RNN 모듈을 학습할 때, optimizer를 따로 사용하지 않고, grad를 더해주는 방식을 사용한 이유가 있을까요?
멘토님도 출제자의 의도가 궁금하다
github1s.com 링크로 들어가면 vs Code처럼 볼 수 있다.
밑바닥 부터 시작하는 딥러닝 3 -> 프레임워크의 원리를 알려준다.
출제자에게 질문하기로
logits : 검색해보니 softmax의 역함수 관계라고 하는데 단순히 모델 출력단을 의미하는 단어로 사용하는 단어인지 혹은 특별한 수학적 의미가 있는지 궁금합니다.
과제에서 bptt 사이즈를 선언한 이유