피어세션 level3 팀 회고 활동 점수 (100점 만점) T2001_강석민(90점): 이번주는 널널해서 깊게 공부할 수 있었다. T2015_김강민(88점): 이해가 되지 않은 강의를 여러번 들어볼려고 노력함 아직 이해가 되지 않는 것들은 추석기간 동안 채워 볼 예정 T2087_박성호(60점): 강의에 대한 이해도가 떨어져서 복습을 너무 많이 했다. LaTex를 똑똑하게 써보자. T2178_이홍규( -1 * exp(20)점): 할 때는 많이 힘들었는데 어찌저찌 클리어하고나니 오히려 재밌는 거 같았다. 팀원들에게 민폐를 너무 많이 끼쳐서 죄송스럽다...
Sep 17, 2021포지셔널 인코딩에서 왜 Sin, Cos를 쓰는가? 주기의 규칙성이 일정해서 유니크한 위치를 구할 수 있다. 왜 Post-Layer Normalization이 문제가 되는가? 아직 논쟁중(진명훈님 강의 중, 이유경 멘토님 답변) Transformer에서 Gradient Vanishing
Sep 17, 2021질문 꾸러미 (개인당 2개 필수) BERT에서 classsification 문제를 풀 때 CLS토큰의 마지막 레이어를 이용해 그 위에 linear layer을 붙여 푼다고 했는데 SEP토큰만 써서 풀 수 있지 아닐지? 마지막이 아닌 CLS를 따로 두는 걸까요? / BERT의 CLS token: 왜 여기로 정보가 집중(?)될까? (Classification을 왜 얘 가지고 만 하지?) 참고자료 GPT2에서 Few shot을 통해 성능향상을 이뤘다고 하는데 모든 training 이 few shot이 아닌지?? few shot으로 성능향상이 이룬게 아닌, zero-shor, one-shot, few-shot중 few-shot이 가장 성능이 좋다는 설명
Sep 16, 2021GPT & BERT 정리 멘토링 답변 토론 학습 목표 - 각 질문에 답하면서 깊게 공부하기 ELMO가 등장하게 된 배경은? GPT와 BERT가 기존 트랜스포머와 차이점은? GPT-1 에 추가 된 기능은 무엇인가? 기존 GPT-1과 BERT의 차이점은? BERT의 토크나이저 방법
Sep 15, 2021or
By clicking below, you agree to our terms of service.
New to HackMD? Sign up