--- tags: '멘토링' --- 211125 멘토링 === - 면접 질문에 대한 토론 - Gradient Descent를 하는 도중 W 3천만개 전체의 Gradient가 동시에 0이 될 가능성이 어느 정도 있을까요? - 3천만개의 변수가 독립적일 가능성이 희박 - 모든방향에서 0이 될 확률은 매우희박 - GD를 하는 도중 어느 시점에 W 3천만개 중에서 1천만개의 Gradient가 0이었습니다. 하지만 2천만개의 Gradient는 0이 아니었기에 다같이 한번에 2천만개의 W를 조정하였습니다. 즉 GD를 한스텝 실행 하였습니다. 이렇게 조정 한 후에 다시 원래 Gradient가 0이었던 W들의 Gradient를 조사해 보면 그대로 0일까요? - 각각의 변수가 얼마나 독립적인지에 따라 다르다 - 그렇다면, W 3천만개가 동시에 0이될 가능성이 정말 없고, GD는 끊임 없이 실행할 수 있고, W는 계속 계속 영원히 조정 될 수 있는데, 왜 Total Loss는 무한히 줄어들지 않고 어느 시점에 이르면 증가, 감소를 반복 하면서 특정 값 이하로는 떨어지지 않는 듯한 양상을 보이게 될까요? - 각 파라미터가 독립적이지 않으면, 극값과 변곡점이 항상 존재하기 때문에 어느정도 반복이후에는 특정값 이하로 떨어지지 않는다. - 논문 정리 - DAPT => 도메인과 관련되있음 & Task(파인튜닝데이터)와 상관없음 - TAPT => 도메인과 관련 & Task 와 관련 - DAPT는 데이터 양이 많기 때문에 전부 Pretrain하기에는 힘듦 => VAMPIRE을 이용하여 TASK와 관련된 데이터만 추출 - VAMPIRE을 이용하기보단 SentenceBERT를 이용하는 것이 현재 더 좋음 - 결론은 TASK에 대해 Pretrain을 하는것이 성능상 이득이다. 다음 멘토링 준비 ---