# 210812 피어세션 ## 학습정리 및 토의 ### 7장 : RNN의 개념과 LSTM - 시퀀스 데이터 => 순차적인 데이터로 이전의 데이터를 활용 - RNN의 가장 큰 단점은 학습할수록 과거의 정보가 살아남기 어려움 => vanishing 문제 - LSTM : vanishing / exploding gradient 문제를 해결하기 위해 나옴 - LSTM은 3개의 게이트, 셀스테이트로 구성됨 - Forget gate : 이전의 히든과 인풋값으로 어떤 정보를 셀스테이트에서 제거할지 결정 - Input gate : 이전의 히든과 인풋값으로 어떤 정보를 셀스테이트에 추가할지 결정 - Output gate : 업데이트된 셀스테이트와 인풋데이터를 이용하여 어떤 데이터를 출력할지 결정 - GRU : LSTM과 유사한 역할을 하지만 인풋과 아웃풋이 2개, 셀스테이트를 제거함 ### 8장 : Transformer - 시퀀스 데이터의 순서가 바뀌거나, 종종 비어있다면 LSTM으로 학습이 힘듦 => Transformer - Transformer에는 Encoder와 Decoder가 존재, Self-Attention을 중요시 봐야함 - Self-Attention - 한 단어를 3개의 벡터로 나눔 (Query, Keys, Values) - Score를 구함 - 자신의 Q와 자신과 다른 데이터의 Keys를 내적하여 구함 - Score 벡터를 Key벡터를 통해 정규화 - SoftMax를 거쳐서 attention weights를 구해줌 - SoftMax * Values의 가중치합을 구함 - Multi-headed attention - Attention을 여러번하고 마지막에 출력값의 차원을 맞춰줌 ## 질문 내용 - Feed-Forward => 선형 + ReLU + 선형 - Score => Q와 모든 K값의 각각의 내적 - NLP 분야를 공부할 때, 학부에서는 얼마만큼의 기간동안 공부하나 - 단어 뿐만 아니라 문장 혹은 문단간의 연관성도 볼수 있나 - Thinking이랑 machine간에 연속적인 연관성이 있는건가? : Thinking machine과 machine Thinking이 다르듯이 sequantial한 특성을 가지고 있다. - 도메인 선택에 대한 고찰