# 210812 피어세션
## 학습정리 및 토의
### 7장 : RNN의 개념과 LSTM
- 시퀀스 데이터 => 순차적인 데이터로 이전의 데이터를 활용
- RNN의 가장 큰 단점은 학습할수록 과거의 정보가 살아남기 어려움 => vanishing 문제
- LSTM : vanishing / exploding gradient 문제를 해결하기 위해 나옴
- LSTM은 3개의 게이트, 셀스테이트로 구성됨
- Forget gate : 이전의 히든과 인풋값으로 어떤 정보를 셀스테이트에서 제거할지 결정
- Input gate : 이전의 히든과 인풋값으로 어떤 정보를 셀스테이트에 추가할지 결정
- Output gate : 업데이트된 셀스테이트와 인풋데이터를 이용하여 어떤 데이터를 출력할지 결정
- GRU : LSTM과 유사한 역할을 하지만 인풋과 아웃풋이 2개, 셀스테이트를 제거함
### 8장 : Transformer
- 시퀀스 데이터의 순서가 바뀌거나, 종종 비어있다면 LSTM으로 학습이 힘듦 => Transformer
- Transformer에는 Encoder와 Decoder가 존재, Self-Attention을 중요시 봐야함
- Self-Attention
- 한 단어를 3개의 벡터로 나눔 (Query, Keys, Values)
- Score를 구함 - 자신의 Q와 자신과 다른 데이터의 Keys를 내적하여 구함
- Score 벡터를 Key벡터를 통해 정규화
- SoftMax를 거쳐서 attention weights를 구해줌
- SoftMax * Values의 가중치합을 구함
- Multi-headed attention
- Attention을 여러번하고 마지막에 출력값의 차원을 맞춰줌
## 질문 내용
- Feed-Forward => 선형 + ReLU + 선형
- Score => Q와 모든 K값의 각각의 내적
- NLP 분야를 공부할 때, 학부에서는 얼마만큼의 기간동안 공부하나
- 단어 뿐만 아니라 문장 혹은 문단간의 연관성도 볼수 있나
- Thinking이랑 machine간에 연속적인 연관성이 있는건가?
: Thinking machine과 machine Thinking이 다르듯이 sequantial한 특성을 가지고 있다.
- 도메인 선택에 대한 고찰