# RNNを学んでいるうえでの疑問点、気づき ## シーケンスデータって? 前後関係に意味があるデータ、文章とか ## Nグラム 複数の連続する単語または文字のオーバーラップしたグループのこと ## BoW(Bags-of-Words) バッグ・・トークンの集まりを扱うこと ## Tokenizer重要そう 文字列から特殊な文字を取り除き、データセットにおいて最も出現頻度が高いNこの単語のみを考慮に入れるなど、のいくつかの重要な機能を自動的に実行する ## one-hotハッシュトリック メリット メモリの節約 デメリット ハッシュ衝突が起こる ## 単語埋め込み 密、低次元、データから学習 ## LSTM RNN遠い過去の中間出力を反映するのが難しい →RNNの中でも長い系列に強い(系列内の長期的な相互依存性をモデル化可能)モデルであるのがLSTM ## Clippingは勾配爆発への対処、勾配消失への対処としてはショートカット