# Reinforcement Learning: day 5 DQN ## DQN Structure ![](https://i.imgur.com/xElwcTv.png) ## Input Image 青い点が都市。白い点が現在いる都市 ![](https://i.imgur.com/gVDJ3RZ.png) 移動すると線を引く。非常に見えにくいが、水色が直前までいた都市 ![](https://i.imgur.com/VUOD3Ut.png) 1 episode の最終形 ![](https://i.imgur.com/WH3eYBT.png) ## 結果 Rewardを色々ためしたが、うまくいかず ![](https://i.imgur.com/dWHZdVq.png) ## 考察だけしてみるが・・・ ![](https://i.imgur.com/j9EzZ8m.png) CNN画像を時系列化してLSTMに突っ込めば、画像の時間発展を考慮した学習が可能。 ただ、これは面倒なのと(そろそろ飽きてきた)ので、方策勾配法に進む予定