###### tags: `外加系統` # 系統 [TOC] ## 判斷流程 接收訊息 -> NLP分析情緒 -> 標記情緒 -> 使用[深度強化學習](#深度強化學習)取得[Q表](#Q表) -> 選擇獎勵值最高的動作 ## 各種動作 1. 針對情緒的直接反應 2. 音樂系統的各種指令 - 播放音樂 - 暫停音樂 - 跳過音樂 - 記錄個人歌單 3. google、youtube搜尋相關訊息 4. 閒聊(使用LSTM,或者是nlp) etc. ## 訓練 要訓練網路,就要有大量的資料 而每筆資料都要有一個標籤(target) 那麼,問題來了 > 要怎麼將資料標上標籤呢? 答案很簡單,使用Q-learning來製造 而這就是後面提到[雙網路結構](#雙網路結構)的原因 總不能在標標籤時,Q還一直改變吧 這樣標出來的結果會很不穩定 ## 深度強化學習 ### 使用深度學習製造Q表 #### 神經網路 > 環境 -> 隱藏層 -> [Q表](#Q表) #### 雙網路結構 > 在一段時間內,負責預測Q表的網路將不會改變。 每個一段時間,外在的Q表會更新為內在持續優化的Q表 用以提升穩定性 詳情,見[訓練](#訓練) ### Q表 在不同環境下,採取不同動作時,會得到的獎勵值
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up