--- tags: Knock Knock! Deep Learning --- Day 28 / DL x RL / RL 不只會打電動? === RL 比較知名的應用場合和研究成果大部分都分佈於遊戲、自駕車、和機器人領域。事實上 RL 可以有非常廣的應用,今天就來介紹三篇比較不一樣的 RL 應用,或許更能啟發大家將 RL 使用在自己的任務上。 ## RL for Real-Time Ads Bidding [(Cai et al., 2017) Real-Time Bidding by Reinforcement Learning in Display Advertising](http://www0.cs.ucl.ac.uk/staff/K.Malialis/files/wsdm17.pdf) 當一個使用者進入頁面準備看到廣告時,各個廣告主會開始即時競標這個廣告欄位,競標成功即可投放廣告。一個公司的 real-time ads bidding(廣告即時競價)做得好不好,攸關他們的收入來源,但要做得好背後需要複雜的 algorithm 來達成。 這篇 paper 利用 RL 來進行 real-time ads bidding。Formulation 如下: - Agent:bidding agent。 - Environment:廣告市場和使用者。 - State:對於廣告投放決策有影響的因素,例如預算、使用者資訊等等。 - Action:廣告競標金額。 - Reward:如果競標成功,會損失投放金額,但或許能獲得使用者的點擊。  *—— RL formulation 示意圖。* 當然訓練 environment 會基於歷史 data,否則讓 agent 直接進入市場訓練成本太高。 Paper 中使用 neural network 幫助在 large-scale 的環境中 approximate value function,並使用 model-based learning 來做學習。 最後實驗在兩個 real-world dataset 上,分別超越了 state-of-the-art performance 達 16.7% 和 7.4%,甚至實際放在真實環境中跑,取得了點擊率多 44.7% 的大幅進步。 相信看到這樣的成果,業界肯定都開始請 ads 團隊慢慢導入 RL 了! ## RL for News Recommendation [(Zheng et al., 2018) DRN: A Deep Reinforcement Learning Framework for News Recommendation](http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf) Recommentation system(推薦系統)一直是很多產品很重要的一環。新聞、貼文、影片推薦等等,其實也可以用 RL 來試試。 這篇 paper 用 RL 來改善傳統 news recommendation 中只在乎當下點擊率而不考慮長遠對用戶的影響,或是一再推薦同一篇新聞的毛病。 RL formulation 如下:  *—— RL formulation 示意圖。* Paper 中使用類似 DQN 的架構來訓練,並特別著重有足夠的 exploration 來避免重複推薦同一則新聞,因此除了傳統 $\epsilon$-greedy,還加入了 explore network 來加強 exploration。 最後讓 agent 訓練在 6 個月的新聞推薦互動歷史 data 上,並放在真實環境中跑了 1 個月。兩個階段的點擊率、ranking quality、和多樣程度對比 baseline performance 都超越了不少。 RL 在 recommendation system 這個非常重要的領域越來越受到重視,未來肯定有更多有趣的發展可以期待。 ## RL for Healthcare [(Yauney et al., 2018) Reinforcement Learning with Action-Derived Rewards for Chemotherapy and Clinical Trial Dosing Regimen Selection](https://web.media.mit.edu/~pratiks/mlhc_2018/reinforcement_learning_with_action_derived_rewards_for_chemotherapy_and_clinical_trial_dosing_regimen_selection.pdf) 機器學習在醫療領域通常很難應用,因為 data 可能太私密不易取得或太少不好訓練,有些任務又對精準度要求極高。RL 因為不需要 data 來訓練,或許是個讓機器學習深入醫療領域的好選擇。 這篇 paper 運用 RL 來決定化療和臨床試驗要投入的用藥劑量。Formulation 大致如下: - Agent:假醫生。 - Environment:用現有的 TGI(Tumor Growth Inhibition,腫瘤抑制率)model 來模擬。這個 model 可以預測用藥後腫瘤體積的改變。 - State:病人的 MTD(Mean Tumor Diameter,腫瘤大小)歷史軌跡。 - Action:投藥劑量。Paper 中將劑量 discretize。 - Reward:MTD 大小改變。  *—— RL formulation 示意圖。* Paper 中用了 deep Q-learning 將 model 訓練在不同的醫療限制和目標之下,並將結果跟專業醫生的 policy 比較。結果上來說,在沒有太多限制和額外目標的情況下,policy 效果可以媲美專業醫生。這也表示 RL 是可以用在協助醫療的任務上的。 但這個 model 只能夠媲美而不能超越專業醫師判斷。如此一來其實無法取得患者的信任,不太可能實際運用,只能當作是一個前端的研究結果吧。 在醫療界中,不知道是不是真的有這樣子運用 RL model 在幫助做決策,畢竟如果沒有百分之百的精準度,那麼百分之百會起爭議。但 RL 在醫療界的應用依然是個很有趣的問題,值得對醫療有興趣的人多多探索。 ## 參考資料 1. [Applications of Reinforcement Learning in Real World](https://towardsdatascience.com/applications-of-reinforcement-learning-in-real-world-1a94955bcd12) 2. [10 Real-Life Applications of Reinforcement Learning](https://neptune.ai/blog/reinforcement-learning-applications) 3. [A review of recent reinforcement learning applications to healthcare](https://towardsdatascience.com/a-review-of-recent-reinforcment-learning-applications-to-healthcare-1f8357600407)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up