# [2021-12-10] Dr. Chun-Yi Lee, National Tsing Hua University, "Virtual-to-Real Transfer for Intelligent Robotics" 智慧型機器人結合深度學習,機器人要結合CV和control的model,現今更是關注Virtual to real training,如何optimize Perception and control是機器人深度學習之關鍵。今日的主題為Intelligent and robotic,包含了Deep reinforcement learning, Parallel embedding system and Parallel computing等,由於自駕車當紅,學界業界都在關注! 在Virtual to real learning上,通常train機器人在virtual world,但virtual和real world不太像,有domain gap,克服之才能有virtual to real training的好處,可以快速不花錢的train!那Domain gap如何克服?光影質地顏色皆不同,常見方法為domain adaption,target domain做fine tune,或用meta learning方式,甚至使用adversarial model。另有一批人使用domain randomization,在training 使用augmentation;也有人使用domain transfer,如self-supervised learning;最後我們使用intermediate representation,如semantic segmentation等,橋接source and target domain。 如何做到intermediate representation,training階段會轉換成semantic segmentation,會使二圖相似,在training和執行階段就會變得差不多。 RGB image轉成semantic segmentation for RL learning,亦可使用深度圖等,當作兩domain的橋樑,甚至可以更改semantic segmentation,以更改robot的行為,例如添加障礙物,甚至可以做導航,例如吃到球會有reward,就可以做到虛擬導航的效果。 Virtual to real transfer learning,有RGB images,經過perception model,得到semantic segmentation。而Localization model通常使用slam,告訴機器人現在的位置。此外,Training stage 我們使用reinforcement learning,可以同時做parallel training,以避免overfit on environment。 視覺上的domain gap也是一大挑戰,semantic segmentation也有gaps,例如不同的國家的路景,且還要做semantic labelling,會花非常多時間,如何做UDA,使source domain transfer to target domain上,在target domain無label時也表現得好,通常採用pseudo-labelling,生成一些假label一起train,結果甚至會好於單用source domain model,要如何找好的pseudo label也是大問題,通常使用剪貼法等。 Unsupervised Domain Adaption方法在target domain表現不同,不同training方法使結果不同,有些方法適用於不同的class,如何聚集大家的優點,使用ensemble法,把pseudo-label合併之,便能超越所有model。選擇各model擅長的output來合併,用fused label來train model有機會比所有model好,目前可以到達60幾%。因此Control和perception都要做UDA,使之能避障與導航。 Semantic segmentation只有語意,沒有遠近與速度,對於控制上仍有大問題,如何加入其他種intermediate representation,並可以cross domain,例如使用深度圖、optical flow(像素的位移、速度圖)等,加入這些知識會更有幫助,而切虛擬世界的好處便是可以產生這些representation images,且非常精確。 避障與導航外,intermediate representation也可以用於移動軌跡的預測,可以combine representation以及attention等方法,就可以使用純視覺達到同樣的目的。 Optical flow也可以幫助訓練reinforcement learning,agent吃reward得value function,有些環境不易得reward,因此鼓勵agent做exploration以取得rewards,或使用intrinsic reward,使agent有內在動機,鼓勵agent在不熟悉的環境取得reward,也可以用於novelty estimator,map出熟不熟悉的環境。 Optical flow如何更進一步提取information,有自體移動與外界移動,反推兩者的移動量,以取得速度等。 RL訓練也有很多方法,含inverse dynamic model,預測中間的移動量為何,用另一個RL agent來故意蒐集不好train的東西,使之越練越好,像是對抗視訊量的方式,可以用於demo給robot看。 RL agent訓練可以用diversity trigger法,使agent去探索未知環境,如episode greedy, model noise, entropy term等,我們也用暴力法,強迫agent去走之前行為的反向以探索環境,使RL更有機會learn起來。 實體機器人上有電力和運算能力的考量,如何減低inference cost,使耗電量降低,可以使用hierarchical reinforcement learning,以環境決定使用的policy,動態決定使用哪種policy,例如在沙漠上,就可以用小model,以minimize cost and maximize return,也有用在其他用途,判斷現在的情境是否safe,不safe就用保守的policy去evaluate。 Multi agent reinforcement learning,多機器人協同合作,通常使用星海爭霸,讓機器人控兵以適當進退,有global value function,分到不同agent以讓其知道individual value function,使用mixing network,讓agent依此學習。 最近distribution RL,可以使value function return distribution,使learning結果更精確,在劣勢情況下得到勝利。 今日提及Control part, CV part,兩者的domain gap的克服,使用intermediate representation for control part,使用UDA來做adaption,也可以combine segmentation/深度/optical flow等圖,來使結果更好,而如何combine,使機器人能真的用得上,使transfer optimization,能在真實世界也跑得好,適應在真實環境也是目前最大的問題。 ## Note ### The note I write is totally summarized version of speaker with minor my opinion. The citation is described below. ## Citation ### Topic: Virtual-to-Real Transfer for Intelligent Robotics ### Speaker: Dr. Chun-Yi Lee