An Evaluation of Trajectory Prediction Approaches and Notes on the TrajNet Benchmark


ABSTRACT


近年來,模型化追蹤問題的方法由基於Bayesian formulation(貝氏)轉為深度神經網路。所以本篇評估了多種使用於預測行人未來路徑的深度神經網路。分析上,與傳統方法相同,單純依靠軌跡區段並沒有使用人與人之間互動的訊息
我們證明RED-predictor(Dense層堆疊於Recurrent-Encoder上)可以相較於完善的模型,達到複雜的結果。
此外,調查了錯誤案例,我們嘗試給出解釋其現象及給出對於發現的缺點克服的建議。


Introduction


應用

預測未來可能的路徑,是自動風險評估的基石。其應用遍布很大的範圍,從移動機器人導航(自動駕駛、智慧影像監控轉換為物件追蹤)。


處理模型使用方法

傳統

Kalman filter,
linear3 or Gaussian regression models,
auto-regressive models,
time-series analysis to optimal control theory

網路

deep learning combined with game theory
the application of deep convolutional networks
recurrent neural networks (RNNs) as a sequence generation problem.


資訊提供

群組可以透過連續位置解析視覺追蹤或更多的內文資訊。舉例來說"人人互動"或"人類空間互動",常規上可以視覺解析如行人面向、走向這類資訊。再代表性的模型( Helbing and Moln´ar15 and Coscia et al)會使用像是RNNs的東西來組合。某特定布景中的空間動作的內文(context of motion)規則可以藉由訓練模型來學習,但並不能保證model成功地取得重要的空間點,也無法保證模型只將路徑整合來預測路徑。
此外,提供資訊也分為布景內文(scene context)進一步透過語意化標籤提供或者直接透過場景編碼(scene encoding)。


Trajectory Forecasting Benchmarking (TrajNet 2018)

設計於克服於眾人場景中,人際互動的繼承屬性。World H-H TrajNet 挑戰在人人互動的世界座標平面中的特別樣子,其目的就是找到有效率的基準預測器(baseline predictor)只透過部分的歷史紀錄就可以找大最大化的可能預測準確路徑。要達到這樣的目標,包含要評測不同用於路徑預測的深度神經網路及分析資料及的屬性。此外我們提出一些小的改變及前置處理步驟調整標準RNN預測模型,形成簡單但有效的RNN結構包含與複雜模型相近的效能,還有捕捉人人互動間人際面關係。


目錄

  1. TrajNet benchmark dataset屬性分析
  2. 基本深度網路簡介及評估
  3. 進一步調整架構使其更精準預測
  4. 結論

2. TRAJNET BENCHMARK DATASET ANALYSIS


大部分資料集布景都是鳥瞰,但有些也適用較高的俯視。所選監看的資料集透過真實世界群眾資料情景轉換,細節如上表。


  • BIWI Walking Pedestrians Dataset (ETH Walking Pedestrians (EWAP))
    包含ETH跟Hotel
  • The Crowds dataset (UCY ”Crowds-by-Example”)
    斜視角
    • Zara 購物街道
    • Student Uni Examples
  • Stanford Drone Dataset (SDD)
    多地點的史丹佛大學
  • PETS
    不同室外群眾固定相機紀錄

交叉驗證為常見而且有效的方法,對於TajNet挑戰,透過注入完整的資料集做為測試。因為人的行為獨立於場景且測試方法之常規化能力很合理,況且為提供人人互動基準的方法。
且不提供參考系統及特殊活動的情形下,只靠觀察移動軌跡資訊對於學習時空變異是關鍵。舉例來說,人行道會使行人軌跡有特殊的相依,因為著眼於深度神經網路(含RNN),位置資訊造成之偏移到更高有序之行為使我們克服一些缺點(???)


在RNN成功應用於追蹤行人的監看情境前,因為RNN在演說識別及字幕生成等領域成功獲得了關注。但這些領域與路徑預測不同,位置相依的移動位置並不重要。此外,RNN可以受益於在基於前面偏移之部景獨立動作預測。這樣的看法並不新穎,但利用偏移量真的不只對穩定學習處理也使評估效能提升。



使用預測後效果明顯。左側TrajNet後的資料視覺化,右側原始資料視覺化



顯示資料集x,y偏移量及行人偏好走路力度(速度)


MODELS AND EVALUATION


設定

  • 透過Tensorflow實作
  • 學習率0.005
  • 多種層數(1-5)
  • 隱藏單位(4-64)
  • stochastic gradient descent
    採用FDA跟ADE比較,以公尺為單位,給8個位置(3.2秒)預測12個位置(4.8秒)

測試網路

  • MLP
    • MLP with Linear Activation (= Perception)
    • MLP with non-Linear Activation
  • RNN-MLP
    MLP只用來解碼offsets跟位置
  • RNN-Encoder-MLP
    在輸入RNN前透過Encoder編碼成內部編碼
  • RNN-Encoder-Decoder-Model(Seq2Seq)
  • Temporal Convolutional Networks
    基於WaveNets,常規捲積架構用於序列預測
    • GTCN
      擴展版

測試結論

沒有任何網路明顯地事最優的,因此MLP跟Seq2Seq在測試中的差異很小。然而在資料分析中衍生的因素,顯示預測完整路徑而不是分步預測有助於對於克服因回受給網路造成的錯誤累積。對於TrajNet有固定預測水平,我們更偏好RNN-Encoder-MLP而不使用Seq2Seq。基於RNN的人類姿勢預測中將這樣的問題化簡為Auto Conditioned RNN網路提出使用Seq2Seq網路及一個sampling-based loss。此實驗TCN與RNN結果相似,因為RNN更常見也是model與代表單一動作互動的一部分,所以我們選用RNN-Encoder-MLP為我們喜愛的模型。


RNN-Encoder-MLP -> RED-predictor

根據測試集分析,單人動作我們選用RNN-Encoder-MLP模型。RNN-Encoder可以常規化解決變化有躁輸入,因此更有辦法解決人物動作捕捉相對於線性插值法基準。主要觀點是,動作連續性更易被表達為偏移或速度,因為其花費模型相當多功夫來代表所有可能位置。前置處理在對模型的好表現有顯著影響。

結構

Recurrent-Encoder 上有一個 dense MLP作為RED-predictor。



5. CONCLUSION


評測深度神經網路方法用於軌跡預測。初始結果顯示沒有進一步提供類似人人互動、人際空間互動等信息,基礎網路幾乎都達到相似的結果集中於最高精準度的預測範圍。藉由調整RNN預測模型,我們可以提供簡單有效且與複雜模型可比擬的方法。

Select a repo