# IVA - Retail Human-Place Interaction > [name=謝朋諺(Adam Hsieh)] > [time=Wed, Apr 17, 2019 3:30 PM] ###### tags: `paper` `IVA` --- ## Understanding Human-Place Interaction from Tracking and Identification of Many Users [論文連結](https://ieeexplore.ieee.org/abstract/document/6614256/references#references) ### 從使用者軌跡中擷取以下資訊 1. 每個用戶在空間中的佔用率 2. 用戶之間的親密關係 3. 有興趣的物件和使用者間共同感興趣的物件 ### 多目標跟蹤和辨識 ![](https://i.imgur.com/tlzAnNw.jpg) * 利用攝影機安裝在高於人身高的牆上,人們可以自由與他人互動以及不定時進出空間,並且不指定入口與出口。 * 由於在真實環境下若純使用攝影機容易會有被遮蔽、光照變化、和人體姿勢以及攝影機解析度的問題,因此本文多加了智慧型手機的加速度 Sensor 作為附加的資訊。 #### 多人追蹤 * 使用 HOG 描述子和 SVM Classifier 檢測頭部來找到人,檢測頭部的好處是較不會像身體部位被遮擋。 :::info :bulb: HOG (Histogram of Oriented Gradient),是一種在 CV 上和影像處理中用來進行物體檢測的特徵描述子,通過計算和統計圖像局部區域的梯度方向直方圖來構成特徵,過去 HOG+SVM 在行人檢測上有相當大的成功。 ::: * 多人跟蹤分為兩部分 * Tracklet Generation * delayed track-level association * 本文中 Tracklet 被定義為兩個連續被檢測 Frame 之間的關聯 * 利用 Farneback 光流法在一對檢測之間計算,並且基於光流的計數生成軌跡。 * 然後基於外觀模型和運動模型將他們與匈牙利算法關聯起來。 #### 多人辨識 * 通過匹配智慧型手機的加速度 Sensor 收集運動模式和多目標跟蹤結果來執行辨識。 * 根據多人追蹤的結果將每個軌跡轉為二進位向量,該向量表示為人員的移動。 * 近物體移動距離必須多於遠處物體才能被宣稱為有移動的動作。 * 最後通過新測的距離數據關聯技術匹配兩個測量的運動模式。 ### 人與場地的互動 #### 空間佔用率 * 通過將地平面劃分為==網格==,並計算用戶對每個網格的訪問次數。 * 計算所有==軌跡 $T$== 或者對於每個已識別出的==行人軌跡 $\tau$== 的訪問次數。 * 根據佔用率的分佈,我們可以測量隨著時間人們對於空間的平均密度,剛好反映了人們的移動趨勢。 * 令 $N(x, y)$ 為網格 $X=(x,y)$ 的佔有密度,並且令 $d_i=(d_x,d_y)$ 為 $\tau$ 的第 $i$ 個檢測位置。 * 考慮到檢測 noise 可以減少誤差,每次檢測都有使用==高斯 Kernal== 來增加佔用密度。 ![](https://i.imgur.com/GQvvebc.png) * 其中 $\sum$ 是對角矩陣,其對角線是定位誤差的方差。 #### 用戶之間的親密關係 * 將 $D$ 表示為兩個用戶互動可能的最大距離。 * 將 $\theta$ 表示為兩個用戶走在一起時的最大距離。 * 假設 $I(u,v)$ 是用戶 $u$ 和 $v$ 利用軌跡 $\tau (u)$ 和 $\tau (v)$ 識別出的親密量。 * 另外讓 $d^u_t$ 和 $d^v_t$ 分別表示在時間點 $t$ 上的位置,如果在時間點 $t$ 中滿足以下條件則 $I(u,v)$ 加 $1$: 1. $||d^u_t - d^v_t|| < D$ 並且他們一直持續站著。 2. 或是 $||d^u_t - d^v_t|| < D$ 並且他們以 $\angle (d^u_t,d^v_t) < \theta$ 在移動,其中 $\angle (d^u_t,d^v_t)$ 是指由 $d^u_t$、$d^u_{t-1}$ 和 $d^v_t$、$d^v_{t-1}$ 的線之夾角。 ==這意味著在相同方向移動或靜止不動的情況下,兩用戶被假定為相互作用。== #### 感興趣和共同感興趣的物件 * 要事先知道空間中物體的位置 * 通過每個用戶花費的時間和與物件的距離來檢測 * 利用佔用密度可以推論出對不同物件的興趣 * 也可以利用親密度找到一組用戶一起有興趣的物件跟地方 ### 實驗 使用 21,848 Frames,12 個場景,最多 8 個移動人員,本文選擇其中兩種情況進行解釋,第一種情況有 1,924 frame 第二種有 1,800 frame,場景包含步行、跑步、跳躍、挑物、談話、吃飯、玩 iPad、在白板上寫字、閱讀書籍。每種情況下有三個用戶攜帶智慧型手機。 #### 空間佔用 ![](https://i.imgur.com/zTitzAL.jpg) * Z 座標代表使用者在空間中佔用的情形,很明顯可以看出人們通常聚在空間的右半部分。 * Person 1、Person 3 有高峰,表示他們在同一地點花了很多時間,Person 2 高峰相對較低,代表他正在移動中,而且他的運動範圍較偏向左側一點。 * 另外最後一個代表沒帶智慧型手機人們的熱力圖,粗略估計右下方可能是入口或出口,因為人們都在那密集後擴散。 * 顧客心理角度來看,第二個人的滿意度極低,因為他在找一個感興趣的地方之前需要長途跋涉。 * 商店利潤角度來看,目前最受歡迎的商品集中在商店右側。 #### 用戶之間親密關係 ![](https://i.imgur.com/nHpPyY9.png) * 親密條件如三個被識別的人隨時間的親密度,Person 1、Person 3 的親密度關係最高,因為他們長時間站在一起。 * 事實上他們正站在白板前討論問題。 * Person 2 在真實影片中的確也正在走來走去沒辦法跟別人累積親密度。 * 親密關係的結果可以作為社會網路分析的一個更強的線索,因為他不單單只是兩人共同出現就好,還考慮了人的移動方向跟運動軌跡來衡量。 #### 感興趣和共同感興趣的物件 ![](https://i.imgur.com/QzIojdj.png) * 在圖二中可以看到感興趣的物件,而大家通常都對書籍感興趣,Person 1 對 Picture 3 有興趣,Person 2 對電腦感興趣,Person 3 對書籍跟 Picture 3 感興趣。 * 也可通過圖 4 的場景佔用度看出大部分的人喜歡會面的地方在哪。 * 可看出 Picture 3 剛好是 Person 1、Person 3 共同感興趣的物件。