---
# System prepended metadata

title: IVA - Retail Human-Place Interaction
tags: [IVA, paper]

---

# IVA - Retail Human-Place Interaction
> [name=謝朋諺(Adam Hsieh)]
> [time=Wed, Apr 17, 2019 3:30 PM]
###### tags: `paper` `IVA` 
---

## Understanding Human-Place Interaction from Tracking and Identification of Many Users
[論文連結](https://ieeexplore.ieee.org/abstract/document/6614256/references#references)

### 從使用者軌跡中擷取以下資訊
1. 每個用戶在空間中的佔用率
2. 用戶之間的親密關係
3. 有興趣的物件和使用者間共同感興趣的物件

### 多目標跟蹤和辨識
![](https://i.imgur.com/tlzAnNw.jpg)

* 利用攝影機安裝在高於人身高的牆上，人們可以自由與他人互動以及不定時進出空間，並且不指定入口與出口。
* 由於在真實環境下若純使用攝影機容易會有被遮蔽、光照變化、和人體姿勢以及攝影機解析度的問題，因此本文多加了智慧型手機的加速度 Sensor 作為附加的資訊。

#### 多人追蹤
* 使用 HOG 描述子和 SVM Classifier 檢測頭部來找到人，檢測頭部的好處是較不會像身體部位被遮擋。
:::info 
:bulb: HOG (Histogram of Oriented Gradient)，是一種在 CV 上和影像處理中用來進行物體檢測的特徵描述子，通過計算和統計圖像局部區域的梯度方向直方圖來構成特徵，過去 HOG+SVM 在行人檢測上有相當大的成功。
:::
* 多人跟蹤分為兩部分
    * Tracklet Generation
    * delayed track-level association
* 本文中 Tracklet 被定義為兩個連續被檢測 Frame 之間的關聯
* 利用 Farneback 光流法在一對檢測之間計算，並且基於光流的計數生成軌跡。
* 然後基於外觀模型和運動模型將他們與匈牙利算法關聯起來。

#### 多人辨識
* 通過匹配智慧型手機的加速度 Sensor 收集運動模式和多目標跟蹤結果來執行辨識。
* 根據多人追蹤的結果將每個軌跡轉為二進位向量，該向量表示為人員的移動。
* 近物體移動距離必須多於遠處物體才能被宣稱為有移動的動作。
* 最後通過新測的距離數據關聯技術匹配兩個測量的運動模式。

### 人與場地的互動
#### 空間佔用率
* 通過將地平面劃分為==網格==，並計算用戶對每個網格的訪問次數。
* 計算所有==軌跡 $T$== 或者對於每個已識別出的==行人軌跡 $\tau$== 的訪問次數。
* 根據佔用率的分佈，我們可以測量隨著時間人們對於空間的平均密度，剛好反映了人們的移動趨勢。
* 令 $N(x, y)$ 為網格 $Ｘ=(x,y)$ 的佔有密度，並且令 $d_i=(d_x,d_y)$ 為 $\tau$ 的第 $i$ 個檢測位置。
* 考慮到檢測 noise 可以減少誤差，每次檢測都有使用==高斯 Kernal== 來增加佔用密度。
![](https://i.imgur.com/GQvvebc.png)
* 其中 $\sum$ 是對角矩陣，其對角線是定位誤差的方差。

#### 用戶之間的親密關係
* 將 $D$ 表示為兩個用戶互動可能的最大距離。
* 將 $\theta$ 表示為兩個用戶走在一起時的最大距離。
* 假設 $I(u,v)$ 是用戶 $u$ 和 $v$ 利用軌跡 $\tau (u)$ 和 $\tau (v)$ 識別出的親密量。
* 另外讓 $d^u_t$ 和 $d^v_t$ 分別表示在時間點 $t$ 上的位置，如果在時間點 $t$ 中滿足以下條件則 $I(u,v)$ 加 $1$：
    1. $||d^u_t - d^v_t|| < D$ 並且他們一直持續站著。
    2. 或是 $||d^u_t - d^v_t|| < D$ 並且他們以 $\angle (d^u_t,d^v_t) < \theta$ 在移動，其中 $\angle (d^u_t,d^v_t)$ 是指由 $d^u_t$、$d^u_{t-1}$ 和 $d^v_t$、$d^v_{t-1}$ 的線之夾角。
==這意味著在相同方向移動或靜止不動的情況下，兩用戶被假定為相互作用。==

#### 感興趣和共同感興趣的物件
* 要事先知道空間中物體的位置
* 通過每個用戶花費的時間和與物件的距離來檢測
* 利用佔用密度可以推論出對不同物件的興趣
* 也可以利用親密度找到一組用戶一起有興趣的物件跟地方

### 實驗
使用 21,848 Frames，12 個場景，最多 8 個移動人員，本文選擇其中兩種情況進行解釋，第一種情況有 1,924 frame 第二種有 1,800 frame，場景包含步行、跑步、跳躍、挑物、談話、吃飯、玩 iPad、在白板上寫字、閱讀書籍。每種情況下有三個用戶攜帶智慧型手機。

#### 空間佔用
![](https://i.imgur.com/zTitzAL.jpg)
* Z 座標代表使用者在空間中佔用的情形，很明顯可以看出人們通常聚在空間的右半部分。
* Person 1、Person 3 有高峰，表示他們在同一地點花了很多時間，Person 2 高峰相對較低，代表他正在移動中，而且他的運動範圍較偏向左側一點。
* 另外最後一個代表沒帶智慧型手機人們的熱力圖，粗略估計右下方可能是入口或出口，因為人們都在那密集後擴散。
* 顧客心理角度來看，第二個人的滿意度極低，因為他在找一個感興趣的地方之前需要長途跋涉。
* 商店利潤角度來看，目前最受歡迎的商品集中在商店右側。

#### 用戶之間親密關係
![](https://i.imgur.com/nHpPyY9.png)

* 親密條件如三個被識別的人隨時間的親密度，Person 1、Person 3 的親密度關係最高，因為他們長時間站在一起。
* 事實上他們正站在白板前討論問題。
* Person 2 在真實影片中的確也正在走來走去沒辦法跟別人累積親密度。
* 親密關係的結果可以作為社會網路分析的一個更強的線索，因為他不單單只是兩人共同出現就好，還考慮了人的移動方向跟運動軌跡來衡量。

#### 感興趣和共同感興趣的物件
![](https://i.imgur.com/QzIojdj.png)

* 在圖二中可以看到感興趣的物件，而大家通常都對書籍感興趣，Person 1 對 Picture 3 有興趣，Person 2 對電腦感興趣，Person 3 對書籍跟 Picture 3 感興趣。
* 也可通過圖 4 的場景佔用度看出大部分的人喜歡會面的地方在哪。
* 可看出 Picture 3 剛好是 Person 1、Person 3 共同感興趣的物件。