SportsMOT：A Large Multi-Object Tracking Datset in Multiple Sports Scenes

# SportsMOT：A Large Multi-Object Tracking Datset in Multiple Sports Scenes 作者：Yutao Cui、Chenkai Zeng、Xiaoyu Zhao、Yichun Yang、Gangshan Wu、Limin Wang ## Abstract：貢獻： 1. 為Multi-Object Tracking及運動領域提供一個資料量龐大的dataset。內容包含足球、籃球、排球場上的所有球員。由240個影片組成，總計有約15萬幀和160萬個Bounding boxes。 2. 將一些主流的Track 在 SportsMOT上做基準測試，發現關鍵挑戰在於物件關聯性。 3. 提出Mixsort SportsMOT包含以下兩個特點： 1. 運動速度快，且多變 2. 相似的外觀，但可區分差別與SOTA Tracker做比較，發現SportMOT最大的挑戰在於物件關聯性。提出Mixsort，作為主流tracking-by-detection tracker的輔助關聯模型，架構類似於Mixformer。透過將Customized的appearance-based association和Original的motion-based association相結合。 Mixsort在SportsMOT和MOT17達到SOTA的表現。 - - - - ## Intro：主流的Tracker為了完成tracking，主要由以下幾個物件組成： - objects localization module - motion based module - appearance based module 偏向特定人物追蹤的Tracker，其物件很難適應運動場景在MOT17和MOT20中，這些Tracker大多都是基於Kalman Filter的IoU匹配來進行目標關聯，這是由於行人的運動緩慢且規律。 DanceTrack則強調多樣化的動作而非快速的動作。在運動賽事中，運動員通常具有高速的移動能力，而且還會變速，對現有的motion-based association會形成障礙。 - - - - - ## Related Work： Tracker需要將new frame中的檢測與現有軌跡相互關聯。大多數的Tracker通常會根據motion和appearance去計算new frame和現有軌跡之間的相似度矩陣(或成本矩陣)。之後再用Hungarian Algo進行關聯。 - - - - - ### SportsMOT Dataset： - 專注於動作定位 - 只有採用俯拍鏡頭 - 確保所有影片中都沒有突然的視角切換 - 都是720p 和 25FPS ### Annotation Pipeline： - 目標是運動員的四肢和軀幹，任何其他物體觸碰到運動員的身體都會被排除掉。 - 在遮擋情況下去推斷出運動員不可見的部分，除非一半的身體都被擋住了或沒有在視角當中。就會被skip掉。 - 確保每個運動員在整部影片都有自己唯一的ID。 - - - - - ## MixSort：為了增強appearance-based關聯性能。並且能夠應用於任何tracking-by-detect模式的Tracker，像是ByteTrack 或 OC-SORT。 ### Mixformer：用於對特定目標提取具有區分性的特徵，並在目標與搜尋區域之間進行大量的溝通。原始的Mixformer採用的是corner-based localization head，來預測搜尋區域的左上角和右下角。本篇論文將其修改成使用heatmap prediction head，改成預測搜尋區域的中心點，並生成具有信心分數的heatmap。 ![image](https://hackmd.io/_uploads/HJmn1LmW0.png) 圖五、ground truth的中心點用紅點標記，其餘檢測標記為綠色，藍色虛線表示的是裁剪後的搜尋區域。最右邊是相似矩陣，白色的部分代表搜尋區域外，值為0。對每個已經存在的軌跡t ![image](https://hackmd.io/_uploads/ByfmEUQWR.png) 圖6、為tracking 流程 1. 使用Detector去取得Multi-object detections 1. 對於每個已存在的Tracks，使用Motion Model(Kalman filter)去預測在Current frame的新位置 2. 然後以新位置的中心點，以一定比例裁剪，得到搜尋區域 $s$ 3. 將搜尋區域$s$與templates送入Mixformer，生成相似度heapmap $H$。 - 我對templates的理解是，主要追蹤目標在每一個frame的特徵。templates在追蹤的過程中會不斷更新。 5. 對中心點位於搜尋區域 $s$ 內的detection $d$，將其與track $t$ 去計算在heatmap中的外觀相似度。 7. 將第五點的外觀相似度與IoU分數結合，得到混和相似度矩陣。 8. 利用混合相似度矩陣，使用匈牙利演算法對$d$和$t$進行最佳匹配。 - 對於已經匹配的tracks和detection，Online更新其templates。 - 對於未匹配的tracks和detections，持續追蹤直到達到Threshold。 - 對於信心分數高於Threshold的未匹配detections，生成一條新的tracks並給予新ID。 - - - - - ## Implementation Details：使用和Bytetrack和OS-Sort一樣的Detector：$YOLOX$ 使用COCO pretrained作為初始權重 For Mixformer：先在VOT dataset上train，然後再fine-tune到SportsMOT上train 300個Epoch。 Optimizer：ADAM with weight-decay $10^{-4}$ Size of Search image：224x224 Size of template：96x96 - - - - - ## Experiment and Result： ![image](https://hackmd.io/_uploads/S1WFpuQZR.png) 在SportsMOT上評估了許多不同方法的追蹤性能，在運動場景下，Multi-object tracking最大的挑戰是快速移動的目標以及目標因動作而模糊。這使tracks和detections之間的關聯性變得更加重要。可以看到表中的Bytetrack和OC-SORT的性能優於大多數的方法，但是它們在關聯性的性能上還不夠優秀，所以在兩個架構中加入MixSort。加入MixSort後，兩個架構的trackers有明顯的性能提升，OS-SORT在HOTA上升了0.4，ByteTrack則上升了1.6。 ![image](https://hackmd.io/_uploads/HywmlKQ-A.png) Appearance-based v.s. Motion based association. 在SportsMOT testset上對MixSort-OC做實驗，研究基於運動和基於外觀的關聯重要性。在所有類別中，當α = 1，也就是基於運動的關聯性的性能均優於基於外觀的關聯性(α = 0)。對於單一類別，足球、排球、籃球。籃球是最難追蹤的，其次是足球，最簡單的是排球，難度差異體現在場地的大小以及球員身體對抗程度。例如足球場的場地很大，球員與球員之間不會有很頻繁的肢體接觸或重疊。但是籃球在較小的場地進行，球員之間的身體接觸比足球多很多，這也就導致了更多的視野遮擋，這就是為什麼籃球比較難。 ![image](https://hackmd.io/_uploads/rkZYQF7Z0.png) 使用與DeepSort相同的ReID模型，然後在SportsMOT上測試，證明了MixSort的appearance-based model比原始ReID模型更強，表示說它可以提曲到更廣泛、且有明顯差異的特徵。 ## Conslusion：在Multi-Sports-Scenes中建立了一個新的大規模dataset：SportsMOT，並讓許多主流的Tracker模型在此dataset上做測試，發現說Multi-object tracking最主要的挑戰在於物件關聯性。提出了一種新框架：MixSort，將其應用到主流的tracking-by-detection tracker中，從實驗結果來看，確實可以提高主流tracker在關聯性上的性能。 ##### 補充說明： - IoU：Intersection over Union，通過計算預測邊界框與真實邊界框之間的交集面積，並將其除以它們的聯集面積來得出的比值。範圍從0~1，數值越高表示預測邊界框與真實邊界框重合程度高，準確性越好。 - Kalman filter：估計線性動態系統的狀態。在目標追蹤中，能夠預測物體的位置和速度，即使在面臨噪聲干擾的情況下也能保持良好的性能。 - [參考1](https://chih-sheng-huang821.medium.com/%E7%B0%A1%E6%98%93%E4%BB%8B%E7%B4%B9%E5%8D%A1%E7%88%BE%E6%9B%BC%E6%BF%BE%E6%B3%A2-kalman-filter-1b041e371fe6) - [參考2](https://www.kalmanfilter.net/background.html) - Hungarian Algo：一種在多對多配對問題中尋找最佳配對的算法。 - [參考](https://hackmd.io/@SW/BkM2kzbj8/%2FWudWPU1rQiijpxOiDLGy7g) - [Mixformer](https://arxiv.org/abs/2302.02814) - [MOT相關解釋](https://hackmd.io/@computerVision/S18nD20Vq)