# SportsMOT:A Large Multi-Object Tracking Datset in Multiple Sports Scenes 作者:Yutao Cui、Chenkai Zeng、Xiaoyu Zhao、Yichun Yang、Gangshan Wu、Limin Wang ## Abstract: 貢獻: 1. 為Multi-Object Tracking及運動領域提供一個資料量龐大的dataset。內容包含足球、籃球、排球場上的所有球員。由240個影片組成,總計有約15萬幀和160萬個Bounding boxes。 2. 將一些主流的Track 在 SportsMOT上做基準測試,發現關鍵挑戰在於物件關聯性。 3. 提出Mixsort SportsMOT包含以下兩個特點: 1. 運動速度快,且多變 2. 相似的外觀,但可區分差別 與SOTA Tracker做比較,發現SportMOT最大的挑戰在於物件關聯性。 提出Mixsort,作為主流tracking-by-detection tracker的輔助關聯模型,架構類似於Mixformer。 透過將Customized的appearance-based association和Original的motion-based association相結合。 Mixsort在SportsMOT和MOT17達到SOTA的表現。 - - - - ## Intro: 主流的Tracker為了完成tracking,主要由以下幾個物件組成: - objects localization module - motion based module - appearance based module 偏向特定人物追蹤的Tracker,其物件很難適應運動場景 在MOT17和MOT20中,這些Tracker大多都是基於Kalman Filter的IoU匹配來進行目標關聯,這是由於行人的運動緩慢且規律。 DanceTrack則強調多樣化的動作而非快速的動作。 在運動賽事中,運動員通常具有高速的移動能力,而且還會變速,對現有的motion-based association會形成障礙。 - - - - - ## Related Work: Tracker需要將new frame中的檢測與現有軌跡相互關聯。大多數的Tracker通常會根據motion和appearance去計算new frame和現有軌跡之間的相似度矩陣(或成本矩陣)。之後再用Hungarian Algo進行關聯。 - - - - - ### SportsMOT Dataset: - 專注於動作定位 - 只有採用俯拍鏡頭 - 確保所有影片中都沒有突然的視角切換 - 都是720p 和 25FPS ### Annotation Pipeline: - 目標是運動員的四肢和軀幹,任何其他物體觸碰到運動員的身體都會被排除掉。 - 在遮擋情況下去推斷出運動員不可見的部分,除非一半的身體都被擋住了或沒有在視角當中。就會被skip掉。 - 確保每個運動員在整部影片都有自己唯一的ID。 - - - - - ## MixSort: 為了增強appearance-based關聯性能。 並且能夠應用於任何tracking-by-detect模式的Tracker,像是ByteTrack 或 OC-SORT。 ### Mixformer: 用於對特定目標提取具有區分性的特徵,並在目標與搜尋區域之間進行大量的溝通。原始的Mixformer採用的是corner-based localization head,來預測搜尋區域的左上角和右下角。 本篇論文將其修改成使用heatmap prediction head,改成預測搜尋區域的中心點,並生成具有信心分數的heatmap。  圖五、ground truth的中心點用紅點標記,其餘檢測標記為綠色,藍色虛線表示的是裁剪後的搜尋區域。最右邊是相似矩陣,白色的部分代表搜尋區域外,值為0。 對每個已經存在的軌跡t  圖6、為tracking 流程 1. 使用Detector去取得Multi-object detections 1. 對於每個已存在的Tracks,使用Motion Model(Kalman filter)去預測在Current frame的新位置 2. 然後以新位置的中心點,以一定比例裁剪,得到搜尋區域 $s$ 3. 將搜尋區域$s$與templates送入Mixformer,生成相似度heapmap $H$。 - 我對templates的理解是,主要追蹤目標在每一個frame的特徵。templates在追蹤的過程中會不斷更新。 5. 對中心點位於搜尋區域 $s$ 內的detection $d$,將其與track $t$ 去計算在heatmap中的外觀相似度。 7. 將第五點的外觀相似度與IoU分數結合,得到混和相似度矩陣。 8. 利用混合相似度矩陣,使用匈牙利演算法對$d$和$t$進行最佳匹配。 - 對於已經匹配的tracks和detection,Online更新其templates。 - 對於未匹配的tracks和detections,持續追蹤直到達到Threshold。 - 對於信心分數高於Threshold的未匹配detections,生成一條新的tracks並給予新ID。 - - - - - ## Implementation Details: 使用和Bytetrack和OS-Sort一樣的Detector:$YOLOX$ 使用COCO pretrained作為初始權重 For Mixformer: 先在VOT dataset上train,然後再fine-tune到SportsMOT上train 300個Epoch。 Optimizer:ADAM with weight-decay $10^{-4}$ Size of Search image:224x224 Size of template:96x96 - - - - - ## Experiment and Result:  在SportsMOT上評估了許多不同方法的追蹤性能,在運動場景下,Multi-object tracking最大的挑戰是快速移動的目標以及目標因動作而模糊。這使tracks和detections之間的關聯性變得更加重要。 可以看到表中的Bytetrack和OC-SORT的性能優於大多數的方法,但是它們在關聯性的性能上還不夠優秀,所以在兩個架構中加入MixSort。加入MixSort後,兩個架構的trackers有明顯的性能提升,OS-SORT在HOTA上升了0.4,ByteTrack則上升了1.6。  Appearance-based v.s. Motion based association. 在SportsMOT testset上對MixSort-OC做實驗,研究基於運動和基於外觀的關聯重要性。 在所有類別中,當α = 1,也就是基於運動的關聯性的性能均優於基於外觀的關聯性(α = 0)。 對於單一類別,足球、排球、籃球。籃球是最難追蹤的,其次是足球,最簡單的是排球,難度差異體現在場地的大小以及球員身體對抗程度。例如足球場的場地很大,球員與球員之間不會有很頻繁的肢體接觸或重疊。但是籃球在較小的場地進行,球員之間的身體接觸比足球多很多,這也就導致了更多的視野遮擋,這就是為什麼籃球比較難。  使用與DeepSort相同的ReID模型,然後在SportsMOT上測試,證明了MixSort的appearance-based model比原始ReID模型更強,表示說它可以提曲到更廣泛、且有明顯差異的特徵。 ## Conslusion: 在Multi-Sports-Scenes中建立了一個新的大規模dataset:SportsMOT,並讓許多主流的Tracker模型在此dataset上做測試,發現說Multi-object tracking最主要的挑戰在於物件關聯性。 提出了一種新框架:MixSort,將其應用到主流的tracking-by-detection tracker中,從實驗結果來看,確實可以提高主流tracker在關聯性上的性能。 ##### 補充說明: - IoU:Intersection over Union,通過計算預測邊界框與真實邊界框之間的交集面積,並將其除以它們的聯集面積來得出的比值。範圍從0~1,數值越高表示預測邊界框與真實邊界框重合程度高,準確性越好。 - Kalman filter:估計線性動態系統的狀態。在目標追蹤中,能夠預測物體的位置和速度,即使在面臨噪聲干擾的情況下也能保持良好的性能。 - [參考1](https://chih-sheng-huang821.medium.com/%E7%B0%A1%E6%98%93%E4%BB%8B%E7%B4%B9%E5%8D%A1%E7%88%BE%E6%9B%BC%E6%BF%BE%E6%B3%A2-kalman-filter-1b041e371fe6) - [參考2](https://www.kalmanfilter.net/background.html) - Hungarian Algo:一種在多對多配對問題中尋找最佳配對的算法。 - [參考](https://hackmd.io/@SW/BkM2kzbj8/%2FWudWPU1rQiijpxOiDLGy7g) - [Mixformer](https://arxiv.org/abs/2302.02814) - [MOT相關解釋](https://hackmd.io/@computerVision/S18nD20Vq)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up