# Multi Object Tracking 2020/5/7 ###### tags: `ID` ## 参考資料 * https://qiita.com/hampen2929/items/e30442283060afc26435 (MOTの基本的な解説) * http://www.robots.ox.ac.uk/~lav/Research/Projects/2009bbenfold_headpose/project.html#datasets (ダウンロードした動画/参考用の結果) * https://motchallenge.net/data/MOT20Det/ (MOT ChallengeのBenchmark) * https://cvhci.anthropomatik.kit.edu/~stiefel/papers/ECCV2006WorkshopCameraReady.pdf (MOTの評価指標の説明が載っている。分かりやすい) * https://qiita.com/ComputerVision/items/a2f9d7dda55c15e84c2f (実際に歩行者のカウントを試みている人のQiita。細かい実装の工夫が載っている) * https://qiita.com/ComputerVision/items/fc64317006c25f37cc3e (同上。全体的な構成・考え方が載っている) > あと需要があるかどうかわかりませんが、もしご希望があれば5分以内の映像であれば無料で解析して解析結果のムービーとログをお送りいたします。MP4形式のFHDでファイル名はご自身のメールアドレスにしてギガファイル便にアップしてからメールください。「ここにこんな風にカウンターラインを置いて、方向ラインはこう設定してほしい。ここはカウント対象から除外してほしい」などのご希望があれば、映像と同サイズの静止画に完成イメージを記載して一緒に送ってください。 たぶん中2~3日で解析して結果をお送りできると思いますが、忙しいともう少しかかるかも?送っていただいた映像はこちらのスキルアップのための研究材料およびQiitaなどでの発表ネタとして使用させていただくことがありますので、あらかじめご了承ください。 とあるので、比較用のベンチマークとして依頼してみるのもアリかも。 ### おまけ * object trackingのベンチマーク:https://paperswithcode.com/sota/object-detection-on-coco →かなりYOLOv3, faster-RCNNから更新されている。 * https://github.com/zylo117/Yet-Another-EfficientDet-Pytorch :信頼できそうなgithub実装 ## MOTの検証 TownCentreXVID.aviという動画の0~36秒(900フレーム分)での検証。 比較対象は * Ground Truth * The ouput from the CVPR 2011 tracker. * Deep-Sortの結果 #### 画面全体に写っている人の合計人数 * Ground Truth: 52人 * CVPR2011: 93人 * deep-sort: 72人 #### 画面内に基準となる線を引いて、そこを通過した人数 詳細なアルゴリズム:略 出力例: > frame 4 person_id 5 frame 16 person_id 1 frame 110 person_id 17 frame 157 person_id 6 frame 205 person_id 18 frame 233 person_id 20 frame 321 person_id 19 frame 334 person_id 23 frame 341 person_id 22 frame 359 person_id 16 frame 392 person_id 26 frame 402 person_id 24 frame 408 person_id 27 frame 445 person_id 28 frame 451 person_id 30 frame 452 person_id 29 frame 460 person_id 25 frame 466 person_id 34 frame 473 person_id 32 frame 476 person_id 38 frame 477 person_id 35 frame 481 person_id 33 frame 632 person_id 21 frame 731 person_id 31 frame 755 person_id 37 frame 756 person_id 43 frame 808 person_id 40 frame 834 person_id 45 frame 843 person_id 39 frame 876 person_id 47 frame 895 person_id 46 * Ground Truth: 31人 * CVPR2011: 24人 * deep-sort: 28人 →2011年は詳細なアルゴリズムが分からないものの、`SORT`以前(`SORT`が2016年) `deep-sort`は`SORT`+`CNN`とリッチなモデルなため、精度が改善。 * 人によるカウント:?? c.f.市川カウントだと29人になりました・・ちなみに結構難しいです。 ## まとめ * (様々な動画に対して検証する必要があるが・・)ground truth±5%は厳しそう。 * 人の精度±5%は人がどれだけの精度でできるかに依存しそう。 * `deep-sort`はdetectionがyolo-v3でありかなり高精度。実運用ではそこまでの精度を期待するのは厳しいため、`CVPR2011ぐらいのdetection精度`+`deep-sortぐらいのtracking精度`が現実的か。また、映像の画質が良くないのも懸念点か(ただし、その場合は人の精度の落ちると思われるのでさらなる検証が必要)。 ## 2020/5/8 Next Step * MOtの検証続き * Detectorをmobilenet-v2 SSDに変更する。 * deep-sortをSORTに変更する。 * 実動画で検証してみる(データをいただき次第) * gender detection modelの変な挙動の原因の特定
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up