# Progression Modelling for Online and Early Gesture Detection() {%hackmd theme-dark %} ###### tags: `paper` ###### description: 論文読んだまとめ記事 --- - Title - Conference - Authors Vikram Gupta, Sai Kumar Dwivedi, Rishabh Dabral, Arjun Jain - URL https://arxiv.org/abs/1909.06672 2019年9月14日にarXivに登録されている :new: --- ## どんなもの? EarlyRecognitionとオンライン推定のためのマルチタスクな3DCNNを提案してジェスチャ推定を行った。 88人の人間で87.8%の精度を実現した。 オフラインのNVIDIAジェスチャデータセットのSOTAを4%以上更新して。 また、NVIDIAジェスチャーデータセットにフレームごとに動作しているかどうかのアノテーションを加えたデータセットを公開した。(存在はしない) https://github.com/vguptai/Neo-Nvidia-Annotations `EarlyRecognition`, `マルチタスク`, `3DCNN`, `ジェスチャー推定` ![](https://i.imgur.com/aINrAtM.png) ## 新規性・有用性 - そもそもEarlyRecognition自体が新しい **既存研究(SVMによるEarlyEventDetection)とはアプローチが違うということらしい。** 曰く、「ジェスチャー推定の研究は活発だが、多くの論文は`OnlineOperation`と`EarlyRecognition`には対応していない」 なお、2019年初めにEarlyRecognitionについて言及してSOTAを達成した[Real-time Hand Gesture Detection](https://hackmd.io/_xAJbbu1S4G7rZQ4VCQYmw)についての参考文献に無かった。 :-1: - 新しい`EarlyRecognition`のオンラインマルチタスクフレームワークの提案 明示的にモデルが2つのブランチを持つようにしているために、`トレーニング後でもジェスチャーがされているというトリガーとなる値を変えることができる。` ## 技術の手法や肝は? 提案するフレームワークは2つのサブモジュールによって構成される。 - progression modelling(GPM) 明示的にジェスチャーの進行度を推定するモジュールを取り入れていて柔軟性がある。 論文ではオフライン時はこのジェスチャーの進行度を推定するモジュール(GPM)の出力のピークをジェスチャーのトリガーとしており、オンライン時は閾値を決めて動作させる。 - classification 常に推論を行う。 シングルレイヤーで超軽量。 サブモジュールが共通して使うモジュール(Spatiotemporal Encoder Architecture)が重めになっていて、サブモジュールは出力を任意に変えるために触っていた。 - GestureInference - offline時 GPMカーブによってジェスチャーの終了を検出する。 - online時 GPMのアウトプットが事前に定義していた閾値(ハイパーパラメータであり、後に実験によって検証される)を超えることをトリガーとする。 - モジュール結合部分の損失の扱い ハイパーパラメータで重み付けして足しあわせている。 ![](https://i.imgur.com/0UeQdPa.png) ![](https://i.imgur.com/4BKZuQ1.png) ![](https://i.imgur.com/Ie0cVBF.png) 入力はdepthがいいとのこと。 ## どうやって有効だと検証したか - オンライン時のジェスチャー推定とEarlyRecognition **EarlyRecognitionの評価のためにNormalized Time To Detect (NTtD)[^10]を使っている** NTtDは、ジェスチャー進行度検出器(GPM)の出力が一定以上の比率であればクラス分類器の出力を評価するかの閾値として定義されます。 - NTtDに対するTrue Positive Rate (TPR) - NTtDに対するFalse Positive Rate (FPR) ![](https://i.imgur.com/kDdBghT.png) - オフライン時のジェスチャー推定 他の手法と精度を比較。 ![](https://i.imgur.com/CiD75wY.png) - ローカリゼーションの評価 - Jaccard Index localizationで使われる指標 Jaccard係数は2つの集合に含まれている要素のうち共通要素が占める割合 https://mieruca-ai.com/ai/jaccard_dice_simpson/ ![](https://i.imgur.com/JY7AHGD.png) - Spatiotemporal Encoder Architecture(前方のモジュール)についての評価 図下部の条件において、**2DCNNから3DCNNにすることで精度8.1%アップ** ![](https://i.imgur.com/AWv77p4.png) ## Memo - NTtD(Normalized Time To Detect)に関する部分の抜粋 > #### 6.1. Early and Online Gesture Recognition > We compute the Normalized Time To Detect (NTtD) [10] to measure the performance of our system for early prediction > NTtD is defined as the ratio of event duration that the detector observes before the event prediction. - EarlyRecognitionしている類似論文(?)への言及部分抜粋 > Molchanov et al. [15] explored early gesture detection using connectionist temporal classification (CTC) [8]. CTC loss function enables gesture detection without requiring frame level annotations which makes it useful as annotation is time consuming and expensive. However, the system learns to detect only a segment of the gesture instead of the complete gesture. Moreover, the location or duration of this segment can not be changed, which makes it difficult to adapt the gesture predictions to meet the domain requirements. > Molchanov et al. [15] studied early gesture detection by using CTC as the loss function to detect the nucleus of the gesture. However, their method does not detect the complete gesture and can not be used for prediction at any other stages apart from the nucleus. ## 次に読むべき論文は? ## 参考文献