# A survey on deep learning based approaches for action and gesture recognition in image sequences(IEEE 2017) {%hackmd theme-dark %} ###### tags: `paper` ###### description: 論文読んだまとめ記事 --- - Title A survey on deep learning based approaches for action and gesture recognition in image sequences - Conference IEEE 2017 - 12th Conference on Automatic Face and Gesture Recognition - Authors Maryam Asadi-Aghbolaghi ... - URL https://ieeexplore.ieee.org/abstract/document/7961779 - disc 引用38 行動推定と手話・ジェスチャー推定についてサーベイ論文にしては比較的短くまとめてくれている。 行動と手話・ジェスチャーの内容の比重は6:4程度で、比較的行動についてのほうが詳しく書かれているように感じられた。 (ただ手話・ジェスチャーの方が比較的活発ではない分野という推察もある) --- ## 要約 `行動認識`と`ジェスチャー認識`という2つのジャンルを分類する。 重要なのは以下のこと。 - 入力 - どうやって時系列データを扱ったのか - どうやって大きなネットワークを小さなデータセットで学習したのか - マルチモーダルな場合はどのタイミングでfusionするか ![F.1](https://i.imgur.com/i8xyOjI.png) 手法は以下の3つに分類された。 - ==3D Models== [^7] [^47] [^58] [^105] 3次元の畳込みとプーリングにより、空間と時間の両方の次元において重要な特徴量を取り出す。 ただ学習に必要なデータ数が多いため、重みの初期化の問題は1つのテーマである。 2D-CNNで学習した重みを3D-CNNの初期値として与えることにより、スクラッチで学習するよりも精度が向上する[^61]。 - ==Motion-based input features== [^105] [^97] [^112] [^34] [^102] [^122] CNNなどでオプティカルフローのマップを扱う手法。(2Dの確率密度マップの様になる) - ==Temporal methods== RNNなど再帰構造をもつネットワークを使って時系列データを扱う手法。 例にもれず、この行動・ジェスチャー推定においてもLSTMはよく使われている。 **LSTM以外でもRNNを発展させたネットワークのいくつかは成果を挙げている。** - Bidirectional RNN (B-RNN) [^83] - Hierarchical RNN (H-RNN) [^22] - DifferentialRNN (D-RNN) [^106] ![](https://i.imgur.com/E2dDpTD.png) ### Action/gesture分野の今後 - Temporal methodsのメリット **手法A,B(3DCNN,Motion-based)は時間的に局所的な情報しか扱えないが、RNN・LSTMのような時系列モデルならばその問題も解決が望める。** **時系列モデルを使った既存研究の多くはスケレトゥルデータ(骨格情報)を使っている。** ==スケレトゥルデータは低次元であり少ない重み・少ないデータセットのサイズで学習可能であるため、これを使用することが望ましい。== - 時系列データを学習するということ **時系列データを学習させよとするの重みの量が膨大となるため、これを避けるために空間的・時間的な分解能を下げることを推奨する。** - 入力について(rgb, depth, ...) RGBビデオを入力とした推定は計算コストが高く誤差がある。 それに対して、デプスイメージからの推定は早く効率的である^[139] ^[22]。 - 今後期待されている取り組み - ハンドメイド特徴量を組み合わせたハイブリッドモデルの進歩^[68] ^[112]。 - リアルタイムなancion/gesture認識[^36] ^[134] - 時間的に長いもの、トリムされていないまたは現実的なデータ[^128] ^[34] ^[95] --- ## I. Introduction 行動認識とジェスチャー認識という2つのジャンルを分類する。 このジャンルは進歩が目まぐるしく、このサーベイ論文では現時点(2017)におけるトレンドを捉えて紹介することを目的としている。 ## II. 分類 ### A. Architectures 下図にDeepLearningを使った行動推定とジェスチャー認識の中で重要なものを時間次元(temporal dimension)をどう扱うかをによって分類した。 ![^](https://i.imgur.com/i8xyOjI.png) 手法は以下の3つに分類された。 - 3D Models[^7] [^47] [^58] [^105] 3次元の畳込みとプーリングにより、空間と時間の両方の次元において重要な特徴量を取り出す。 - Motion-based input features [^105] [^97] [^112] [^34] [^102] [^122] 事前学習されたネットワークでオプティカルフローのマップを得る。 (2Dの確率密度マップの様になる) このネットワークにはチャンネルを追加してもいい。(おそらくDepthやサーモのデータを追加するという意味) - Temporal methods 時系列データを扱うネットワークを用いる手法としてはRNNがある。 一般的にRNNはShort-Termで現実問題には対応できないためにそれを解消したLSTMがよく使われている。 例にもれず、この行動・ジェスチャー推定においてもLSTMはよく使われている。 この分野で使われているLSTM以外のRNNを発展させたネットワークについて以下に列挙する。 - Bidirectional RNN (B-RNN) [^83] - Hierarchical RNN (H-RNN) [^22] - DifferentialRNN (D-RNN) [^106] また、ここで挙げた全ての手法において、ハンドメイド特徴量を組み合わせることで性能が向上することが確認されている[^112]。 ![F.2](https://i.imgur.com/E2dDpTD.png) ### B. Fusion strategies DeepLearning手法ではシークエンス画像やRGB、motion、デプス、更にはaudioなど様々な情報が組み合わせて使われている。 この特長を組み合わせるタイミングとしてはearly、middle、lateがある。 - early モデルの入力に複数のデータを与え、モデルが内部で直接統合する。 - middle 中間のレイヤで合わせる - late モデルの出力を組み合わせる これらのモデルは日々改善されており、更に加えてアンサンブル手法やネットワークのスタッキングなどによる特長量の統合戦略も存在する。 ### C. Datasets Table I,IIに行動・ジェスチャ関係の最も重要なデータセットをリストアップした。 またTalbe III, IVではUCF-101とTHUMOS-14という2つの新しく挑戦的なデータセットに関係するデータを示す。 Tableでは、それぞれのデータセットにおいてランキング上位の手法がどのような手法を使っているかが一目で分かるようになっている。 ![T.I](https://i.imgur.com/waEWj43.png) ![T.II](https://i.imgur.com/Zktz8mM.png) ![T.III](https://i.imgur.com/WpCnHSS.png) ![T.IV](https://i.imgur.com/zL3XbX7.png) THUMOS2014の結果を見てみると、トップのチームは入力に画像(appearance)とmotionを使っている。 多くのモデルではappearanceはフレームレベルのCNNによって特長抽出のために使われている。 そしてシークエンスをまたいだプーリング手法によって動画の表現を得る。 その一方で、motion-base手法は以下の3つに分けることができる。 FlowNet, 3DCNN, iDTs **筆者らはそれらの手法を比較したところ、3DCNNが最も良い結果を出した。** ### D. Challenges CV関連の主なコンペを以下のTable Vに示す。 ![T.V](https://i.imgur.com/uvp0BLd.png) ## III. ACTION/ACTIVITY RECOGNITION ### A. 3D Convolutional Neural Networks 2DのCNNに対して時間に関係する軸を追加して3次元のCNNにする。 つまり、入力は時系列の画像データをスタックしたものとなる。 ==この手法は非常に多くのパラメータが必要になるために学習が困難であるという問題がある。== ==この問題を解決するため、[^61]は3DCNNの重みをImageNetによって学習した2Dの重みで初期化した。== > while [^102] proposes a 3D CNN (FstCN) that factorizes the 3D convolutional kernel learning as a sequential process of learning 2D spatial and 1D temporal kernels in different layers. 3DCNNのAcc向上に注目した著者もいる。 ==[^32]はオプティカルフローマップを時系列にスタックしたものに対して3D畳み込みを行った。== ==[^95]は複数の3DCNNをmulti-stage frameworkで使ってトリムされていないビデオに対して時系列の行動位置推定を行った。== (proposal generation, classification, and fine-grained localization) ==3DCNNモデルとシークエンシャルモデルを組み合わせたもの[^7]== や、ハンドメイド特徴量について記述したもの[^30][^129]などもある。 ### B. Motion-based features [^97]は空間(画像とマルチフレーム)と時系列(オプティカルフロー密度マップ)に対するtwo-stream CNNを提案した。 [^34]はspatila-temporal two-stream CNNによってlate-fusedのSVMを提案して行動のローカライズを行った。 ### C. Temporal deep learning models: RNN and LSTM [^106]はLSTMのゲインを操作して連続するフレームの中で特徴的な動作のゲインを強調した。 [^98]はbi-directional RNNを提案した。提案手法では人のバウンディングボックスを推定して、イメージとmotionから該当範囲をcropしてくる。この手法はbidirectional LSTMレイヤに続いて行われる。 ### D. Deep learning with fusion strategies ==[^37]は新しい手法としてSFM(Subdivision-Fusion Model)を提案した。== SFMは特長抽出器としCNNを使っており、どのサブカテゴリに属するかのクラスタリングを行う。 これは一見ただの特徴量エンジニアリングのようにも見えるが、応用する幅は非常に広い。 例えばスポーツをしていてそれを後ろから追いかけるドローンが追尾するというのを機械学習で行う場合、 泳いでいる、走っている、滑っているなどの行動のサブカテゴリを与えることで精度の向上が考えられるということだ。 [^22]は人体を大きく5つのパーツに分けたスケルトンデータを使ったend-to-endなhierarchical RNNを提案した。 それぞれのスケルトンデータは異なるネットワークによって与えられる。 そして最終的な決定の部分ではシングルレイヤーのネットワークが使われる。 [^99]はmulti-stream CNN(ego-CNN)を用いて一人の行動推定を行った。 [^20]はCNNを用いて視覚的に特徴的なmiddle-levelの特徴量を得るDeepPatternという手法を提案した。 [^76]はDeepConvLSTMを提案した。 名前の通りCNNとLSTMをベースにしており、ウェアラブルセンサなどをマルチモーダルに学習する事に適している。 ## IV. GESTURE RECOGNITION ### A. 3D Convolutional Neural Networks 様々な3DCNNが提案されてきた。 特に重要なもの[^64] [^41] [^63]について個別に説明していく。 [^41]は==手話認識のための3DCNN==を提案した。 ==入力はマルチモーダル(RGB-D+Skeleton data)で、注記するとRGBは加工せずに与えている。== 似たような意図で、[^63]は==3DCNNで運転手のジェスチャー推定を行った。== ==入力はデプスと明度(intensity data)== を使っている。 [^64]は==3DCNNを再帰構造と共に使い、動的なジェスチャーの検出とクラス分類==を行った。 この手法は==3DCNNによって空間と時系列の特徴量抽出を行い、続いてglobalな時系列データを扱う再帰層と出力層によって条件付きのクラス確率を得る。== ### B. Motion-based features ジェスチャー推定のためにNNやCNNを用いて手や体のポーズ推定を行う手法が広く使われている。 [^126]は生物学的なジェスチャースタイル推定(gesture style recognition)のため、two-stream(spatio-temporal)CNNを提案した。 空間を扱うネットワークは生のデプスデータを入力としており、時系列を扱うネットワークはオプティカルフローを入力としている。 [^43]はビデオ(時系列のRGB)から、人間の2D関節位置を推定するConvolutionalNetwork(ConvNet)を提案した。 入力は対になるRGBとmotionの特徴量のペア。 (つまりネットワーク自体は時系列を扱う構造を持たない?) ==[^117]はジェスチャー推定のために、以下の3つの表現方法を使ってデプスデータを表した。== - dynamic depth image (DDI) - dynamic depth normal image (DDNI) - dynamic depth motion normal image (DDMNI) [^118]は「それぞれのジェスチャーの最初と最後のフレームは運動量に基づいていること(DOM)」を最初に提唱した。 これに基づき筆者は==ImprovedDepthMotionMap(IDMM)== を提唱した。 これは、==最初のフレームと現在のフレームとのデプス情報の差の絶対値を計算してディープラーニングネットワークの入力にする== というものだ。 ### C. Temporal deep learning models: RNN and LSTM ==この種類のモデルはジェスチャ認識について広く使われてはいない。== しかし、カンファレンスでは期待されてもいる手法ではある。 [^67]の著者は==RNNを用いたマルチモーダルな(depth video, skeleton, speech)ジェスチャー認識システムを提案==している。 [^25]はConvolutional Long Short-Term Memory Recurrent Neural Network (CNNLSTM)が複雑で時系列のジェスチャーであっても学習可能であると述べている。 [^72]はmulti-stream model(MRNN)を提案している。 これはRNNを拡張したもので、時間的に可変長な長さのジェスチャーを扱えるようにLSTMのセルを操作する。 ### D. Deep learning with fusion strategies マルチモーダル学習はジェスチャー認識において広く実績がある。 [^124]はHHMベースの階層的半教師あり学習により骨格の関節情報を得た。 入力にはdepthとRGBを用いており、Fusionのタイミングはmiddleとlateを採用していた。 [^69]はマルチモーダルなmulti-stream CNNを提案し、gesture spottingを行った。 それぞれのストリームのCNNは出力層に近づくにつれて徐々に重み共有層が増えていく。 独立したネットワークの出力をメタ分類器で分類するlate fusionになっている。 [^77]はマルチモーダルなディープラーニングモデルを提唱して、ポーズ推定を行いSOTAを達成した。 この研究の功績は、early and middle fusionでモデルを統合する手法を明らかにしたことだ。 [^54]は入力画像と出力関節のペアのスコアを学習するCNNを提案した。 このモデルは2つのサブネットワークから成り立っており、 CNNのサブネットワークは特徴量抽出を行い、2層レイヤーのサブネットワークはポーズを推定する。 そしてそれらの出力のドット積をとることでスコアを得る。 タイミングとしてはlate fusionになる。 これに似ているものとして、2D関節座標を推定するCNNを提案した[^43]がある。 この手法はRGBイメージとmotionのドット積をとっており、タイミングとしてはearly fusionになる。 ## V. DISCUSSION 行動とジェスチャーに関係するディープラーニングベースの手法について要約した。 また、基本的な情報や極めて重要な情報について分類方法を定義し、批評を行った。 キートピックは`アーキテクチャ`、`fusion strategies`、`datasets`、`challenges`であった。 一般的な手法比較における論点は以下の2つだ。 - 「どうやって時系列データを扱ったのか」 - 「どうやって大きなネットワークを小さなデータセットで学習したのか」 すでに述べたように、3DCNNはmotionの特徴量を学習可能であることが分かった。 これは3Dネットワークがlong sequenceの複雑な時系列データを学習可能であることを示している[^105]。 ただ学習に必要なデータ数が多いため、重みの初期化の問題について調査がされている。 2Dの畳み込み重みを3Dの畳み込みに与えることによってスクラッチで学習するよりも精度が向上する[^61]。 motion特徴量を学習済みのネットワークを使うことでより効率的に特徴量抽出できることはすでに明らかになっている。 **加えて、ImageNetなどの空間的なデータに対して学習したmotion-baseネットワークでfine-tuningを行うことでより効率的になる。** > Allowing networks which are fine-tuned on stacked optical flow frames to achieve good performance in spite of having limited training data **手法A,B(3DCNN,Motion-based)は時間的に局所的な情報しか扱えないが、RNN・LSTMのような時系列モデルならばその問題も解決が望める。** **時系列モデルを使った既存研究の多くはスケレトゥルデータ(骨格情報)を使っている。** ==スケレトゥルデータは低次元であり少ない重み・少ないデータセットのサイズで学習可能であるため、これを使用することが望ましい。== モデルの種類に関係なく精度はデータセットの量に依存するため、多くの組織は巨大なデータセットを作りより精度を向上させる試みをしている。 データ拡張、事前学習、dropout、ラーニングレートの調整などの手法も一般的である。 **時系列データを学習させよとするの重みの量が膨大となるため、これを避けるために空間的・時間的な分解能を下げることを推奨する。** また、精度の向上にはdata fusionを推奨する。 さらにアンサンブル学習を用いて性能の向上が見込める。action/gesture関連の研究としては[^115] ^[105] ^[68]がある。 action/gesture認識のコンペではアンサンブル学習は一般的に見られる手法だ。 また、示唆を与えるような変わったアプローチをしたものをいくつか紹介する[^112] ^[12] ^[42] ^[4] ^[46]。 RGBビデオを入力とした推定は計算コストが高く誤差がある。 それに対して、デプスイメージからの推定は早く効率的である^[139] ^[22]。 今後期待されている取り組みについて述べる。 - ハンドメイド特徴量を組み合わせたハイブリッドモデルの進歩^[68] ^[112]。 - リアルタイムなancion/gesture認識[^36] ^[134] - 時間的に長いもの、トリムされていないまたは現実的なデータ[^128] ^[34] ^[95] また、筆者らは以下の課題があると考えている。 - early recogni- tion [^28] - multi-task learning [^127] - captioning, recognition from low resolution sequences [^66] - lifelog devices [^87] ## 次に読むべき論文は? - [^47]3DCNNにより3Dの潜在的な特徴量を扱った行動認識(2010) - 論文 S. Ji, W. Xu, M. Yang, and K. Yu. 3D convolutional neural networks for human action recognition. In ICML, pages 495–502, Haifa, Israel, June 2010. Omnipress - 注釈 行動認識だからジェスチャーとは違うし、それに古いし優先度は低いか? - [^64]は3DCNNを再帰構造と共に使い、動的なジェスチャー推定の検出とクラス分類を行った。 この手法は3DCNNによって空間と時系列の特徴量抽出を行い、続いてglobalな時系列データを扱う再帰層と出力層によって条件付きのクラス確率を得る。 - 論文 P. Molchanov, X. Yang, S. Gupta, K. Kim, S. Tyree, and J. Kautz. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network. In CVPR, 2016. - 注釈 Nvidiaの論文。論文自体のピュアな価値は高そうに見えたが、マルチモーダルでRGBを使っていたため自分の研究とはバッティングしないためにその点で言うと読む必要性は落ちる。 - [^126]は生物学的なジェスチャースタイル推定(gesture style recognition)のため、two-stream(spatio-temporal)CNNを提案した。 空間を扱うネットワークは生のデプスデータを入力としており、時系列を扱うネットワークはオプティカルフローを入力としている。 - 論文 J. Wu, P. Ishwar, and J. Konrad. Two-stream cnns for gesture-based verification and identification: Learning user style. In CVPRW, 2016. - 注釈 かなり自分のやることとマッチしていそうだったが、扱っているのは全身を使ったジェスチャーと手の領域が切り取られたデータでのジェスチャーだった。 ちなみに引用数は10ちょっとぐらいだった。 1つのストリームで誰が行っているかの検証、もうひとつのストリームで特長抽出を行い、抽出された特長からSVMで真偽の判定を行う。 また、それぞれのストリームではデプスデータをCNNにかけた空間的な特徴量とオプティカルフローによる時系列を表現する特徴量をCNNにかけて、その特徴量を合わせて出力を出す設計をしている。 これは推測だが、恐らくLSTMなどのRNNを採用せずにCNNを使っているのは認証システムにリアルタイム性がほしかったからでは無いだろうか。 - [^117]はジェスチャー推定のために、以下の3つの表現方法を使ってデプスデータを表した。 dynamic depth image (DDI) dynamic depth normal image (DDNI) dynamic depth motion normal image (DDMNI) - 論文 P. Wang, W. Li, S. Liu, Z. Gao, C. Tang, and P. Ogunbona. Largescale isolated gesture recognition using convolutional neural networks. arXiv preprint arXiv:1701.01814, 2017. - 注釈 https://hackmd.io/0_uw1SgcQeiipDjSp1_jfA?both ## 参考文献 [^1]: M. e. a. Abadi. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org. [^2]: S. Abu-El-Haija, N. Kothari, J. Lee, P. Natsev, G. Toderici, B. Varadarajan, and S. Vijayanarasimhan. Youtube-8m: A large-scale video classification benchmark. CoRR, abs/1609.08675, 2016. [^3]: R. Al-Rfou, G. Alain, A. Almahairi, C. Angermueller, D. Bahdanau, N. Ballas, F. Bastien, J. Bayer, A. Belikov, et al. Theano: A python framework for fast computation of mathematical expressions. arXiv:1605.02688, 2016. [^4]: M. S. Aliakbarian, F. Saleh, B. Fernando, M. Salzmann, L. Petersson, and L. Andersson. Deep action-and context-aware sequence learning for activity recognition and anticipation. arXiv preprint arXiv:1611.05520, 2016. [^5]: M. R. Amer, S. Todorovic, A. Fern, and S.-C. Zhu. Monte carlo tree search for scheduling activity recognition. In ICCV, pages 1353–1360, 2013. [^6]: K. Avgerinakis, K. Adam, A. Briassouli, and Y. Kompatsiaris. Moving camera human activity localization and recognition with motionplanes and multiple homographies. In ICIP, pages 2085–2089. IEEE, 2015. [^7]: M. Baccouche, F. Mamalet, C. Wolf, C. Garcia, and A. Baskurt. Sequential deep learning for human action recognition. In HBU, pages 29–39, 2011. [^8]: I. Bayer and T. Silbermann. A multi modal approach to gesture recognition from audio and video data. In ICMI, pages 461–466, 2013. [^9]: Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. TNN, 5(2):157–166, 1994. [^10]: H. Bilen, B. Fernando, E. Gavves, A. Vedaldi, and S. Gould. Dynamic image networks for action recognition. In CVPR, 2016. [^11]: N. C. Camgoz, S. Hadfield, O. Koller, and R. Bowden. Using convolutional 3d neural networks for user-independent continuous gesture recognition. In ICPR W, 2016. [^12]: C. Cao, Y. Zhang, C. Zhang, and H. Lu. Action recognition with joints-pooled 3d deep convolutional descriptors. [^13]: X. Chai, Z. Liu, F. Yin, Z. Liu, and X. Chen. Two streams recurrent neural networks for large-scale continuous gesture recognition. In Proc. of ICPRW, 2016. [^14]: R. Chaudhry, F. Ofli, G. Kurillo, R. Bajcsy, and R. Vidal. Bioinspired dynamic 3d discriminative skeletal features for human action recognition. In CVPRW, pages 471–478, 2013. [^15]: R. Chavarriaga, H. Sagha, and J. del R. Milln. Ensemble creation and reconfiguration for activity recognition: An information theoretic approach. In SMC, pages 2761–2766, 2011. [^16]: C. Chen, B. Zhang, Z. Hou, J. Jiang, M. Liu, and Y. Yang. Action recognition from depth sequences using weighted fusion of 2d and 3d auto-correlation of gradients features. Multimedia Tools and Applications, pages 1–19, 2016. [^17]: W. Chen and J. J. Corso. Action detection by implicit intentional motion clustering. In Proceedings of the IEEE International Conference on Computer Vision, pages 3298–3306, 2015. [^18]: G. Cheron, I. Laptev, and C. Schmid. P-CNN: pose-based CNN features ´ for action recognition. ICCV, 2015. [^19]: Z. Deng, M. Zhai, L. Chen, Y. Liu, S. Muralidharan, M. J. Roshtkhari, and G. Mori. Deep structured models for group activity recognition. arXiv preprint arXiv:1506.04191, 2015. [^20]: A. Diba, A. Mohammad Pazandeh, H. Pirsiavash, and L. Van Gool. Deepcamp: Deep convolutional action and attribute mid-level patterns. In CVPR, 2016. [^21]: J. Donahue, L. Anne Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long-term recurrent convolutional networks for visual recognition and description. In CVPR, pages 2625– 2634, 2015. [^22]: Y. Du, W. Wang, and L. Wang. Hierarchical recurrent neural network for skeleton based action recognition. In CVPR, pages 1110–1118, 2015. [^23]: J. Duan, S. Zhou, J. Wan, X. Guo, and S. Z. Li. Multi-modality fusion based on consensus-voting and 3d convolution for isolated gesture recognition. arXiv preprint arXiv:1611.06689, 2016. [^24]: I. C. Duta, B. Ionescu, K. Aizawa, and N. Sebe. Spatio-temporal vlad encoding for human action recognition in videos. In MMM, pages 365–378. Springer, 2017. [^25]: T. Eleni. Gesture recognition with a convolutional long short term memory recurrent neural network. In ESANN, 2015. [^26]: J. L. Elman. Finding structure in time. Cognitive science, 14(2):179– 211, 1990. [^27]: H. J. Escalante, I. Guyon, V. Athitsos, P. Jangyodsuk, and J. Wan. Principal motion components for gesture recognition using a single example. PAA, 2015. [^28]: H. J. Escalante, E. F. Morales, and L. E. Sucar. A na¨ıve bayes baseline for early gesture recognition. PRL, 73:91–99, 2016. [^29]: H. J. e. a. Escalante. Chalearn joint contest on multimedia challenges beyond visual analysis: An overview. In Proc. ICPR, 2016. [^30]: V. Escorcia, F. C. Heilbron, J. C. Niebles, and B. Ghanem. DAPs: Deep action proposals for action understanding. ECCV, 2016. [^31]: C. Feichtenhofer, A. Pinz, and R. Wildes. Spatiotemporal residual networks for video action recognition. In NIPS, pages 3468–3476, 2016. [^32]: C. Feichtenhofer, A. Pinz, and A. Zisserman. Convolutional two-stream network fusion for video action recognition. In CVPR, 2016. [^33]: F. A. Gers, N. N. Schraudolph, and J. Schmidhuber. Learning precise timing with lstm recurrent networks. JMLR, 3(Aug):115–143, 2002. [^34]: G. Gkioxari and J. Malik. Finding action tubes. CoRR, 2014. [^35]: F. Gu, M. Sridhar, A. Cohn, D. Hogg, F. Flrez-Revuelta, D. Monekosso, and P. Remagnino. Weakly supervised activity analysis with spatiotemporal localisation. Neurocomputing, 2016. [^36]: S. Han, H. Mao, and W. Dally. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. In Proc. ICLR, 2016. [^37]: Z. B. Hao, L. Lu, Q. Zhang, J. Wu, E. Izquierdo, J. Yang, and J. Zhao. Action recognition based on subdivision-fusion model. CoRR, abs/1508.04190, 2015. [^38]: F. C. Heilbron, V. Escorcia, B. Ghanem, and J. C. Niebles. Activitynet: A large-e video benchmark for human activity understanding. In CVPR, pages 961–970, 2015. [^39]: S. Hochreiter. Untersuchungen zu dynamischen neuronalen netzen. Diploma, Technische Universitat M ¨ unchen ¨ , page 91, 1991. [^40]: S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. [^41]: J. Huang, W. Zhou, H. Li, and W. Li. Sign language recognition using 3d convolutional neural networks. In ICME, pages 1–6, 2015. [^42]: M. Ibrahim, S. Muralidharan, Z. Deng, A. Vahdat, and G. Mori. A hierarchical deep temporal model for group activity recognition. arXiv preprint arXiv:1511.06040, 2015. [^43]: A. Jain, J. Tompson, Y. LeCun, and C. Bregler. MoDeep: A deep learning framework using motion features for human pose estimation, volume 9004, pages 302–315. 2015. [^44]: M. Jain, J. van Gemert, and C. G. M. Snoek. University of amsterdam at thumos challenge 2014. In ECCV THUMOS Challenge 2014, Zurich, ¨ Switzerland, September 2014. [^45]: M. Jain, J. C. van Gemert, T. Mensink, and C. G. M. Snoek. Objects2action: Classifying and localizing actions without any video example. In ICCV, 2015. [^46]: M. Jain, J. C. van Gemert, and C. G. Snoek. What do 15,000 object categories tell us about classifying and localizing actions? In CVPR, pages 46–55, 2015. [^47]: S. Ji, W. Xu, M. Yang, and K. Yu. 3D convolutional neural networks for human action recognition. In ICML, pages 495–502, Haifa, Israel, June 2010. Omnipress. [^48]: S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE TPAMI, 35(1):221–231, 2013. [^49]: Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In ACM MM, pages 675–678. ACM, 2014. [^50]: S. Karaman, L. Seidenari, A. D. Bagdanov, and A. D. Bimbo. L1- regularized logistic regression stacking and transductive crf smoothing for action recognition in video. In ICCV Workshops, 2013. [^51]: A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, pages 1725–1732, 2014. [^52]: T. Kerola, N. Inoue, and K. Shinoda. Cross-view human action recognition from depth maps using spectral graph sequences. Computer Vision and Image Understanding, 154:108–126, 2017. [^53]: J. Konecny and M. Hagara. One-shot-learning gesture recognition using hog-hof features. JMLR, 15:2513–2532, 2014. [^54]: S. Li, W. Zhang, and A. B. Chan. Maximum-margin structured learning with deep networks for 3d human pose estimation. In ICCV, pages 2848–2856, 2015. [^55]: Y. Li, W. Li, V. Mahadevan, and N. Vasconcelos. Vlad3: Encoding dynamics of deep features for action recognition. In CVPR, pages 1951–1960, 2016. [^56]: A.-A. Liu, Y.-T. Su, W.-Z. Nie, and M. Kankanhalli. Hierarchical clustering multi-task learning for joint human action grouping and recognition. TPAMI, 39(1):102–114, 2017. [^57]: J. Liu, A. Shahroudy, D. Xu, and G. Wang. Spatio-temporal lstm with trust gates for 3d human action recognition. In ECCV, pages 816–833. Springer, 2016. [^58]: Z. Liu, C. Zhang, and Y. Tian. 3d-based deep convolutional neural network for action recognition with depth sequences. IVC, 2016. [^59]: J. Luo, W. Wang, and H. Qi. Group sparsity and geometry constrained dictionary learning for action recognition from depth maps. In ICCV, pages 1809–1816, 2013. [^60]: B. Mahasseni and S. Todorovic. Regularizing long short term memory with 3d human-skeleton sequences for action recognition. In CVPR, 2016. [^61]: E. Mansimov, N. Srivastava, and R. Salakhutdinov. Initialization strategies of spatio-temporal convolutional neural networks. CoRR, abs/1503.07274, 2015. [^62]: P. Mettes, J. C. van Gemert, and C. G. Snoek. Spot on: Action localization from pointly-supervised proposals. In European Conference on Computer Vision, pages 437–453. Springer, 2016. [^63]: P. Molchanov, S. Gupta, K. Kim, and J. Kautz. Hand gesture recognition with 3d convolutional neural networks. In CVPRW, pages 1–7, June 2015. [^64]: P. Molchanov, X. Yang, S. Gupta, K. Kim, S. Tyree, and J. Kautz. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network. In CVPR, 2016. [^65]: A. Montes, A. Salvador, and X. Giro-i Nieto. Temporal activity detection in untrimmed videos with recurrent neural networks. arXiv preprint arXiv:1608.08128, 2016. [^66]: K. Nasrollahi, S. Escalera, P. Rasti, G. Anbarjafari, X. Bar, H. J. Escalante, and T. B. Moeslund. Deep learning based super-resolution for improved action recognition. In IPTA, pages 67–72, 2015. [^67]: N. Neverova, C. Wolf, G. Paci, G. Sommavilla, G. W. Taylor, and F. Nebout. A multi-scale approach to gesture detection and recognition. In ICCVW, pages 484–491, 2013. [^68]: N. Neverova, C. Wolf, G. W. Taylor, and F. Nebout. Multi-scale deep learning for gesture detection and localization. In ECCVW, volume 8925 of LNCS, pages 474–490, 2014. [^69]: N. Neverova, C. Wolf, G. W. Taylor, and F. Nebout. Moddrop: adaptive multi-modal gesture recognition. IEEE TPAMI, 2015. [^70]: B. Ni, Y. Pei, Z. Liang, L. Lin, and P. Moulin. Integrating multi-stage depth-induced contextual information for human action recognition and localization. In FG, pages 1–8, April 2013. [^71]: B. Ni, X. Yang, and S. Gao. Progressively parsing interactional objects for fine grained action detection. In CVPR, 2016. [^72]: N. Nishida and H. Nakayama. Multimodal gesture recognition using multi-stream recurrent neural network. In PSIVT, pages 682–694, 2016. [^73]: S. Oh. A large-scale benchmark dataset for event recognition in surveillance video. In CVPR, pages 3153–3160, 2011. [^74]: E. Ohn-Bar and M. M. Trivedi. Hand gesture recognition in real time for automotive interfaces: A multimodal vision-based approach and evaluations. IEEE-ITS, 15(6):2368–2377, Dec 2014. [^75]: D. Oneata, J. Verbeek, and C. Schmid. The LEAR submission at Thumos 2014, 2014. [^76]: F. J. Ordez and D. Roggen. Deep convolutional and lstm recurrent neural networks for multimodal wearable activity recognition. Sensors, 16(1):115, 2016. [^77]: W. Ouyang, X. Chu, and X. Wang. Multi-source deep learning for human pose estimation. CVPR, pages 2337–2344, 2014. [^78]: X. Peng and C. Schmid. Encoding feature maps of cnns for action recognition. CVPR, 2015. [^79]: X. Peng and C. Schmid. Multi-region two-stream r-cnn for action detection. In ECCV, pages 744–759. Springer, 2016. [^80]: X. Peng, L. Wang, Z. Cai, and Y. Qiao. Action and Gesture Temporal Spotting with Super Vector Representation, pages 518–527. 2015. [^81]: X. Peng, L. Wang, Z. Cai, Y. Qiao, and Q. Peng. Hybrid super vector with improved dense trajectories for action recognition. In ICCV Workshops, volume 13, 2013. [^82]: X. Peng, C. Zou, Y. Qiao, and Q. Peng. Action recognition with stacked fisher vectors. In ECCV, pages 581–595. Springer, 2014. [^83]: L. Pigou, A. V. D. Oord, S. Dieleman, M. V. Herreweghe, and J. Dambre. Beyond temporal pooling: Recurrence and temporal convolutions for gesture recognition in video. CoRR, abs/1506.01911, 2015. [^84]: Z. Qiu, Q. Li, T. Yao, T. Mei, and Y. Rui. Msr asia msm at thumos challenge 2015. In CVPR workshop, volume 8, 2015. [^85]: H. Rahmani and A. Mian. 3d action recognition from novel viewpoints. In CVPR, 2016. [^86]: H. Rahmani and A. S. Mian. Learning a non-linear knowledge transfer model for cross-view action recognition. In CVPR, pages 2458–2466, 2015. [^87]: N. Rhinehart and K. M. Kitani. Learning action maps of large environments via first-person vision. In Proc. ECCV, 2016. [^88]: A. Richard and J. Gall. Temporal action detection using a statistical language model. In CVPR, 2016. [^89]: H. Sagha, J. del R. Milln, and R. Chavarriaga. Detecting anomalies to improve classification performance in opportunistic sensor networks. In PERCOM Workshops, pages 154–159, March 2011. [^90]: H. Sagha, S. T. Digumarti, J. del R. Millan, R. Chavarriaga, A. Ca- ´ latroni, D. Roggen, and G. Troster. Benchmarking classification ¨ techniques using the opportunity human activity dataset. In IEEE SMC, pages 36 –40, Oct. 2011. [^91]: S. Saha, G. Singh, M. Sapienza, P. H. Torr, and F. Cuzzolin. Deep learning for detecting multiple space-time action tubes in videos. arXiv preprint arXiv:1608.01529, 2016. [^92]: A. Shahroudy, J. Liu, T. Ng, and G. Wang. NTU RGB+D: A large scale dataset for 3d human activity analysis. CVPR, pages 1010–1019, 2016. [^93]: A. Shahroudy, T.-T. Ng, Y. Gong, and G. Wang. Deep multimodal feature analysis for action recognition in rgb+ d videos. arXiv preprint arXiv:1603.07120, 2016. [^94]: L. Shao, L. Liu, and M. Yu. Kernelized multiview projection for robust action recognition. IJCV, 118(2):115–129, 2016. [^95]: Z. Shou, D. Wang, and S.-F. Chang. Temporal action localization in untrimmed videos via multi-stage cnns. In CVPR, 2016. [^96]: Z. Shu, K. Yun, and D. Samaras. Action Detection with Improved Dense Trajectories and Sliding Window, pages 541–551. Cham, 2015. [^97]: K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, pages 568–576. 2014. [^98]: B. Singh, T. K. Marks, M. Jones, O. Tuzel, and M. Shao. A multistream bi-directional recurrent neural network for fine-grained action detection. In CVPR, 2016. [^99]: S. Singh, C. Arora, and C. V. Jawahar. First person action recognition using deep learned descriptors. In CVPR, 2016. [^100]: K. Soomro, H. Idrees, and M. Shah. Action localization in videos through context walk. In ICCV, 2015. [^101]: W. Sultani and M. Shah. Automatic action annotation in weakly labeled videos. CoRR, abs/1605.08125, 2016. [^102]: L. Sun, K. Jia, D. Yeung, and B. E. Shi. Human action recognition using factorized spatio-temporal convolutional networks. CoRR, abs/1510.00562, 2015. [^103]: D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In ICCV, pages 4489–4497. IEEE, 2015. [^104]: P. Turaga, A. Veeraraghavan, and R. Chellappa. Statistical analysis on stiefel and grassmann manifolds with applications in computer vision. In CVPR, pages 1–8. IEEE, 2008. [^105]: G. Varol, I. Laptev, and C. Schmid. Long-term temporal convolutions for action recognition. CoRR, abs/1604.04494, Apr. 2016. [^106]: V. Veeriah, N. Zhuang, and G. Qi. Differential recurrent neural networks for action recognition. CoRR, abs/1504.06678, 2015. [^107]: C. Vondrick and D. Ramanan. Video annotation and tracking with active learning. In NIPS, 2011. [^108]: A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, and K. J. Lang. Phoneme recognition using time-delay neural networks. Readings in speech recognition, pages 393–404, 1990. [^109]: H. Wang, D. Oneata, J. Verbeek, and C. Schmid. A robust and efficient video representation for action recognition. IJCV, pages 1–20, 2015. [^110]: H. Wang, W. Wang, and L. Wang. How scenes imply actions in realistic videos? In ICIP, pages 1619–1623. IEEE, 2016. [^111]: L. Wang, Y. Qiao, and X. Tang. Action recognition and detection by combining motion and appearance features. In THUMOS Action Recognition challenge, pages 1–6, 2014. [^112]: L. Wang, Y. Qiao, and X. Tang. Action recognition with trajectorypooled deep-convolutional descriptors. In CVPR, pages 4305–4314, 2015. [^113]: L. Wang, Y. Qiao, X. Tang, and L. V. Gool. Actionness estimation using hybrid fully convolutional networks. CoRR, abs/1604.07279, 2016. [^114]: L. Wang, Z. Wang, Y. Xiong, and Y. Qiao. CUHK&SIAT submission for thumos15 action recognition challenge. In THUMOS Action Recognition challenge, pages 1–3, 2015. [^115]: L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. ECCV, Aug. 2016. [^116]: P. Wang, W. Li, Z. Gao, J. Zhang, C. Tang, and P. Ogunbona. Deep convolutional neural networks for action recognition using depth map sequences. CoRR, abs/1501.04686, 2015. [^117]: P. Wang, W. Li, S. Liu, Z. Gao, C. Tang, and P. Ogunbona. Largescale isolated gesture recognition using convolutional neural networks. arXiv preprint arXiv:1701.01814, 2017. [^118]: P. Wang, W. Li, S. Liu, Y. Zhang, Z. Gao, and P. Ogunbona. Large-scale continuous gesture recognition using convolutional neural networks. Proc. of ICPRW, 2016. [^119]: X. Wang, A. Farhadi, and A. Gupta. Actions ˜ transformations. CoRR, abs/1512.00795, 2015. [^120]: Y. Wang and M. Hoai. Improving human action recognition by nonaction classification. CoRR, abs/1604.06397, 2016. [^121]: Z. Wang, L. Wang, W. Du, and Y. Qiao. Exploring fisher vector and deep networks for action spotting. In CVPRW, pages 10–14, 2015. [^122]: P. Weinzaepfel, Z. Harchaoui, and C. Schmid. Learning to track for spatio-temporal action localization. abs/1506.01929, Dec 2015. [^123]: C. Wolf, E. Lombardi, J. Mille, O. Celiktutan, M. Jiu, E. Dogan, G. Eren, M. Baccouche, E. Dellandrea, C.-E. Bichot, C. Garcia, and ´ B. Sankur. Evaluation of video activity localizations integrating quality and quantity measurements. CVIU, 127:14–30, Oct. 2014. [^124]: D. Wu, L. Pigou, P. J. Kindermans, N. LE, L. Shao, J. Dambre, and J. M. Odobez. Deep dynamic neural networks for multimodal gesture segmentation and recognition. IEEE TPAMI, PP(99):1–1, feb 2016. [^125]: J. Wu, J. Cheng, C. Zhao, and H. Lu. Fusing multi-modal features for gesture recognition. In ICMI, pages 453–460, 2013. [^126]: J. Wu, P. Ishwar, and J. Konrad. Two-stream cnns for gesture-based verification and identification: Learning user style. In CVPRW, 2016. [^127]: X. Xu, T. M. Hospedales, and S. Gong. Multi-task zero-shot action recognition with prioritised data augmentation. In Proc. ECCV, 2016. [^128]: Z. Xu, L. Zhu, Y. Yang, and A. G. Hauptmann. Uts-cmu at THUMOS 2015. CVPR THUMOS Challenge, 2015, 2015. [^129]: Y. Ye and Y. Tian. Embedding sequential information into spatiotemporal features for action recognition. In CVPRW, 2016. [^130]: S. Yeung, O. Russakovsky, G. Mori, and L. Fei-Fei. End-to-end learning of action detection from frame glimpses in videos. CoRR, abs/1511.06984, 2015. [^131]: D. Yu, A. Eversole, M. Seltzer, K. Yao, Z. Huang, B. Guenter, O. Kuchaiev, Y. Zhang, F. Seide, H. Wang, et al. An introduction to computational networks and the computational network toolkit. Technical report, TR MSR, 2014. [^132]: J. Yuan, B. Ni, X. Yang, and A. Kassim. Temporal action localization with pyramid of score distribution features. In CVPR, 2016. [^133]: J. Yue-Hei Ng, M. Hausknecht, S. Vijayanarasimhan, O. Vinyals, R. Monga, and G. Toderici. Beyond short snippets: Deep networks for video classification. In CVPR, pages 4694–4702, 2015. [^134]: B. Zhang, L. Wang, Z. Wang, Y. Qiao, and H. Wang. Real-time action recognition with enhanced motion vector cnns. CoRR, abs/1604.07669, 2016. [^135]: S. Zhao, Y. Liu, Y. Han, and R. Hong. Pooling the convolutional layers in deep convnets for action recognition. arXiv preprint arXiv:1511.02126, 2015. [^136]: T. Zhou, N. Li, X. Cheng, Q. Xu, L. Zhou, and Z. Wu. Learning semantic context feature-tree for action recognition via nearest neighbor fusion. Neurocomputing, 201:1–11, 2016. [^137]: Y. Zhou, B. Ni, R. Hong, M. Wang, and Q. Tian. Interaction part mining: A mid-level approach for fine-grained action recognition. In CVPR, pages 3323–3331, 2015. [^138]: W. Zhu, J. Hu, G. Sun, X. Cao, and Y. Qiao. A key volume mining deep framework for action recognition. In CVPR, 2016. [^139]: W. Zhu, C. Lan, J. Xing, W. Zeng, Y. Li, L. Shen, and X. Xie. Cooccurrence feature learning for skeleton based action recognition using regularized deep lstm networks. reprint arXiv:1603.07772, 2016.