# Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment ###### tags : `action-segmentation` `weakly-supervised` ## :cat: Paper Info Conference : Year : 2018 CVPR Paper : [PDF](https://arxiv.org/pdf/1803.10699.pdf) Total Citation(Recent) : Refs : <br> ## :palm_tree: Abstract Action Segmentation のタスクにおいてWeakly-supervisedな手法. 学習用の動画デートセットの正解として,動画内の行動ラベルの順番のみ与える(各フレームにおける正解ラベルはなし). 同様のWeakly-Supervisedな手法と比較して最高精度を記録. <br> ## :fireworks: Method <img width="400" alt="2019-02-22 16 19 00" src="https://user-images.githubusercontent.com/38309191/53226176-9f3ffb00-36bd-11e9-9ce6-ec6e8827dd19.png"> 本手法では,Action Segmentationを行う部分としてTCFPN ,認識結果を元にフレーム毎の正解ラベルの予測を行い,ground truth を更新する部分としてISBAをそれぞれ新たに提案している. ### TCFPN Action Segmentationを行う既存手法である[ED-TCN](https://github.com/t-koba-96/papers/issues/2) と物体検出のタスクにおいて用いられるFeature Pyramid Networkを組み合わせた手法.単純にEncoder-Decoderのみを使うと,正確な特徴量を抽出できるものの,位置情報(今回の場合時間情報)が大雑把なものとなってしまう.そこで,Encoderの各層を1×1convして加えることで,より正確な位置情報を得ることが可能となる,というイメージ. <img width="400" alt="2019-02-22 16 20 18" src="https://user-images.githubusercontent.com/38309191/53226240-d4e4e400-36bd-11e9-9d2a-23bd0c876b9c.png"> TCFPNでSegmentationを行うには,フレーム毎の行動ラベルが必要なので,動画に対してN個の行動が順に起こるというWeaklyなラベルが与えられた時,動画のフレームをN等分して行動ラベルの初期値として与えてやる.その際0,1のみのOne-hotな表現ではなく,動画の行動が徐々に移り変わるだろうという予測を基に,以下のようなSoft Boundaryなラベル付けを行う. <img width="400" alt="2019-02-22 16 21 40" src="https://user-images.githubusercontent.com/38309191/53226296-f80f9380-36bd-11e9-857d-a02678039e80.png"> ### ISBA TCFPNの出力を元にフレーム毎の正解ラベルの予測,更新を行う部分.要ははじめに与えたN等分するようなフレーム毎の行動の正解ラベルでは正確ではないため,TCFPNの出力を元にフレーム毎の正解を新たに予測し,更新することで実際のground truthに近いラベルを得ようという考え. <img width="450" alt="2019-02-22 16 22 38" src="https://user-images.githubusercontent.com/38309191/53226338-18d7e900-36be-11e9-848a-0f4a50c598b2.png"> ### Label realignment <img width="450" alt="2019-02-22 16 22 38" src=https://user-images.githubusercontent.com/38309191/123052866-41af4b00-d43e-11eb-8134-634ce4b5234e.png> 現在のtranscriptの境目にのみ注目。もし境目においてクラス間の予測値の差が閾値以上なら、action boundary ではないという仮定のもとactionを追加する。 ### 学習・テスト TCFPNとISBAを繰り返し行い,認識結果を元にフレーム単位の行動ラベルを更新していくことで,フレーム単位の行動ラベルをground truthに近づけることと,Action Segmentationの精度の向上を同時に目指す. ISBAにおいて独自のロスを導入し,3回連続でロスが小さくならなければ終了し,最もロスの小さかった時の結果を最終出力とする. <br> ## :bar_chart: Results Breakfast datasetを用いて他のWeakly-Supervisedな手法との比較. <img width="311" alt="2019-02-22 16 23 52" src="https://user-images.githubusercontent.com/38309191/53226421-4886f100-36be-11e9-8ac8-129b6a3637cf.png"> ### 学習時の評価 <img width="600" alt="2019-02-22 16 24 43" src="https://user-images.githubusercontent.com/38309191/53226454-65232900-36be-11e9-9b0c-6fad76b05171.png"> ### テスト時の評価 <img width="600" alt="2019-02-22 16 25 38" src="https://user-images.githubusercontent.com/38309191/53226501-86841500-36be-11e9-82f1-1fa6cf13f4ea.png"> ちなみにfully-Supervisedな時の提案手法のaccuracyは52.0 <br> ## :ledger: Memo #### 新規性 ・新たなWeakly-Supervisedな手法の提案.それにより最高精度を記録. ・行動認識の結果を元に正解ラベルを更新していくという発想. <br>
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up