--- tags: 生物辨識 --- # Deep Keyframe Detection in Human Action Videos ## Contribution - 偵測在影片中有代表性的Frame ## Frame-level video labeling ![](https://i.imgur.com/wMifXF7.png) | 符號 | 定義 | | -------- | -------- | |$x_{im}$|第$i$個影片中的第$m$個frame| |$R_{im}$|第$i$個影片中的第$m$個frame的RGB Image經過ConvNet輸出的Embedding| |$O_{im}$|第$i$個影片中的第$m$個frame的Optical flow image經過ConvNet輸出的Embedding| |$F_{im}$|concat $R_{im}$ 與 $O_{im}$| |$V_{Fi}$|$(F_{i1},F_{i2},...,F_{iM})$| 1. 將$(V_{F1}, V_{F2}, ..., V_{FI})$按照Video的label重新排序成$(V_{1}, V_{2}, ..., V_{C})$ 2. 如果目標是要找到第一個分類的Key Frame Score, 則把Video再成兩類去對每個Frame做LDA $$ V_A=\{V_1\}, V_B=\{V_2,...,V_C\}\\ W_A=LDA(V_A, V_B) $$ 3. 最後就根據$W_A$計算每$i$個影片的第$t$個Frmae的分數, 並把他當成label $$ f_{it}=||F_{im} - W_A^{T}F_{im}||_2 $$ ## Key frame detection model learning ![](https://i.imgur.com/o49KVgl.png) 1. L2 loss 2. 用spline找出分數的local maximum當作key Frame ![](https://i.imgur.com/Bp2vGtN.png) ## Reference [TV-L1 OpticalFlow](https://zhuanlan.zhihu.com/p/42537928)