---
tags: 生物辨識
---
# Deep Keyframe Detection in Human Action Videos
## Contribution
- 偵測在影片中有代表性的Frame
## Frame-level video labeling

| 符號 | 定義 |
| -------- | -------- |
|$x_{im}$|第$i$個影片中的第$m$個frame|
|$R_{im}$|第$i$個影片中的第$m$個frame的RGB Image經過ConvNet輸出的Embedding|
|$O_{im}$|第$i$個影片中的第$m$個frame的Optical flow image經過ConvNet輸出的Embedding|
|$F_{im}$|concat $R_{im}$ 與 $O_{im}$|
|$V_{Fi}$|$(F_{i1},F_{i2},...,F_{iM})$|
1. 將$(V_{F1}, V_{F2}, ..., V_{FI})$按照Video的label重新排序成$(V_{1}, V_{2}, ..., V_{C})$
2. 如果目標是要找到第一個分類的Key Frame Score, 則把Video再成兩類去對每個Frame做LDA
$$
V_A=\{V_1\}, V_B=\{V_2,...,V_C\}\\
W_A=LDA(V_A, V_B)
$$
3. 最後就根據$W_A$計算每$i$個影片的第$t$個Frmae的分數, 並把他當成label
$$
f_{it}=||F_{im} - W_A^{T}F_{im}||_2
$$
## Key frame detection model learning

1. L2 loss
2. 用spline找出分數的local maximum當作key Frame

## Reference
[TV-L1 OpticalFlow](https://zhuanlan.zhihu.com/p/42537928)