# 畢業論文 3/13 ### :bulb: 動機與目的 * Adaptive window size for Video-base HAR video-base數據已被廣泛用於HAR,其中sliding window是分割連續幀的典型方法之一。大多數現有的 HAR 方法為不同的動作選擇固定長度的滑動視窗。然而,由於人類活動複雜多樣,單一的固定滑動視窗並不適合獲取不同活動的特徵。一些研究根據特徵差異分割的活動動態調整視窗大小,但活動的持續發生會導致分割視窗過大,並容易引入額外的雜訊,導致分類性能下降。 目前使用於HAR之資料集多為人工剪裁之片段,且一個片段對應一個標籤,然而,實務上動作應為連續幀的影片,並包含多個具起終點的標籤。其中,動作間的時間與複雜度不同,通常較複雜的動作所需window size越大,因此使用單一window size之模型有所限制,為了克服此困難... ### 目前常見作法與SOTA * Adaptive sliding window [ScienceDirect 2017 | Adaptive sliding window segmentation for physical activity recognition using a single tri-axial accelerometer](https://www.sciencedirect.com/science/article/pii/S1574119216302280) >使用決策樹對過渡動作與非過渡動作進行分類,分析加速度儀的PDF機率判斷是否需要延伸window size * :star: [2019 CVPR | Timeception for Complex Action Recognition](https://arxiv.org/abs/1812.01289v2) [github](https://github.com/noureldien/timeception)(tensorflow版本過舊) https://blog.csdn.net/weixin_44402973/article/details/103074326 https://blog.csdn.net/karen17/article/details/95479147 * :star: [IJCNN 2021 | Multi-Temporal Convolutions for Human Action Recognition in Videos](https://ieeexplore-ieee-org.ntust.idm.oclc.org/document/9533515) [github](https://github.com/alexandrosstergiou/Squeeze-and-Recursion-Temporal-Gates/tree/master)  > 使用X3D為backbone,並提出multi-temporal convolution (MTConv),針對多種時間分辨率提取時空特徵,以改善影片中不同動作與時間變化的辨識。MTConv由兩個分支組成,分別專注於短期和長期動作的兩種時空模式,其中包含3DCNN、SoftPool(soft-maximum近似法)。提取出的時間-變化特徵在第三個分支中,透過Temporal self-attention循環單元與全局特徵對齊。MTConv是輕量級的卷積塊,可以整合到任何 3D-CNN 架構中,進而降低計算成本 [2020 | X3D: Expanding Architectures for Efficient Video Recognition ](https://ieeexplore-ieee-org.ntust.idm.oclc.org/document/9156381) * 輕量化 尋找影片中的關鍵幀與關鍵區域(利用空間與時間冗餘性提升效率) [ICCV-2021 | Adaptive Focus for Efficient Video Recognition](https://zhuanlan.zhihu.com/p/416704427) [github](https://github.com/blackfeather-wang/AdaFocus)  >提出Adaptive Focus框架,以更高效的方式來提取特徵,由四個單元組成: >1. Global CNN: 是一個輕量化的捲積網路,用於以低成本對每一幀影片進行粗略處理,獲取其空間分佈資訊。 >2. 策略網路(Policy Network): 是一個循環神經網路(RNN),以Global CNN提取出的特徵圖作為輸入,用於整合到目前為止所有幀的特徵,進而決定當前幀中包含最重要資訊的一個局部patch位置。 >3. Local CNN: 是一個容量大、準確率高但參數量和計算開銷較大的卷積網路(例如ResNet),僅處理策略網路選擇出的局部patch >4. 分類器(Classifier): 為另一個循環神經網路(RNN),輸入為Global CNN和Local CNN輸出特徵的concat,用於整合過去所有影片幀的特徵,以得到目前最佳辯識結果 > * :star: 長影片理解 SOTA [2023 | AdaFocus: Towards End-to-end Weakly Supervised Learning for Long-Video Action Understanding](https://arxiv.org/abs/2311.17118) 無github >提出了一個 AdaFocus 框架,透過弱監督方法為整個影片提供動作標籤,而非動作片段的精確開始和結束時間。AdaFocus 估計動作的尖峰動作和動作的時間位置, 使其能夠自適應的專注於動作剪輯,促進更好的訓練,而無需精確的動作標籤 * HAR SOTA [CVPR-2022 | Revisiting Skeleton-based Action Recognition(PoseC3D)](https://hackmd.io/p1EnyhqRSdiNHPGRBpeKlQ) >提出一個利用3D堆疊熱圖與RGB影像進行HAR的雙通道3DCNN ## 初步預期方法 基於MTConv,使用其他SOTA模型當作backbone(如posec3d),並對關鍵區域加入空間遮罩,針對模擬資料集內兩種狀況 1. 整體動作的快慢 2. 影片內不同動作長短 並與其他baseline model進行結果比較 ### Key World * [Video Action Recognition](https://paperswithcode.com/task/long-video-activity-recognition) * [Human Action Recognition](https://paperswithcode.com/task/action-recognition-in-videos) * Multi temporal Window Size for video-based Human Action Recognition * Adaptive Window Size for video-based Human Action Recognition * Spatio-temporal attention ### Reviw Paper * [action recognition 資料集和研究現狀](https://zhuanlan.zhihu.com/p/86461157) * [Skeleton-based-Action-Recognition 相關reviw](https://github.com/niais/Awesome-Skeleton-based-Action-Recognition#ntu-rgbd) * [2020 | A Comprehensive Study of Deep Video Action Recognition](https://zhuanlan.zhihu.com/p/551812419) * [2022 | Human Action Recognition from Various Data Modalities: A Review ](https://zhuanlan.zhihu.com/p/553262457) * [2024 | Human Activity Recognition (HAR) Using Deep Learning: Review, Methodologies, Progress and Future Research Directions](https://link.springer.com/article/10.1007/s11831-023-09986-x#Sec57) ## 會議記錄 #### 3/13 1. 為何選擇此方法?(此方法的特殊性,是否比其他方法好,有沒有其他方法解決此問題) 2. 動作長短問題的相關reviw 3. 本研究與常見資料集不同,常見資料集通常具有人物移動大範圍特性,本研究針對生產線的動作辨識,其細微動作差異較小(粗粒度行動識別(coarse-grained action recognition)與細粒度行動識別(fine-grained action recognition) 4. 在實際應用中,設計一個方法來improve其結果 ## TODO * 讀 review paper * 找其他 baseline model (SOTA) * 資料集 * AdaFocus ### 資料集 * https://paperswithcode.com/dataset/youcook2 * https://paperswithcode.com/dataset/youcook * https://paperswithcode.com/dataset/epic-kitchens-100 * https://paperswithcode.com/dataset/epic-kitchens * https://paperswithcode.com/dataset/breakfast [CVPR 2024 论文和开源项目合集(Papers with Code)](https://github.com/amusi/CVPR2024-Papers-with-Code) 狀態空間模型(state space model,SSM) 一些基於 SSM 的方法如線性狀態空間層(LSSL)、結構化狀態空間序列模型(S4)、對角狀態空間(DSS)和 S4D
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up