0918 - HackMD

## 宜 # Unified Keypoint-Based Action Recognition Framework via Structured Keypoint Pooling(2023) https://cvpr.thecvf.com/virtual/2023/poster/21672 這篇論文提出了一個名為「Structured Keypoint Pooling」的統一骨架點（keypoint）為基礎的動作識別框架，旨在解決傳統骨架點動作識別方法的三大限制，包括骨架檢測與追蹤錯誤、動作類別的限制，以及人物和畫面級別的動作識別。具體來說，該框架利用了3D點雲深度學習的概念，將時間序列的骨架點數據作為輸入，並通過一種新穎的深度神經網絡架構來進行特徵提取。這種方法通過「結構化關鍵點池化」技術對關鍵點進行特徵聚合，並能夠有效應對輸入錯誤。其架構不受限於追蹤，能夠處理包括人體骨架和非人體物體輪廓的時間序列數據。論文還提出了「Pooling-Switching Trick」，在訓練和推斷階段切換池化核來進行弱監督的動作定位。此外，該方法還引入了新的數據增強技術，通過混合不同視頻中的點雲來進行訓練。實驗結果顯示，該方法在動作識別和時空動作定位任務中，均超越了現有的最先進方法，並且具備更高的運行效率和較強的魯棒性。 * 資料集: 1. h1Kinetics-400：這是大型的視頻資料集，包含400個動作類別，用於動作識別。 2. UCF101 和 HMDB51：這兩個資料集常用於視頻動作識別，UCF101 有101個動作類別，HMDB51 有51個動作類別。 3. RWF-2000, Hockey-Fight, Crowd Violence, 和 Movies-Fight：這些資料集主要用於暴力行為識別，包含暴力和非暴力兩類動作。 4. Mimetics：這是一個小型視頻資料集，包含50類模仿動作，用於測試方法在不同外觀背景下的泛化能力。 5. Mixamo：一個虛擬動作識別資料集，包含14種不同的動作，主要用於域適應任務。 * 使用的模型: 1. Pose Proposal Networks (PPNv2)：用於檢測人體骨架和物體輪廓的關鍵點，從RGB影像中快速生成關鍵點資訊。 2. HRNet：這是高效的人體姿勢檢測模型，用於生成高質量的人體關鍵點，主要用於與其他骨架基礎的動作識別方法進行公平比較。 # HumanBody-Skeleton-Detection-using-OpenCV-Python(2021) https://github.com/javaidiqbal11/HumanBody-Skeleton-Detection-using-OpenCV-Python 問題陳述：這項專案旨在通過從攝像頭獲取的視訊流，偵測和追蹤人體的主要關節位置，並建立人體骨架模型。該系統的最終目標是將這技術運用在手持設備如智慧型手機和平板電腦上。目標：透過影像或視訊來偵測人體的關鍵點並追蹤其動作。該模型使用改進的身體部位偵測器，並提出一種增量優化策略，提升多人的姿勢估計性能。模型架構：使用了多階段的卷積神經網路（ConvNet）架構，基於VGGNet進行關鍵點預測，並生成身體部位之間的關聯向量場。這個系統能夠產生關鍵點的信心圖，進行多人的姿勢估計。資料集: • COCO dataset • MPII dataset 應用場景：體育運動追蹤人體動作分析健身和體操運動的姿勢改進監控與行為分析失敗案例：報告中也指出了一些失敗情況，主要是當多個人靠得過於近時，系統可能難以有效區分各個人的骨架，這是目前的一個挑戰和限制。 # Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches (2024) https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_Exploring_Vision_Transformers_for_3D_Human_Motion-Language_Models_with_Motion_CVPR_2024_paper.pdf 這篇論文主要探討了如何利用視覺Transformer（Vision Transformer，簡稱ViT）來實現3D人體動作與語言模型的跨模態學習，並提出了一個名為“動作補丁”（motion patches）的新技術。以下是論文的重點和技術實現方式：問題背景： 3D人體動作與自然語言的跨模態分析應用廣泛，如動作識別、文本生成動作等。這類任務的核心在於建立一個能夠理解和生成基於文本描述的動作的跨模態潛在空間。目前最大的挑戰是缺乏大規模的高質量動作數據，因為3D人體動作數據的收集和標註成本高昂且繁瑣。主要貢獻：論文提出了一個使用ViT進行3D動作編碼的框架，通過從2D圖像領域遷移學習，來應對動作數據的稀缺性。提出了一種新穎的動作表示方法“動作補丁”，將骨架關節根據人體的不同部位分割，並通過線性插值生成類似於圖像補丁的表示形式。這些補丁能夠在ViT中進行處理，使得不同骨架結構的動作數據能夠以統一的方式進行表示。實驗結果顯示，使用ViT和動作補丁能在文本到動作檢索、跨骨架識別、零樣本動作分類等任務中取得最先進的性能。技術細節： * 動作補丁技術：通過對人體骨架的不同部位（如軀幹、手臂、腿等）進行關節分割，並在每個部位中通過線性插值生成N個點，這些點跨越N幀形成動作補丁，這使得不同數據集的骨架結構能夠以統一的方式表示。 * ViT遷移學習：使用在ImageNet上預訓練的ViT模型，將動作數據表示為與圖像補丁相似的“動作補丁”，從而加速訓練過程，並提高模型對動作特徵與語言特徵之間的對應關係。 * 對比學習：在訓練過程中，使用對比學習框架來優化動作與文本之間的相似性度量，從而學習出一個能夠進行動作-語言匹配的潛在空間。總結來說，這篇論文通過引入動作補丁和ViT的遷移學習，克服了3D動作數據稀缺的問題，並在動作與語言模型的建設上取得了顯著的成果。使用的資料集： 1. HumanML3D：這是一個針對動作-語言對應的標準資料集，包含自然語言標註的動作數據。資料集提供了來自AMASS和HumanAct12的動作數據，並為每個動作序列附加了文本描述。HumanML3D資料集具有約29小時的動作數據，並且每個動作平均有3個不同的文本標註。此資料集被用來進行文本到動作的檢索以及動作到文本的檢索。 2. KIT Motion-Language Dataset (KIT-ML)：這個資料集主要聚焦於動作的行走姿勢，來自運動捕捉數據，並且每個動作配有語言描述。該資料集主要用來測試模型在動作到文本和文本到動作檢索中的表現。 3. BABEL：這是一個包含人體動作的分類資料集，並且這些動作有詳細的語言標註。此資料集包含10,892個動作序列，並分為60個動作類別。該資料集被用於進行零樣本的動作分類實驗。 4. InterHuman：這是一個包含多個人物互動的3D動作-語言資料集，專門用於測試和評估多人物互動的動作識別和語言檢索任務。該資料集包含雙人動作的描述和對應的語言標註。使用的模型： 1. Vision Transformer (ViT)：作者使用了ViT-B/16模型，這是一種基於Transformer的架構，最初設計用於圖像分類任務。該模型先對圖像進行分塊，並將這些圖像塊轉換為1D的Token來進行學習。在本文中，作者將ViT應用於3D動作序列，通過動作補丁將動作序列轉換為類似於圖像塊的形式，並使用已在ImageNet-21k上預訓練的ViT進行遷移學習。 2. DistilBERT：在語言編碼部分，作者採用了DistilBERT，這是一個經過蒸餾技術優化的BERT模型，具備較小的模型規模和更高的效率。DistilBERT被用來將文本描述轉換為語義特徵，並與ViT生成的動作特徵進行對比學習。 ## 黃 # mRI: Multi-modal 3D Human Pose Estimation Dataset using mmWave, RGB-D, and Inertial Sensors(2022) https://proceedings.neurips.cc/paper_files/paper/2022/file/af9c9c6d2da701da5a0acf91ec217815-Paper-Datasets_and_Benchmarks.pdf ## 王 * A Method for Specifying Yoga Poses Based on Deep Learning, Utilizing OpenCV and Media Pipe Technologies(2024) https://www.scpe.org///index.php/scpe/article/view/2590?fbclid=IwZXh0bgNhZW0CMTAAAR2vvP97guKpzyLf-N3GJkZzEC2nJgtAKILpeAVFgvM5c6bHXHanZijlH1I_aem_r3sip4pU1zDpKGRvHmFcDA * Yoga pose perfection using Deep Learning: An Algorithm to Estimate the Error in Yogic Poses(2021) https://www.jsr.org/hs/index.php/path/article/view/2140