黃: 4:45 各位評審好,我們專題的主題是居家復健智能評估系統,基於深度學習之三低骨架評分及視覺化回饋 我們的組員有xxx,xxx,xxx以及xxx 我們會先介紹研究的背景和動機,再來是目的,整體的架構圖,方法技術,實驗設計,實驗結果,網站流程圖,成果展示,最後是結論和未來展望 根據衛福部的統計,台灣即將邁入超高齡化社會,慢性病和行動患者的人數逐年上升,再加上城鄉之間的醫療資源差距很大,住在鄉下地區的民眾不方便就醫,以及預防流行疾病突然興起,像是之前新冠肺炎導致民眾不方便外出和就醫,還有交通事故、運動傷害導致的肢體損傷案也日益增加 那本研究的目的是希望運用深度學習的技術,來提出一個居家的復健智能評估系統,那此系統的優點有三項,第一個是硬體的設備需求較低,使用手機或電腦攝像頭就能錄製影片,第二個是不需要專業的人員在旁邊協助,第三個是在家就可以進行復健,不需要另外再去醫院,此系統的功能有兩項,第一個是會依據動作的準確度去做評分,第二個是會針對錯誤的關節進行標記和分析 那我們整體的架構會由三大部分組合而成,分別是3D Human Pose Estimation,Automated Poseture Assessment,和Human Pose Feedback,一開始使用者會上傳錄製好的影片,經過3D Human Pose Estimation將影片轉換為骨架之後,再透過Automated Posture Assessment和Human Pose Feedback來呈現最後的動作評估分數和標紅關節點位 那3D Human Pose Estimation使用的技術是Motion Attention-GCNFormer,在後面會稱作MotionAGFormer,Automated Poseture Assessment使用的技術是STGCN和LSTM,Human Pose Feedback則是用Dynamic Time Warping,在後面會稱作DTW 在3D Human Pose Estimation中,我們使用的是MotionAGFormer,是使用H3.6M公開資料集進行訓練,那一開始會先將使用者上傳的影片,經過Fully Connected Layer和Spatial Position Embedding,再進入到AGFormer裡面,那AGFormer是同時進行Transformer和GCNFormer這兩條路徑,兩條路徑會是平行的狀態,首先在GCNFormer這條路徑上,會採用Graph Convolutional Network,會先進行空間建模再來是時間建模,處理局部的空間與時間上的關係,而在Transformer這條路徑上,會採用Multi-Head Self-Attention,一樣先進行空間建模再進行時間建模,用來處理整體的空間與時間上的關係,可以看到這兩條路徑在空間建模和時間建模的中間有一個Reshape的動作,是因為進行空間建模和時間建模所需要的資料排序不一樣,所以要先將資料的順序重新排序,再進行時間建模,後續會融合這兩條路徑學習到的資訊,再經過Fully Connected Layer和Regress Head,最後輸出成關節點的座標序列,提供給後續兩個部分使用 廖: 1:45 接下來是Automated Posture Assessment,這個部分使用了KIMORE資料集做動作評分模型的訓練,模型針對整段骨架動作序列進行分析,並根據動作準確度輸出介於1至50分的量化指標,而不是做正確還是不正確的分類判斷。 我們採用了ST-GCN模型,能夠同時處理空間與時間的資訊。空間部分是透過圖卷積捕捉關節之間的關係;時間部分則用時間卷積提取如速度、加速度與節奏等動作特徵。 為了因應影片長度不固定的問題,我們在ST-GCN之後加入了LSTM層,用來記憶長時間的動作變化,避免資訊遺失,提升模型在不同節奏與動作長度下的穩定性。 此外,系統在STGCN模型中進一步整合了一個具備自注意力機制的ConvLSTM模組學習關鍵關節的時間與空間特徵,根據不同動作動態調整各關節的重要性,讓模型能更聚焦在如膝蓋、肩膀等關鍵部位上,提升評估的準確性。 最後將提取到的特徵傳入全連接層進行回歸,輸出一個連續的評分數值(滿分為50)。我們採用了Huber Loss作為損失函數,能在誤差小時精確學習,在誤差大時減少異常極端值的影響,提升整體模型的穩健性。 影片(王):2:55(應該 這是我們的網站頁面,在首頁正下方點擊箭頭,就可以觀看四個動作的示範影片,以及它們對應的骨架視覺化轉換。動作一爲手臂舉起,動作二爲軀幹側傾,動作三為軀幹旋轉,動作四為深蹲。 接著,點擊右上角的 About 按鈕,會顯示網站的介紹與使用說明,讓使用者能更了解網站的內容與操作方式。 接下來,我們點擊 Start,實際進行復健動作的評估。這裡可以選擇拖曳或點擊,來上傳想要進行評估的影片。並選擇對應的復健動作,即可上傳並進行 3D 骨架轉換與動作評估。因為上傳與分析會花費一些時間,所以我們這邊加快略過。 上傳成功後,可以觀看影片的 3D 骨架轉換結果,並進一步檢視最終的分析結果。 在這個畫面中,右邊顯示的兩個骨架,左邊藍色為是使用者,右邊紅色則為資料庫中專家的 3D 骨架。可以使用滑鼠滾輪進行縮放,左鍵則能轉動角度,讓使用者可以從各個角度全方位檢視骨架。點擊暫停按鈕,也能更清楚地觀看骨架細節。下方的分數即為此次動作的評估分數,滿分為 50 分。 左下角是不同時間段中,錯誤關節的分析圖。系統將身體分為九個部位進行分析。圖中的紅點代表該時間點使用者的關節角度,與資料庫中專家的標準相比,誤差超過 20 度,即視為錯誤。 當出現錯誤時,上方的指示燈也會亮起紅燈,旁邊會顯示錯誤的關節角度,骨架上也會標記出對應的錯誤部位,幫助使用者了解自己容易出錯的身體區域。右邊則會顯示整段影片中,各個關節的總錯誤率與錯誤次數,並計算出整體的總錯誤率。如果想要進行新的動作評估可以點擊右上角的重新開始按鈕即可,希望透過這個網站,能讓每一位使用者都能更容易掌握自己的復健狀況,提升復健的效果! # Feedback > feedback+DTW 2:30 接下來我要介紹的是我們系統中的 Human Pose Feedback。 目標是分析與專家的動作差異並呈現於回饋介面,且以圖像而非文字呈現回饋資訊,讓使用者能更直觀地理解動作誤差,提升學習效果 輸入資料是使用者的 3D 骨架,共包含 17 個關節點,如左圖所示。 而右圖則是從這 17 個關節中,挑選出與動作評估最密切相關的 9 個關鍵部位,用來進行錯誤分析及顯示。 每個關鍵部位是由該關節與其相鄰兩關節點形成的夾角所計算而得,組成每一幀的角度矩陣。 接著,我們將使用者與專家的角度矩陣輸入到DTW(動態時間扭曲)演算法中,進行時間序列的對齊。 對齊完成後,系統會逐幀比較使用者與專家之間在每個關節的角度差。當某個關鍵部位的角度差異超過 20 度時,就會被系統標記為錯誤。 最後,Feedback的部分會輸出三種回饋資訊: 錯誤部位:哪一個關鍵部位出現錯誤 錯誤角度:該關鍵部位在當幀的角度與專家相差多少 錯誤幀數:各關鍵部位分別在哪幾幀中出現錯誤 錯誤幀數可以進一步計算出錯誤百分比,讓使用者了解到在整段動作中的錯誤比率。 這些分析資訊將會呈現在回饋介面中,並以表格與紅點提示的方式呈現,也會同步顯示在回饋頁面右側的使用者骨架上,讓使用者能清楚了解自己動作錯誤的位置與時間點。 # DTW 在我們的feedback中,DTW是很關鍵的技術,他可以在時間上對齊使用者與專家骨架數據,以解決動作時長不同所導致的比對困難。 其公式如下所示,D(i,j)為歐幾里得距離,也就是兩個點之間的距離,而C(i,j)則是計算出的累積距離矩陣。(((((也要解釋整體公式 接下來我們看一下下面這兩張圖,左圖是將幀數直接對照,右圖則可以清楚地看到時間扭曲的效果。 圖中藍色與紅色的曲線代表兩個要對齊的時間序列,雖然他們形狀和速度有點不同,但我們可以透過DTW畫出他們的對齊線。 我們可以看到,箭頭處的紅線點位對應到好幾個藍線上的點位,表示那段動作紅線做得比較慢,因此要對齊紅線和藍線的時間差距。 # 實驗設計 > 實驗設計加結果 2:00 在實驗設計的方面, 鑑於本系統中Automated Posture Assessment的動作評分模型與Human Pose Feedback的錯誤關節標示機制是建立在不同的演算法架構與評估邏輯下,兩者各自獨立運作,評估的依據與輸出形式亦不相同。為了確認其間是否存在評估觀點上的落差,本研究進一步探討這兩者之間是否存在一致性的對應關係,藉此驗證系統內部分析機制的整合性與可信度。 下方是我們的動作種類 而右側的公式是我們計算正確百分比的方式:..... 以簡單的例子來說: 假設有10幀動作序列,每幀需要比對的關節有9個。其中,有3個關節在6幀中皆出現錯誤,其正確百分比計算如下所示..... # 實驗結果 接下來是我們的實驗結果 圖表中的橫軸為動作評分模型所評估的評分,縱軸為錯誤關節標示機制所計算出的正確百分比 整體觀察可見,四個動作皆呈現顯著的正相關趨勢:當使用者動作的正確百分比越高,其模型評估分數越高,反之亦然。 此結果證實系統內兩種獨立運作的分析機制在實際應用中具有高度一致性與對應性。 而細看實驗結果我們可以得出 動作1及動作2因為較為簡單,涉及的關節少,因此評估分數與正確百分比雖呈現正相關但沒有其他動作那麼明顯 而動作3及動作4較為複雜,涉及較多關節的協調,因此模型對動作差異特別敏感,評估分數與正確百分比高度相關 ((((動作1與動作2相對較為簡單,因此其評估分數與正確百分比雖呈現正相關,但相關性不如其他複雜動作明顯。相比之下,動作3與動作4較為複雜,模型對動作差異更為敏感,評估分數與正確百分比之間呈現高度相關。 # 網站流程圖 > 0:30 這是我們網站的流程圖。使用者在選擇欲執行的動作並上傳影片後,系統會將影片傳送至後端進行處理。處理完成後,網站會分別呈現兩個結果頁面:一是骨架轉換後的影片呈現,二是評估分數與動作分析回饋。完成評估後,使用者可以選擇是否重新開始進行下一個動作的評估,或結束本次操作。 # 成果展示 接下來是我們的成果展示,這是我們設計的網頁回饋頁面,詳細的操作流程我們將在demo影片中詳細解釋 # 結論 我們降低設備門檻讓使用者可以利用手機及筆電鏡頭即可拍攝影片上傳 同時我們架設網站使操作流程簡化,讓一般使用者或醫療機構能直接應用,也實現居家復健的效果 在網頁設計上,我們的系統結合了3D人體姿態估計技術,提供1 到 50 分的量化評分指標,並搭配錯誤關節的視覺化標記,形成一套雙重回饋機制:一方面提供整體動作準確度的評分,另一方面以視覺化的方式精確指出使用者動作中出錯的關節部位,幫助使用者更有效地進行動作修正與調整。 # 未來展望 我們希望可以擴充動作資料庫,使其不只四個動作,並優化模型架構,使回饋更加快速與精準 在使用者端,可以加入歷次復健數據紀錄與趨勢追蹤功能,讓使用者可以看到自己長期復健的恢復趨勢與階段性成果 針對回饋介面的呈現,可以加入身形標準化技術,使專家與使用者的身長差異可以更準確的對齊,也可以在網頁部分加入蒙皮網格模型,讓整個骨架動作回饋更加視覺化且直觀 # 正確百分比舉例 假設有 **10 幀** 動作,每幀需要比對的關節有 **9 個**, 其中,有 **72 個關節是正確的**(角度差小於 20 度)。 正確百分比 = $\frac{72}{10 \times 9} = \frac{72}{90} = 0.8 = 80\%$