# NTUST Edge AI 111-02 期末專題報告 ## 資工系產碩AI專班_M11115Q20_羅述慈 ### 1. 作品名稱 **基於 Transformer 跨模態融合的 YOLOv8 物件偵測** ### 2. 摘要說明 本篇旨在開發一個無人機物件偵測系統,能夠檢測並識別場景中的車輛和人。系統將同時使用熱影像和 RGB 影像進行特徵提取,以提高偵測的準確度和可靠性。熱影像可在惡劣氣候下工作,例如夜間或是多霧多雨等情況,並優於可見光影像在照明不良時的表現。而RGB影像則提供了更多的細節和紋理信息,使物件識別更精確。這項研究具有廣泛的實際應用價值,例如在搜救任務、交通監控和安全防護等領域。通過結合熱影像和 RGB 影像的特徵,期望提供一個高效、靈活和準確的無人機物件偵測解決方案。 這個專題中,使用基於 YOLOv8 的 backbone 作為物件偵測的框架。並且引入雙流輸入,即熱影像和 RGB 影像。使用 Transformer 來融合這兩種影像的特徵,並學習遠程的交互關係。這種架構將提高物件偵測的準確度和可靠性,並允許模型更好地理解物件的外觀和熱特徵之間的關聯。 透過實驗的結果比較,證明了本專題中融合RGB和熱影像的方法的有效性。單獨使用RGB或熱影像的方法與本專題的方法進行比較,結果顯示本專題的方法表現最好。這意味著融合RGB和熱影像的特徵能夠提供更準確的物件偵測結果,超越了單獨使用RGB或熱影像的方法。 ### 3. 系統簡介 ![](https://hackmd.io/_uploads/Bk2BQloL3.png) 為了能夠更好的融合熱影像以及 RGB ,本方法擴展了 YOLOv8 的框架,將 YOLOv8 特徵提取網路重新設計成雙流的主幹,同時輸入熱影像以及 RGB 並且透過 Transformer 模塊進行融合。 如上圖所示:backbone有兩部分,一個雙流特徵提取網絡 (YOLOv8) 和三個 Cross-Modality Fusion (Transformer)。 #### 創作發想 探索融合熱影像和RGB影像的無人機物件偵測系統,以提高準確度和可靠性。透過結合兩種不同影像模態的特徵,追求在惡劣氣候和低照明環境下實現優異的物件識別能力。這種的方法可應用於無人機技術在搜救、交通監控和安全領域的應用。 #### 硬體架構 GPU GeForce RTX 3060 CPU Intel(R) Core(TM) i7-10700 CPU @ 2.90GHz #### 工作原理及流程 1. 資料集整理 ( RGB + Thermal Pair ) 2. 修改論文架構 * 改成 YOLOv8 backbone * 同時抓取 Thermal 和 RGB 的 feature 3. Train 4. Evaluation * 比較 Input 為 RGB, Thermal, RGB + Thermal 的 Performance #### 資料集建立方式 本專題使用的是 LLVIP 資料集,LLVIP(Low-Light Visual Image Enhancement Challenge)資料集是一個專注於低光照條件下影像增強的資料集。該資料集包含了大量在低照明環境下拍攝的影像,共有 15488 張成對的 RGB +熱影像照片,類別為Person(0)。 #### 模型選用與訓練 在這個專題中,使用YOLOv8作為物件偵測的backbone模型,並採用雙模態訓練方式,同時傳入RGB影像和熱影像。 首先,將RGB影像和熱影像作為輸入,經過各自的預處理步驟後,進入YOLOv8模型。這兩個模態的輸入分別提取特徵並進行物件偵測。 為了進行特徵融合,引入 Transformer 模型。Transformer 模型接收來自YOLOv8的特徵表示,並利用自注意力機制對兩個模態的特徵進行交互和融合。透過 Transformer 的學習,模型能夠捕捉到 RGB 和熱影像之間的遠程關係,並生成融合後的特徵表示。 在訓練過程中,使用雙模態的損失函數,同時考慮RGB影像和熱影像的物件偵測結果,並根據兩個模態的預測結果進行反向傳播和參數優化。 這種雙模態的訓練方式以及融合RGB和熱影像的Transformer架構,能夠充分利用兩個模態的特徵,提高物件偵測的準確度和可靠度。 ### 4. 實驗結果 ![](https://hackmd.io/_uploads/SJ1MSXiUh.png) #### 測試與比較 以下為單獨使用RGB或熱影像的方法與本專題的方法進行比較,結果顯示本專題的方法表現最好 (Thermal+RGB) 。融合RGB和熱影像的特徵能夠提供更準確的物件偵測結果,超越了單獨使用RGB或熱影像的方法。 | Column 1 | Images | Instance |Box|R|mAP50|mAP50-95| | -------- | -------- | -------- |--------|--------|--------|--------| | **RGB** | 3463 | 8302 |0.8738|0.818|0.885|0.505| | **Thermal** | 3463 | 8302 |0.949|0.906|0.95|0.63| | **RGB+Thermal** | 3463 | 8302 |**0.953**|**0.918**|**0.966**|**0.633**| ### 5. 結論 透過基於 Transformer 的融合方法來學習長程相依性並整合全局上下文信息,從而增強多光譜物體檢測中的雙流 CNN 的表示能力。 具體而言,Transformer 模塊被密集地插入到主幹網路中以整合特徵,從而可以充分利用不同模態之間的內在互補性。此外,透過在 LLVIP 資料集中驗證該方法的有效性。該方法也能夠應於於其他多模態融合的任務上,如RGB-LiDAR。 ### 6. 參考資料 [Cross-Modality Fusion Transformer for Multispectral Object Detection ](https://arxiv.org/abs/2111.00273) ### 7. 附錄 [github](https://github.com/rorubyy/thermal_rgb_fusion_yolov8)