論文：Image-based Deep Learning for Smart Digital Twins: a Review

# 論文：Image-based Deep Learning for Smart Digital Twins: a Review 論文網址：https://arxiv.org/pdf/2401.02523 author: Md Ruman Islam∗, Mahadevan Subramaniam† and Pei-Chi Huang‡ from: Department of Computer Science, University of Nebraska at Omaha,Omaha, NE, USA Keyword: Smart Digital twins(SDTs), Cyber-physical systems, Digital twins ## 摘要 (ABSTRACT) 智能數位孿生（SDTs）的使用越來越廣泛，可以通過持續的數據通部來進行虛擬資料複製與預測複雜物理系統的行為，從而通過控制系統來優化系統的性能。深度學習(DL)大大的加強了智能數位孿生的有效性，特別是在預測維護(predictive maintenance), 異常檢測( anomaly detection), 最佳化(optimization). 文章特別著重於基於圖像的SDTs，這類SDTs利用圖像數據來學習和控制系統行為，應用於醫學、工程和教育等領域。並探討了在數據獲取、處理和解釋方面的議題，並說明未來發展方向和機會。 ## 引言(INTRODUCTION) 數位孿生Digital Twin (以下稱為DT)創建了一個與物理活動平行運行的物理系統的虛擬複製品，實現了從實體到虛擬之間數據**無縫轉移**與**同步**，達成DT的一些特徵包括 1. 感測器和執行器(sensors and actuators) 2. 人工智能（AI）和機器學習（ML） 3. 通信網絡(network for communication) 4. 表徵(representation) 透過感測器收集資訊並交給AI、ML進行分析再透過網絡傳給各個系統，最重點的是實時分析。目前看起來數位孿生目前的發展在圖像的處理是比較大宗的，有像是物體檢測、圖像分類、CV、語意分割，利用各種圖像的Deep Learning 架構。將深度學習與數位孿生結合有幾個主要的重大挑戰，包括像是**需要大量高質量數據集**、**DL模型的可解釋性**，但目前在數位孿生的好處是可以執行實時監控、預測維護和流程優化。本篇論文貢獻： * 基於圖像模型的數位孿生整合 * 對深度學習的詳細性能比較 * 說明其重要性與潛在應用 ## 數位孿生的架構 (ARCHITECTURE FOR SMART DIGITAL TWINS) 大致可以分成兩個系統：物理相關系統(Physical System)和數值相關系統(Digital System)，兩者互相交互來達成數位孿生(如圖一) ![image](https://hackmd.io/_uploads/Hk4o-UKzR.png) 物理系統作為數字系統的根據，同時也根據數值系統的邏輯進行運作，負責模擬的使用者只須要跟物理系統進行互動、操作。數字系統的資料存在雲端，數據的流動可以由下圖表示 ![image](https://hackmd.io/_uploads/S1QiMLKG0.png) ### 物理相關系統(Physical System) 大多數情況代表各種感應器、攝影機、濕度或溫度感應器等資料來源，可以用來蒐集環境數據的實體基礎設施，第一張圖中可以看到有包括車子(自駕車)、攝影機、交通號誌等攝影機拍攝道路基礎設施的照片，將它們傳送到數字系統進行分析和同步，並為物理系統作出邏輯決定。 ### 數值相關系統(Digital System) 包括各類軟體或工具：Unity 3D、Visual Component®、Isaac-sim等模擬軟體，可以用來分析計算模型和處理影像資料接收來自物理系統的圖像數據，同時產生合成數據以訓練ML或AI基礎的模型，生成控制自動駕駛汽車的命令，生成命令後，它將這些命令發送到物理系統中的汽車。因此，這兩個系統之間的數據流動可以是雙向的。 ### 邊緣運算邊緣計算使用分散式計算、存儲和網絡資源處理和分析數據，同時與數據來源和雲端通訊。這種方法有效地解決了像能耗和響應延遲這樣的重大挑戰，並在數據傳輸過程中確保與雲端的可靠無線連接，也就是說如果邊緣運算是可行的那就只需要確保網路的流通速度，就可以讓整體流程大大加速。所以挑戰看起來在5G和6G的發展。 ## 影像資料擷取和預處理(IMAGES DATA ACQUISITION AND PREPROCESSING) ### 1. 感測器與圖像數據收集技術 Sensors and Image Data Collection Techniques 圖像數據收集技術涉及選擇和部署適當的感測器來捕獲來自物理系統的視覺信息。這可以包括`360°攝影機`、`熱像儀`、`網絡攝影機`、`深度感測器`、`RGB攝影機`等。因此，我們可以從廣泛的感測器中選擇一個符合特定類型視覺數據所需的儀器。收集到的數據放入對應的軟體並產出虛擬資料，並且不需要進行額外的預處理與標記 ### 2. 基於圖像的數位孿生的數據預處理方法 Data Preprocessing Methods for Image-based Digital Twins 圖像的預處理在進行虛擬資料的產出之前就先做好了，其中像是`調整大小`、`正規化`、`去噪`和`圖像增強`，都可以在獲取資料之前先在DT中使用。 ### 3. 處理數位孿生圖像數據的挑戰和考慮 Challenges and Considerations in Handling Image Data for Digital Twins `感測器校準`、`數據同步`、`存儲`、`隱私`、`安全`， ## 數位孿生中的影像AI (IMAGE-BASED INTELLIGENCE ALGORITHMS IN DIGITAL TWINS) 各種影像相關的模型，有包含One-stage(SSD、YOLO)也有Two-stage(R-CNN)的 ### CNN 從圖像中提取特徵並透過激活函數學習分辨圖片，像是AlexNet（2012）、VGG（2014）、GoogLeNet（2014）和ResNet（2015）主要目的是對`圖像進行分類`，而不是檢測物體，如果圖像中有多個物體或小物體、重疊場景以及與鄰近物體對比低的時候就難處理 ### R-CNN Base 原始CNN將區域的圖像數據轉換為227×227的固定像素大小，R-CNN中改成將CNN從輸出的2000個特徵區域中為每個區域提取一個4096維的特徵向量。最後，SVM使用CNN輸出對檢測到的物體進行分類。但這樣花費的時間很長，導致處理一張圖像的時間增加到47秒。改良成Faster-RCNN [[相關論文說明]](https://ivan-eng-murmur.medium.com/object-detection-s3-faster-rcnn-%E7%B0%A1%E4%BB%8B-5f37b13ccdd2)，每一秒可以處理五張照片(5fps)，還是不夠快來實時檢測物體。 ### YOLO Base 每秒可以處理145張(145fps)，透過計算信心分數，慢慢消除邊界框直到確定物體有在邊界框中。YOLO很適合做到實時檢測物體，文章中說明的是YOLOv5，但現在(2024.05.09)已經到YOLOv9了。 ### MediaPipe[[官方網站]](https://developers.google.com/mediapipe) Google 開發的一個平台獨立且開源的基於深度學習的計算機視覺框架。這個平台獨立的框架可以設置在 iOS、Android、雲端和 IoT 平台上。一旦在某個平台上建立，這個框架就可以轉移到另一個平台進行部署。此外，它是一個開源產品，因此開發者可以根據他們的需求修改它。可以少花力氣來支持多個框架建立模型，並且支持 GPU、CPU 和 TPU 來快速訓練模型。有一些基礎應用像是`二維和三維物體檢測和追踪`、`臉部檢測`、`手勢追踪`、`人體姿態檢測和追踪`、`頭髮分割` etc。 ### 3D-VGG and 3D-ResNet [[相關文章]](https://danjtchen.medium.com/vgg-%E6%B7%B1%E5%BA%A6%E5%AD%B8%E7%BF%92-%E5%8E%9F%E7%90%86-d31d0aa13d88) 模型保留了VGG的結構，但修改了包括輸入大小、通道和用於3D數據的卷積核等不同的參數。3D-ResNet模型基於ResNet架構，引入殘差塊以解決深度網絡訓練的難題。利用三維卷積核同時提取空間和時間特徵，從而提高了HMI問題的數據分析效率。 ### Single Shot Detector (SSD) [[相關文章]](https://medium.com/ching-i/single-shot-multibox-detector-ssd-%E8%AB%96%E6%96%87%E9%96%B1%E8%AE%80-1f2cc7a452e0) 使用一系列具有不同空間分辨率的卷積層，稱為特徵圖，來捕獲信息。它利用這些特徵圖來確定邊界框並計算輸入圖像中各種尺寸物體的概率。 `自動駕駛`、`監控系統`和`物體跟蹤系統`廣泛使用這種方法，這些應用需要快速且準確的物體檢測。例如，使用這個模型來建立DT系統，用於監控道路基礎設施中的物體檢測。 ## 各模型效果比較(PERFORMANCE COMPARISON OF DEEP LEARNING MODELS) 從表一中可以看到各種模型的比較，像是他們可以做的Task和相關的Backcone和優勢與劣勢，可以根據不同的應用來去選用不同的模型，表二會有比較多的模型效能比較。 ![image](https://hackmd.io/_uploads/rJkqOJ5MR.png) 表二根據不同的Dataset的結果進行分類，可以看到相關的表現與檢測速度，分成幾個任務：圖像分類、物體檢測、實時的物體檢測、3D數據處理，但都是從其他人的論文Reference出來的，所以如果要知道詳細的內容要回去看相關的論文。 ![image](https://hackmd.io/_uploads/rkMOKJcz0.png) 在表三中整理了不同的應用使用的不同相機，這邊可以看看就好，如果有真實用例可以參考這邊。 ![image](https://hackmd.io/_uploads/H1Ya91qzC.png) ## 目前遇到的挑戰與研究方向(CURRENT CHALLENGES, SITUATIONS, AND RESEARCH DIRECTIONS) 目前來說，使用DT數位孿生在智慧製造、醫療保健、能源、交通和智慧城市相關領域越來越受歡迎，利用其優化運營、改善維護、增強產品開發，並實現數據驅動的決策。 ### 挑戰模型結果缺乏可解釋性，再來是使用現實世界數據進行測試可以實現實際驗證，但面臨**數據品質**和**覆蓋率**的挑戰。解決相關的問題可以提高模型準確性、可靠性和可信度。 ### 研究方向 * AI 加速：像是模型辨識速度、分類速度，數值預測速度加快，並且要可以自我更新參數，透過數值系統傳進的新數據進行模型調整。 * 如何將辨識速度與精度做取捨 * 如何選擇正確的相機(感測器)：透果正確的感測器來建構Digital Twin * 使用多模態數據：結合語音辨識和臉部表情或身體動作來提高相關性能 * 利用小數據集建構深度學習網路 ## 結論 * 智能數位孿生（SDTs）的價值：SDTs已成為複製和預測複雜物理系統行為以優化其性能的重要系統。 * 深度學習模型的應用：DL模型在增強SDTs的性能方面表現出顯著潛力，尤其適用於維護、異常檢測和優化等領域。 * 基於圖像的SDTs發展：本文詳細介紹了基於圖像的SDTs的發展，探討了設計和實施DL模型時遇到的挑戰，如數據獲取、處理和解釋。 * 未來發展方向： * 利用生成模型進行數據增強。 * 探索多模態DL方法。 * 與新興技術如5G、邊緣計算和物聯網（IoT）整合。 * 推動行業採用：透過本文分享的洞見，更多行業可以採用DT範式，開發新方法來提高SDTs在複製、預測和優化複雜系統行為的能力。

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.