survey - HackMD

# survey 近年論文研究模型主要為YOLO、transformer各式變體(含DETR、Swin Transformer等)、R-CNN家族、SSD、CenterNet、EfficientDet等。 ## Towards an End-to-End Framework of CCTV-Based Urban Traffic Volume Detection and Prediction. 2021 ![image](https://hackmd.io/_uploads/r13BYptqgg.png) + 資料集來源：英國當地CCTV即時影像 + Workflow： 1. Faster R-CNN微調(使用1269張照片，其中50張用於對照) ![image](https://hackmd.io/_uploads/H1AHR6tclg.png) 2. 車輛數量估計與訓練後評估 3. traffic volume的normalization 4. 預測模型的參數化、訓練、預測 -> past sequence: 24h、aggregation period: 30min ![image](https://hackmd.io/_uploads/ryx00IZslx.png) 5. implementaion + 測試了三種預測方法：SARIMAX、Random Forest、LSTM，其中RF效果最好；SARIMAX效果最差 + 使用一個月與四個月的交通流量進行訓練與測試 + 三個error metrics用於量化誤差 + mean absolute error (MAE) + mean absolute percentage error (MAPE) + root mean square error (RMSE) ![image](https://hackmd.io/_uploads/HyslrRFqxx.png) ![image](https://hackmd.io/_uploads/ByOiU0t5xe.png) + 預測結果： + 使用一個月的流量訓練： ![image](https://hackmd.io/_uploads/ry4bnJncge.png) + 使用四個月的流量訓練： ![image](https://hackmd.io/_uploads/BJTZnJ29el.png) + 預測結果：即使中途有數據缺失也能夠成功預測最後一天的交通流量。 ![image](https://hackmd.io/_uploads/rJDDRLbjxg.png) ## Improved Mask R-CNN Multi-Target Detection and Segmentation for Autonomous Driving in Complex Scenes. 2023 ![image](https://hackmd.io/_uploads/HJ0c_S09gl.png) ![image](https://hackmd.io/_uploads/BJgFyhPWjge.png) + 資料集來源：CityScapes，training set 2334張、validation set 500張、test set 500張。只偵測五個種類：car、pedestrian、truck、bus、rider + 針對Mask R-CNN的改良： + 用ResNeXt取代ResNet，使用grouped conv提升特徵提取能力。 + 在原有的FPN上新加入bottom-up structure，縮短底層到頂層的資訊路徑，讓頂層特徵包含更多底層定位資訊。 ![image](https://hackmd.io/_uploads/SkinyiWige.png) + Efficient Channel Attention：先對輸出特徵做Global Avg Pooling，再用1d conv實現跨通道互動，最後經Sigmoid得到通道權重。 ![image](https://hackmd.io/_uploads/ByLA1i-ogl.png) + loss function由smooth L1改成CIoU。 + 測試結果(逐步加入以上改進)： ![image](https://hackmd.io/_uploads/HJqQk5Zoex.png) + ResNeXt: 針對小目標(行人、騎士)的提升明顯 + FPN: 針對多目標密集場景有顯著提升，segementation對pedestrian、truck、bus三類有顯著提升 + ECA: 各項數據有部分提升 + CIoU: 各項數據有微小提升，detection的truck、segementation的truck、rider略有降低，應是因為truck、rider目標較少導致結果不穩定。 + detection提升4.73%、segmentation提升3.96% + 模型複雜度： ![image](https://hackmd.io/_uploads/SydSQc-ixe.png) + ResNeXt: 減少參數數量並提升效能。 + FPN: 雖然增加了一定等級的計算複雜度與參數數量，但提昇效果顯著。 + ECA: 幾乎沒有增加參數數量卻顯著提升模型效能。 + CIoU: 未改變參數數量，但能獲取更精準的bounding box來提升效能。 + 額外使用BDD dataset進行泛化能力測試 ## Automatic Vehicle Detection using DETR: A Transformer-Based Approach for Navigating Treacherous Roads. 2025 ![image](https://hackmd.io/_uploads/SkKnmv-sxg.png) + 資料集來源：BadODD，為孟加拉各地路況資料集，training 5896張、testing 1964張，共9825張。共標註78943個object，分為13個類別。 ![image](https://hackmd.io/_uploads/BygQ8PWiex.png) + Data Preprocessing: + Histogram Equalization + Contrast Limited Adaptive Histogram Equalization + Gamma Correction + 最初使用YOLOv8m，但在險峻路況表現欠佳，轉而使用基於transformer，並結合Collaborative Hybrid Assignments Training的Co-DETR。透過transfer learning針對嚴苛路況進行調整。 + 訓練結果： ![image](https://hackmd.io/_uploads/ByvH9DZjel.png) ## Vehicle detection and classification for traffic management and autonomous systems using YOLOv10. 2025 + 當前主流的微小目標偵測方法比較 ![image](https://hackmd.io/_uploads/SyCqHWMhel.png) + Super Resolution運算成本高昂不適合及時場景；Attention Mechanism在不同場景存在泛化問題；Multi-Scale Feature Learning需要針對計算複雜度進行優化。 + YDFNet: 結合YOLO、DETR、BiFPN的架構。 + YOLOv10 + 快速的特徵提取能力 + DETR: + attention機制讓DETR在長距離目標與密集遮擋情境的複雜場景表現比YOLO好 + 優秀的global feature modeling能力 + 速度慢、複雜度高、小目標偵測較弱 + BiFPN: + 使用BiFPN來提升針對交通場景中不同大小尺度的特徵提取 + 相對於傳統FPN加強了資訊流效率 + 透過model pruning、quantization等lightweight optimization讓YDFNet可以應用在即時任務 + 資料集來源：UA-DETRAC、COCO。 + UA-DETRAC: 140萬個frame影像，不同城市、時段、天氣的高解析度畫面，主要特徵為目標密度高、尺度變化大及遮擋嚴重。共四個種類：minibuses、buses、large trucks、minivans。 + COCO: 雖然非交通場景專用資料集，但包含廣泛的交通類別如機車、汽車、行人、自行車等複雜場景元素。共有超過20萬張高品質標註影像，其中逾8萬張包括交通目標。 + 以COCO進行預訓練，再以UA-DETRAC進行fine tuning。 ![image](https://hackmd.io/_uploads/SJIRVbznex.png) + 模型流程： + Data Preprocessing + Normalization + Data Enhancement + brightness enhancement + random cropping + horizontal flipping + gamma correction + color dithering + Scale Transformation + 訓練中使用random interpolation scaling讓模型能適應不同尺度的目標 + YOLOv10 Backbone + 負責基礎特徵提取，使用改良的CSPDarkNet ![image](https://hackmd.io/_uploads/SkzEcZznxg.png) + BiFPN multi-scale feature fusion + 提升多尺度處理能力，在複雜交通環境偵測小型與遠距目標時效果更好 ![image](https://hackmd.io/_uploads/rJocobz2el.png) + DETR Transformer header + 捕捉遠距離目標間的關聯性，有效抑制遮擋、重疊及複雜背景的影響 ![image](https://hackmd.io/_uploads/rkoh3bfheg.png) + Final Detection Output + 混和了YOLO的無錨點機制與DETR的查詢式目標匹配方法 + 測試結果： ![image](https://hackmd.io/_uploads/Sknp6WMnge.png) + 相比YOLOv10的mAP提高了8.0%、小目標偵測能力提升了9.7%，雖然YOLOv10速度最快，但小目標的偵測能力略有不足。 + 相比Faster R-CNN和Cascade R-CNN在保持較高精度的同時，顯著提高了推理速度，更適合即時應用。 + Deformable DETR雖然在小目標偵測方面表現較好，但由於其計算複雜度高，推理速度較慢。 + EfficientDet-D4雖然具有輕量化設計的優勢，但在密集場景下的偵測精度略低。 + YOLOF在計算效率方面較有表現，但整體檢測精度仍低於其他方法。 + Ablation Study: ![image](https://hackmd.io/_uploads/rJ03yzGhgg.png) ![image](https://hackmd.io/_uploads/SkZ8-GMhll.png) + 在移除BiFPN結構後，小目標偵測能力(APsmall)下降了5.8%，表明BiFPN在多尺度目標偵測中提升明顯。 + 去除DETR header後，mAP下降了4.9%，表示Transformer機制顯著增強了global feature modeling的能力，進而提高了辨識精度。 + 僅使用DETR header的模型雖然增強了global feature modeling，但由於缺乏BiFPN的multi-scale feature fusion，其對小目標檢測能力仍然有限，僅45.7%。 + 在Jetson AGX Xavier嵌入式設備上的幀率僅比YOLOv10 Backbone低約2.3，但檢測精度提高了8.0%，小目標檢測能力也提高了9.7%。顯示即便Transformer架構複雜，經過BiFPN優化後也具有Edge Computing的應用潛力。 + 不同場景下的測試效果： ![image](https://hackmd.io/_uploads/B1zibfz2ex.png) + 光照環境影響： + 白天場景下的IoU為最高的77.2%；夜間場景下的IoU則下降到69.5%，因為弱光環境使得特徵提取更加困難。 + 夜間場景下推理時間略為增加，表明模型在弱光條件下需要更長的計算時間。 + 天氣影響： + 使用UA-DETRAC的不同天氣下的影像測試。 + 在晴天環境下IoU可達75.8；在霧天環境下IoU下降到64.7%，且推理時間增加。霧霾降低了影像的清晰度，影響目標邊界的辨識精度。 + 霧天環境量化誤差略有增加，顯示在極端天氣條件下仍有一定的泛化能力問題。 + 車流密度影響： + 低密度場景下的IoU值達到最高的78.1%；高密度交通環境中IoU值下降到66.3%。 + 高密度場景推理時間略有增加但量化誤差保持相對穩定，表示模型的適應性較佳。 ## Vehicle Target Detection Model Based on CBAM-BiFPN and Improved CenterNet Coding. 2025 CenterNet屬於Anchor-free algorithm，透過在目標中心點生成target frame，將target detection轉換為key point regression，不需要複雜的後處理如NMS來精簡detection frame。但使用的backbone ResNet在經過多次down-sample、encode、decode後會遺失大量的淺層特徵。 + Optimized Detection-Classification Decoupling Encoding Mechanism + Feature Decoupling Strategy：提出一種decoupling的中心點編碼方法，將車輛目標的geometric attributes與classification features分離到獨立的feature map，有效緩解multi-task feature之間的干擾。 + Stepwise Detection Framework：建立一個cascaded detection-classification architecture，透過專用的classification head增強車輛目標的通用特徵跟類別間的鑑別度。 + Hybrid Attention-Based Bidirectional Feature Fusion Network + Cross-Scale Feature Fusion：設計了一個BiFPN結合了channelspatial attention mechanisms(CBAM)，融合淺層detail features與深層semantic features。 + Contextual Information Enhancement：加入跨尺度連結來補償淺層feature的流失，透過分析空間和通道維度來提升特徵利用率。 + Orientation-Aware Feature Fusion Strategy + Geometric Feature Encoding：將車輛的幾何屬性如長寬比融入classifier以增強同類特徵的一致性。 + Multi-Granularity Feature Aggregation：透過local detail enhancement和global shape constraints的協同優化來提升robustness。 + Dynamic Feature Enhancement Mechanism + Adaptive Feature Selection：根據attention weights來動態調整不同尺度的特徵貢獻，增強關鍵特徵response。 + Dual-Dimension Feature Refinement：開發spatial-channel joint optimization module來抑制背景干擾。 + 資料集來源：UA-DETRAC、BDD100K。 + UA-DETRAC: 140131張拍攝於北京、天津、河北地區的960\*840解析度影像。包含8259個人工標註的車輛，共標註了121萬個車輛目標。種類包括cars、buses、trucks等。70%用於training、15%用於validation、15%用於testing。 + BDD100K: 約10萬張高畫質影片片段與影像，涵蓋城市街道、郊區和居民區等城市環境，共184萬個bounding box，涵蓋了bus、bicycle、truck、car等10種類別。其中7萬張用於training，2萬張用於testing，1萬張用於validation。本次實驗針對了cars、trains、buses三種類別進行訓練，由於test set的label未公開，因此使用validation set來評估效能。 + CenterNet： ![image](https://hackmd.io/_uploads/rJtapcD2le.png) + input image -> 預處理 -> 使用backbone network提取特徵 -> 將feature map送入detection head預測目標中心點的heat map、offset、width、height。 + BiFPN： + FPN透過top-down path融合不同尺度的特徵，但使network更注重底層特徵。透過加入weighted bidirectional connection有效處理特徵融合與尺度調整。 + CBAM： + 透過attention mechanism讓network能優先關注影像中的重要區域。CBAM會產生spatial attention跟channel attention的feature map並整合。 + 模型架構： ![image](https://hackmd.io/_uploads/Hk8BMoP3lg.png) + Feature fusion network based on CBAM-BiFPN：透過結合CBAM(Convolutional Block Attention Module)與BiFPN來加強高層semantic information與底層spatial details的融合效果，並強調feature map中的關鍵區域。 ![image](https://hackmd.io/_uploads/S1o8rsw3gl.png) + CBAM由通道注意力模組(CAM)和空間注意力模組(SAM)組成，CAM提取feature map中更有價值的資訊，SAM則更關注影像中語意相關的區域。 + 將CBAM處理過的特徵逆向注入回BiFPN中，實現跨層attention精細化，讓高層attention weights可以動態調整底層特徵。 + 在淺層(P3~P4)，spatial attention起主導作用，以保留定位車輛所需的幾何細節；在深層(P5~P7) channel attention則更重要，用於增強車輛分類所需的語意特徵分辨能力。 + Coding Optimization：修改編碼策略降低車輛目標訊息之間的干擾。 ![image](https://hackmd.io/_uploads/HkxgwjDnel.png) + CenterNet將不同類別目標的中心點映射到不同feature map上，每個feature map對應一個特定類別。 ![image](https://hackmd.io/_uploads/rJHVuovneg.png) ![image](https://hackmd.io/_uploads/HkQ9usv2xl.png) ![image](https://hackmd.io/_uploads/ByIOKoP3xe.png) + 透過將所有車輛目標的中心點對應到同一個feature map上，讓feature map只需要偵測中心位置而不用考慮類型，再透過class map來分類車輛類型，降低了負樣本(背景)對分類的影響。 + Directional feature fusion： ![image](https://hackmd.io/_uploads/Hyo2Kswnee.png) + 使用decouple head來進行最終檢測。Scale head的資訊用於表示包含車輛的長寬、比例、形狀等細節，透過把Scale head的特徵用加法融合到Class head中提升分類的準確性。 + Network structure design： ![image](https://hackmd.io/_uploads/Hye2ojvnlg.png) + 從one stage變成two stage。 + 為了適應CenterNet的編碼方式，增加了一個特徵融合層，透過重複兩次BiFPN來實現。 ![image](https://hackmd.io/_uploads/r1v0nsD3le.png) ![image](https://hackmd.io/_uploads/B1aAhsD2xe.png) + Evaluation Index：precision(P)、recall(R)、F1-Score、Frames Per Second(FPS)、mean average precision(MAP) + Result： ![image](https://hackmd.io/_uploads/HJrYKGf2xg.png) ![image](https://hackmd.io/_uploads/rJiFtzMnel.png) ![image](https://hackmd.io/_uploads/Hyk9Fzf3xg.png) ![image](https://hackmd.io/_uploads/By7cFfM2el.png) ![image](https://hackmd.io/_uploads/rJv9Kff2ex.png) + Code optimization：雖然在van、bus上recall有所降低，但精確度都有所提升。 + Directional feature fusion：recall相比只優化編碼降低得更少，其他數值也都有提升。 + BiFPN：所有數值都具有提升，尤其提高公車的偵測性能。 + CBAM：雖然car的recall降低，但van的P有顯著提升。 + Total：跟原始演算法相比，P提升2.6%、recall提升1%、F1提升1.8%、map提升1.6%。在ap上car提升了1.7%、van提升了2.5%、其他車輛提升了0.8%、bus提升了1.7%。 ![image](https://hackmd.io/_uploads/rJqatGGnle.png) ![image](https://hackmd.io/_uploads/Sy-AKzGngg.png) ## Vehicle detection and classification using an ensemble of EfficientDet and YOLOv8. 2024 + 資料集：Forward-Looking Infrared (FLIR) dataset ![image](https://hackmd.io/_uploads/S1b5cfz2ll.png) + 架構： + ![image](https://hackmd.io/_uploads/By0KoMG3gx.png) + EfficientDet: 以EfficientNet為backbone採用BiFPN + YOLOv8：CSPDarknet53 backbone + 分開訓練後辨識同一影像 + Non-Maximum Suppression合併重疊框 + majority voting ![image](https://hackmd.io/_uploads/SkVTizz3ee.png)