YOLO介紹 - HackMD

# YOLO介紹 ## 甚麼是YOLO? 1. YOLO (You Only Look Once) 是**One stage**的物件偵測方法，也就是只需要對圖片作一次 CNN架構便能夠判斷圖形內的物體位置與類別。 1. 除了YOLO之外，還有很多其他的深度學習物件偵測方法，如R-CNN、Fast R-CNN、Faster R-CNN和Mask R-CNN等。這些方法各有特點和優勢，但YOLO的最大特色在於速度和精確度。YOLO可以在短時間內檢測到影像中的多個物體，並且具有很高的準確性，這使得YOLO在**邊緣運算**中非常受歡迎。 > **Two stage**: 假設一張圖選出一千個物件，後面的辨識就用重複做一千次，這種無法做及時運算。Example: R-CNN(Regions with CNN features),fast R-CNN,faster R-CNN。 > **One stage**:YOLO、SSD。SSD: Google在2015年12月提出 Single Shot Detector (SSD)　*「We present a method for detecting objects in images using **a single deep neural network**.」* ## 名詞介紹 ![image](https://hackmd.io/_uploads/rkT7c40W1g.png) * Precision:精準度，代表預測為正的樣本有多少正確。 ![image](https://hackmd.io/_uploads/S1l1P5ECWkl.png =60%x) * Recall:召回率，代表真正為正的樣本中有多少被預測為正。 ![image](https://hackmd.io/_uploads/r1b8qECWyg.png =60%x) * AP(Average Precision):平均精度，綜合參考Precision和Recall。 * mAP(mean Average Precision):多個類別下，平均精度AP的均值。 * mAPval (mean Average Precision on the validation set):在驗證集上的mAP。 * IoU((Intersection overUnion)):IOU=area of overlap/area of union,IoU就等於交集的面積/聯集的面積。換個意思，預測邊框（predicted box）和真實邊框（ground truth box）的交集/並集，這個值會介於0~1之間，越接近 1，表示預測越準確。 ![image](https://hackmd.io/_uploads/r14G7RogJl.png) Generally, IoU > 0.5 為合格預測框。 Unusually, IoU>0.7 高準確水準。 * mAPval 50-95:代表驗證集上的IoU =50-95之間的mAP。 https://claire-chang.com/2023/08/16/yolov8%E6%A8%A1%E5%9E%8B%E8%A8%93%E7%B7%B4%E5%8F%8A%E5%85%B6%E6%8C%87%E6%A8%99%E6%84%8F%E7%BE%A9/ ## 版本差異 YOLOv8與YOLOv5同樣是Ultralytics 這家公司所製作 YOLOv8 跟以往不同的地方是: * 無錨檢測（Anchor Free Detection） * 新的卷積層（New Convolutions） * 關閉馬賽克增強（Closing the Mosaic Augmentation）在 YOLO 系列模型（如 YOLOv5 或 YOLOv8）中，mosaic 是一種資料增強技術，用於將 4 張圖片拼接成一張圖，幫助提升模型的泛化能力。Mosaic 能夠在訓練期間同時增加背景的多樣性和縮放變化，使模型在各種場景下表現得更好。 ![image](https://hackmd.io/_uploads/BkAMrR6xyg.png) 由下方圖片可以看到，Yolov8 目前推論的效果是贏過其他 Yolo 系列，並且提供五種模型大小 : YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l、YOLOv8x ![image](https://hackmd.io/_uploads/rkJ2XRpgJe.png) ## YOLOv8介紹 ![image](https://hackmd.io/_uploads/rkVC1Aag1l.png) YOLOv8系列提供很多模式的模型 * Detection 偵測 * Instance Segmentation 實例分割 * Pose/Keypoints 姿態/關鍵點 * Oriented Detection 定向檢測 * Classification 分類 ![image](https://hackmd.io/_uploads/HyCabJne1g.png) * YOLOv8模型n、s、m、l、x由小排到大，模型越大處理速度越慢但越準確。 * params(M):參數，模型的參數數量，以百萬為單位。參數數量通常與模型複雜度和計算需求成正比。 * FLOPs(B):浮點運算數，以十億為單位。指標反應模型運算一次所需的計算量。 ## 訓練參數說明 | 參數 | 默認值 | 描述 | 設置建議 | | ----------- | ------ | ---------------------------------- | --------------------------------------------------------------------------------------------------- | | model | None | 模型文件路徑 | 選擇適合任務的預訓練模型 | | data | None | 數據文件路徑 | 選擇適合的數據集配置 | | epochs | 100 | 訓練週期數 | 考慮數據集和模型規畫調整 | | time | None | 訓練時間 | 適用於有時間限制的訓練。 | | patience | 50 | 早停等待週期 | 若驗證指標在指定回合數內無提升，則停止訓練（早停法）。防止過度擬合。 | | batch | 16 | 批次大小 | 可設為整數（例如batch=16）、自動模式（batch=-1，使用60% GPU記憶體）或指定占用比例（如batch=0.70）。 | | imgsz | 640 | 圖像尺寸 | 適應模型和硬件設置 | | save | True | 是否儲存檢查點和最終模型權重。 | 方便中斷後繼續訓練或模型部署。 | | save_period | -1 | 檢查點保存頻率 | 需要設定時間週期(設為-1則不啟用此功能。) | | cache | False | 使用數據加載緩存 | （記憶體：True/ram，磁碟：disk）。能加快訓練，但會增加記憶體使用量。 | | device | None | 指定訓練所用設備| 單GPU（device=0）、多GPU（device=0,1）、CPU（device=cpu）或Apple Silicon（device=mps）。 | | workers | 8 |加載數據的工作線程數 | 多GPU時，增加此數值可提升數據預處理速度。 | | project | None | 設置專案目錄名稱 |自訂義區分的項目 | | exist_ok | False | 是否覆蓋現有實驗 | 如果為True，對迭代實驗有用| | pretrained | True | 使用預訓練模型| 可為布林值或指定模型的路徑，能提高訓練效率和模型表現。| | optimizer |'auto' | 優化器選擇 | 選擇訓練優化器，如SGD、Adam、RMSProp等，或使用auto根據模型自動選擇。影響收斂速度與穩定性。| | verbose | False|詳細輸出|提供詳細日誌和進度更新 | | seed | 0 | 設置隨機種子|可以是任意整數| | deterministic | True|強制使用確定性算法，確保可重複性。|結果一致時啟用| | single_cls | False | 單類訓練 |適用於二元分類或只關注目標物是否存在的情況。| | rect | False| 啟用矩形訓練，優化批次組合以減少填充量。| 提升效率但可能影響模型準確度。 | | cos_lr |False | 余弦學習率調度 | 隨回合調整學習率，有助於收斂。| |close_mosaic | 10 | 關閉馬賽克數據增強 |close_mosaic=0不關閉 Mosaic | * close_mosaic close_mosaic 參數的作用是在訓練的最後幾個 epoch 停用 Mosaic 增強，以穩定模型的最終性能。雖然 Mosaic 在訓練初期非常有幫助，但在訓練的最後幾個 epoch，模型更需要在單一圖像上微調（Fine-tune）。提升模型收斂效果，減少過擬合。 (1) Mosaic 拼接會影響圖片的真實性，可能導致邊界框預測不精確。 (2)關閉 Mosaic 有助於模型在最後階段更準確地學習真實場景中的物體。參數設置： close_mosaic=N：表示在訓練的最後 N 個 epoch 關閉 Mosaic 增強。 close_mosaic=0：表示不關閉 Mosaic，一直使用到訓練結束。範例close_mosaic =10，表示在訓練的最後 10 個 epoch 關閉 Mosaic 增強。也就是第90個epoch(黃色的區域)。 ![image](https://hackmd.io/_uploads/Bkp--Aefkg.png) 所有參數顯示 ![image](https://hackmd.io/_uploads/Hyig4ew7yl.png) ## 訓練指標 ### result.png ![image](https://hackmd.io/_uploads/S1hztabz1x.png) #### loss functions 損失函數是用來衡量模型預測值和真實值的誤差，越小越準。 * box_loss（Box Regression Loss）:預測框位置的損失函數。 * cls_loss（Class Classification Loss）:預測目標類別。 * dfl_loss（Detection Focal Loss）:焦點損失的主要目標是應對樣本不平衡問題。通常我會看loss functions，有沒有收斂(就是趨近於平緩為止)，或是達到我要的loss值。