Resize輸入的圖到448*448
執行一個卷積神經網路
基於模型輸出的信心程度(Confidence)依據閾值和Non-max suppression得到偵測結果
YOLO用的卷積神經網路
YOLO的卷積網路架構是來自GoogleNet的模型,YOLO的網路有24卷積層(convolutional layer)和2層全連結層(fully connected layer),和GoogleNet不同的地方在於作者在某些3×3的卷積層前面用1×1的卷積層來減少filter數量,(1×1的卷積層通常拿來做降維度的作用,可以減低計算量,且不影響太多mAP)。整體架構如下圖:
卷積神經網路(Convolutional neural network, CNN): 1×1卷積計算
一般API在跑張量(tensor),通常是一個批次量的資料在執行
假設有100筆資料,每個資料都是10*10的彩色圖片(所以每個資料都是3張圖片,分別為R、G、B三張),此時的輸入資料的大小就是100 ×10 ×10 ×3,解讀方式batch ×height × width × channel,這個解讀很重要,因為除了影像的長跟寬之外,又多了兩個分別是batch和channel名詞。