0730 - HackMD

![image](https://hackmd.io/_uploads/S1z-fyHdC.png) 我是從objection detection去找的，到時候還要討論到底往哪走 ## Deep learning to object detection > 只看兩行應該還是不知道這些名詞到底怎麼運作的，拜託還要去google或chat找一下 1. **Deep Learning（深度學習）**： - 深度學習是一種機器學習的分支，它通過構建和訓練多層神經網路（深層神經網路）來進行資料分析和模式識別。深度學習在處理複雜任務（如圖像識別、語音辨識和自然語言處理）方面表現出色。 2. **Object Detection（物體檢測）**： - 物體檢測是一種電腦視覺任務，它不僅要識別圖像中的物體，還要定位它們的位置（即在圖像中繪製出這些物體的邊界框）。這是一個複雜的任務，涉及到分類和定位兩個子任務。 3. **CNN（Convolutional Neural Network，卷積神經網路）**： - CNN是一種專門用於處理具有網格狀拓撲結構資料（如圖像）的深度學習模型。它通過卷積層、池化層和全連接層來提取圖像中的特徵，廣泛用於圖像識別和物體檢測等任務。 4. **DCNN（Deep Convolutional Neural Network，深度卷積神經網路）**： - DCNN是指具有多層卷積層的深層卷積神經網路。與傳統的淺層CNN相比，DCNN能夠提取更複雜和抽象的特徵，從而在處理複雜任務時表現更好。 5. **Single-stage(單階段)**： - 是一種物體檢測方法，它在一個步驟中同時進行區域提議和分類。常見的單階段檢測器包括YOLO和SSD。這種方法通常速度較快，因為它避免了兩階段方法中的中間步驟。 6. **Two-stage(雙階段)**： - 是一種物體檢測方法，它分兩個步驟進行：首先生成一組區域提議，然後對這些提議區域進行分類和精細調整。常見的兩階段檢測器包括R-CNN、Fast R-CNN和Faster R-CNN。儘管這種方法通常比單階段方法更慢，但它在精度上通常更高。 7. **NMS（Non-Maximum Suppression，非極大值抑制）**： - NMS是一種後處理技術，用於在物體檢測中移除重複的邊界框。它通過保留具有最高置信度的框，並抑制與其重疊且置信度較低的框，從而減少冗餘檢測。 8. **YOLO（You Only Look Once）**： - YOLO是一種單階段物體檢測器，它在一個前向傳遞過程中同時進行物體檢測和分類。YOLO以其高速度和相對較高的精度著稱，適合即時應用。 9. **SSD（Single Shot MultiBox Detector）**： - SSD也是一種單階段物體檢測器，它通過在不同尺度的特徵圖上預測邊界框和類別，從而實現多尺度物體檢測。SSD以其速度快、結構簡單和較高的檢測精度而聞名。 10. **R-CNN (Region-based Convolutional Neural Network)**: - R-CNN是一種經典的兩階段物體檢測方法，通過提出候選區域並對其進行分類來檢測物體。 11. **Fast R-CNN**: - Fast R-CNN對R-CNN進行了優化，通過共用特徵提取步驟和引入RoI池化層提高了檢測速度。 12. **Faster R-CNN**: - Faster R-CNN進一步優化了物體檢測的速度和準確性，引入了Region Proposal Network（RPN）來實現端到端的檢測。在物體檢測中，"bounding box"、"anchor-free" 和 "anchor-based" 是三種不同的方法來定位影像中的物體。 1. **Bounding Box**： - 這是一個矩形框，用來標識影像中的物體。每個框用四個座標來定義，即左上角和右下角的座標。物體檢測算法的目標是生成這些框來精確地包圍物體。 2. **Anchor-based**： - 這是傳統的物體檢測方法之一，使用預先定義的框（anchors）來幫助檢測物體。這些框具有不同的大小和比例，密集地分布在影像上。 - 物體檢測算法會根據這些預定的框來調整和生成最終的bounding boxes。典型的anchor-based方法包括Faster R-CNN、YOLO和SSD等。 - 例如，在使用YOLO時，影像會被分成多個網格，每個網格會有一些預定的anchor boxes來檢測不同大小和形狀的物體。 3. **Anchor-free**： - 這是一種不依賴預定義框的物體檢測方法。它們直接從影像中學習到物體的位置，通常是基於像素或特徵點。 - 這種方法的目的是減少對預定義框的依賴，並可能提高對不同尺度物體的檢測效果。 - 例如，CenterNet和FCOS是典型的anchor-free方法，它們直接預測物體中心點和尺寸，而不是基於預先定義的anchors。 ### 關係 - **深度學習**是所有這些技術的基礎，它通過訓練深層神經網路來實現複雜的資料分析和模式識別。 - **物體檢測**是深度學習的一個應用領域，專注於在圖像中識別和定位物體。 - **CNN和DCNN**是用於影像處理的深度學習模型，廣泛用於物體檢測任務。DCNN是CNN的擴展，具有更深的層次。 - **single-stage and two-stage**是物體檢測方法的兩種主要類型。單階段方法（如YOLO和SSD）速度更快，而兩階段方法（如R-CNN家族）通常精度更高。 - **NMS**是一種在物體檢測中使用的後處理技術，常用於所有物體檢測器，以減少重複檢測。 - **YOLO**和**SSD**是兩種具體的單階段物體檢測器，以其速度和效率著稱。它們通過不同的架構和策略實現快速和高效的物體檢測。總結來說，深度學習通過CNN和DCNN等模型推動了物體檢測的發展，而單階段和兩階段方法則提供了不同的性能權衡。NMS在檢測後處理中起著關鍵作用，YOLO和SSD是單階段物體檢測的代表性方法。 --- ## 一些資料 CNN: [卷積神經網路的運作原理](https://brohrer.mcknote.com/zh-Hant/how_machine_learning_works/how_convolutional_neural_networks_work.html) Computer vision object detection models: R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN, YOLO: [關於影像辨識，所有你應該知道的深度學習模型](https://medium.com/cubo-ai/%E7%89%A9%E9%AB%94%E5%81%B5%E6%B8%AC-object-detection-740096ec4540) --- ## 論文 > object detection那兩篇超讚，要什麼去那邊的reference找應該都有 1. object detection: * R. Kaur and S. Singh, "A comprehensive review of object detection with deep learning," Digital Signal Processing, vol. 132, p. 103812, 2023. * Z. Zou, K. Chen, Z. Shi, Y. Guo, and J. Ye, "Object detection in 20 years: A survey," Proceedings of the IEEE, vol. 111, no. 3, pp. 257-276, 2023. >As different detection tasks have totally different objectives and constraints, their difficulties may vary from each other. In addition to some common challenges in other computer vision tasks such as objects under different viewpoints, illuminations, and intra-class variations, the challenges in object detection include but are not limited to the following aspects: object rotation and scale changes (e.g., small objects), accurate object localization, dense and occluded object detection, speed-up of detection, etc. In Sec. IV, we will give a more detailed analysis of these topics. 可以從裡面找一個當方向 [name=HannahYang] 2. RCNN: * R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in CVPR, 2014, pp. 580–587. 4. YOLO: * J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” in CVPR, 2016, pp. 779–788. * [一個神奇的地方](https://allen108108.github.io/blog/2019/11/24/%5B%E8%AB%96%E6%96%87%5D%20You%20Only%20Look%20Once%20_%20Unified,%20Real-Time%20Object%20Detection/) ---