Hồ Chí Minh, 04-11-2023 [Võ Duy Nguyên](https://nguyenvd-uit.github.io/), [UIT-Together Research Group](https://uit-together.github.io/) Bài toán Phát hiện đối tượng === ## Mục lục [TOC] ## Giới thiệu Bài toán phát hiện đối tượng trong ảnh là một trong những bài toán cơ bản của lĩnh vực thị giác máy tính. ``` Đầu vào của bài toán là: ảnh Đầu ra của bài toán là: nhãn và vị trí các đối tượng (nếu có) trong ảnh. ``` Minh họa đầu vào, đầu ra của bài toán phát hiện đối tượng. ![inoutOD_02.jpg](https://hackmd.io/_uploads/BJo6kkNmp.jpg) Đầu vào là ảnh, đầu ra nhãn (*cat*) và vị trí (*x,y,w,h*). [Nguồn ảnh [cs221n](http://cs231n.stanford.edu/slides/2022/lecture_9_jiajun.pdf)] Vị trí của đối tượng khi trực quan trên ảnh có dạng hình hộp bao đối tượng (bounding box - bbox). Có nhiều cách để lưu trữ thông tin (tọa độ trên ảnh) của bbox. Trong ví dụ trên, bbox sử dụng *định dạng MS-COCO* gồm **(x,y,w,h)**. Trong đó, (x,y) là điểm trái trên của bbox, w là chiều rộng của bbox, h là chiều cao của bbox. Xem thêm các định dạng [pascal voc, yolo](https://hackmd.io/@UIT-Together/convertdataset) ## Minh họa một số bài toán phát hiện đối tượng ### Ví dụ 01: Phát hiện đối tượng trong ảnh ... ### Ví dụ 02: Phát hiện đối tượng trong không ảnh ... ### Ví dụ 03: Phát hiện đối tượng trong tài liệu dạng ảnh ... Tài liệu hướng dẫn dùng cho nhóm [UIT-Together Research Group](https://uit-together.github.io/)