Hồ Chí Minh, 04-11-2023
Võ Duy Nguyên, UIT-Together Research Group
Bài toán phát hiện đối tượng trong ảnh là một trong những bài toán cơ bản của lĩnh vực thị giác máy tính.
Minh họa đầu vào, đầu ra của bài toán phát hiện đối tượng.
Đầu vào là ảnh, đầu ra nhãn (cat) và vị trí (x,y,w,h). [Nguồn ảnh cs221n]
Vị trí của đối tượng khi trực quan trên ảnh có dạng hình hộp bao đối tượng (bounding box - bbox). Có nhiều cách để lưu trữ thông tin (tọa độ trên ảnh) của bbox. Trong ví dụ trên, bbox sử dụng định dạng MS-COCO gồm (x,y,w,h). Trong đó, (x,y) là điểm trái trên của bbox, w là chiều rộng của bbox, h là chiều cao của bbox.
Xem thêm các định dạng pascal voc, yolo
…
…
…
Tài liệu hướng dẫn dùng cho nhóm UIT-Together Research Group